
使用這些基本 REST API 最佳實踐構建出色的 API
圖1 幾何圖神經網絡與傳統方法在分子性質預測、蛋白質-配體對接和抗體設計方面的性能比較。
對稱性定義了一個對象在一定變換下保持不變的屬性。例如,空間中兩點間的距離不受旋轉或移動的影響。在數學上,這些變換構成了一個群,具體細節參見[58]。
群是一種變換的集合,具有二元運算,滿足封閉、結合、單位元和逆元等性質。常見的應用例子包括歐幾里得群、仿射群、特殊的仿射群、歐幾里得群和Lie群等。群也被稱為置換群,其元素是對給定集合元素的置換。
群運算可以用矩陣乘法來實現,歐幾里得群O(d)和SO(d)的表示由歐幾里得矩陣定義,翻譯群T(d)可以通過仿射空間使用齊次坐標來推導。群的表示不是唯一的。
函數?在輸入向量空間X和輸出向量空間Y之間被稱為G-同態,當它與G中的任何變換相容時。通過實現群運算·和群表示,可以將公式重寫為?(ρX(g)x)=ρY(g)?(x),其中ρX和ρY分別是輸入和輸出空間中的群表示。等方差誘導了以下令人滿意的特點,包括線性性、可組合性和繼承性。在GNN中,函數?被設計為不變或同態的。
本節定義并描述了圖和幾何圖之間的差異。表1總結了本文中使用的符號。
圖被定義為G=(A,H),其中A是鄰接矩陣,H是節點特征矩陣。從圖中可以衍生出節點集合V和邊集合E等重要概念。此外,圖還可以包含邊特征。圖變換可以通過改變節點的順序而不改變圖的拓撲結構來實現,這種變換被表示為g·G=(PgAPg?,PgH)。在AIDD領域,分子可以被視為圖,其中節點是原子,節點特征是原子數的獨熱編碼,邊是化學鍵的存在或基于原子之間的相對距離構建,邊特征可以是化學鍵的類型和/或相對距離。
幾何圖形定義為?G := (A, H, ?X),其中A是鄰接矩陣,H是節點特征矩陣,?X是所有節點的三維坐標。幾何圖形的變換包括置換、正交變換(旋轉和反射)和平移。這些變換可以幫助我們更全面地了解整個系統在三維空間中的配置,利用諸如鄰近節點的相對方向和速度等方向量等重要信息。幾何圖形在科學任務中建模各種對象,如小分子、蛋白質、晶體、物理點云等,是一種強大而通用的工具。
本節首先回顧了拓撲圖上的消息傳遞神經網絡(MPNN)的一般形式,然后介紹了能夠處理幾何圖的三種幾何GNN:不變GNN、同態GNN以及幾何圖變換器。最后,本文簡要介紹了討論幾何GNN表達能力的相關工作,并在圖4中展示了幾何GNN的分類。
圖神經網絡通過消息傳遞機制在圖結構上傳播信息,通過迭代消息傳遞過程實現拓撲圖上的信息傳播。節點特征和邊特征由消息函數合成,鄰居中的消息通過聚合函數更新節點特征。GNNs具有排列同態性,但不具有內在的E(3)-同態性。本文主要討論后者。
在幾何域中,處理歐幾里得變換不變的任務需要提出許多模型,如分子屬性預測。不變圖神經網絡通過更新不變特征來處理這些問題,近年來在消息傳遞機制上進一步發展。這些模型的設計都是為了嵌入歐幾里得變換不變的歸納偏置,以更好地處理幾何域中的任務。SphereNet是一種流行的3D圖神經網絡模型,利用相對距離、角度和扭曲角度進行幾何建模,ComENet是一個高效整合3D信息的模型,通過1跳鄰居的消息傳遞來確保全球完整性。
等變圖神經網絡同時更新不變特征和等變特征,具有更強的表達能力,特別是在稀疏幾何圖上。目前實現等變GNNs的具體形式有標量化模型和高階可調模型兩種?;跇肆炕哪P蛯?3D 坐標轉換為不變標量,通過恢復處理標量的方向來更新等變特征,而高階可調模型使用更高階的旋轉表示和球諧函數來擴展等變 GNN 的能力,使其能夠處理更復雜的幾何圖形。
幾何圖Transformers,它是一種將Transformer架構應用于幾何圖形數據的方法,以處理更復雜的幾何圖形數據。這種方法在Graphormer、TorchMD-Net、SE(3)-Transformer、LieTransformer、GVP-Transformer、Equiformer、EquiformerV2、Geoformer和EPT等模型中得到了應用。
在機器學習中,衡量網絡表達性的一個重要標準是其是否具有通用近似性質。在幾何圖學習任務中,人們探索了各種方法來證明其通用性,如TFN、GemNet等。最近,GWL框架從區分幾何圖的角度定義了幾何版本的Weisfeiler-Lehman測試來研究稀疏圖上幾何GNN的表達能力,并討論了各種不變和共變GNN之間表達性的差異。標量化方法也被探索,證實了標量化方法可以普遍近似向量中的任何不變/共變函數。這些研究結果表明共變GNN相對于不變GNN具有優勢。
本文系統回顧了與幾何圖學習相關的應用,根據工作系統類型對現有方法進行分類,包括顆粒、小分子、蛋白質、分子+分子、分子+蛋白質、蛋白質+蛋白質和其他領域任務,如表3。文章總結了所有相關的單實例和多實例任務數據集,如表4和表5,并重點討論了利用幾何GNNs的方法,盡管其他方法如基于序列的方法在某些應用中可能適用。
表3 各種幾何GN的任務概括。生成任務指的是可以通過生成模型解決的那些任務,否則被稱為非生成任務??梢杂蒙赡P突蚍巧赡P徒鉀Q的那些任務被稱為混合任務。
粒子領域的應用:粒子用幾何圖表示,包括坐標節點、鍵邊和粒子屬性特征。幾何圖神經網絡廣泛應用于如N-body模擬等物理動力學過程。N-body系統能模擬從量子物理到天文的物理現象。其他例子包括更復雜物理場景的模擬。
分子領域的應用:分子用幾何圖表示,涉及原子坐標、鍵和原子屬性。幾何圖神經網絡廣泛應用于分子性質預測、分子動力學模擬等任務。
蛋白質領域的應用:蛋白質的三維結構決定其功能。兩種表示方法用于蛋白質的幾何圖:殘基節點和原子節點。涉及的任務包括蛋白質性質預測、生成、預訓練等。
分子與分子間的任務:連接器設計涉及預測連接兩個分子的小分子;化學反應任務預測分子間反應產物。
分子與蛋白質間的任務:涉及配體結合親和力預測、蛋白質-配體對接等。這些任務的輸入是分子和蛋白質的幾何圖,輸出是預測的幾何圖。
蛋白質-蛋白質相互作用的任務:涉及界面預測、結合親和力預測等。對稱性保持和預測函數基于幾何圖神經網絡。
其他領域任務:包括晶體性質預測和RNA任務。晶體性質預測需捕捉周期性;RNA任務預測RNA二級結構。數據集包括Materials Project、JARVIS-DFT、ViennaRNA和RNA-Puzzles數據庫。
盡管在幾何圖譜領域已有顯著進展,但仍有許多待探索的方向。例如,如何將基礎模型如GPT和Gato的成功模式應用于幾何領域,預訓練出對各種下游任務有益的模型,同時處理多種輸入數據和任務。
當前,該領域的數據集往往規模不足,僅通過獨立數據集評估模型可能不夠可靠。因此,需要實現模型預測和實驗驗證的閉環,例如GNoME的端到端管道,包括圖網絡訓練、DFT計算以及自主實驗室。
此外,與大型語言模型(LLM)集成也是重要趨勢。LLM具備豐富的跨領域知識,特定領域語言模型代理(LMA)在特定領域表現出高水平。將這些知識與幾何圖神經網絡(GNN)結合,有望提高GNN在科學應用中的性能和魯棒性。
最后,同態性在提高數據效率和泛化方面重要,但過于堅持同態性原則可能限制模型性能。因此,研究如何在保持同態性和靈活性之間取得平衡具有重要意義,這可能豐富我們對模型行為的理解,為開發更強大、通用的解決方案奠定基礎。
鏈接:A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications : arxiv.org/abs/2403.00485