圖1 幾何圖神經網絡與傳統方法在分子性質預測、蛋白質-配體對接和抗體設計方面的性能比較。

2  對稱性的基本概念

2.1  轉換和組

對稱性定義了一個對象在一定變換下保持不變的屬性。例如,空間中兩點間的距離不受旋轉或移動的影響。在數學上,這些變換構成了一個群,具體細節參見[58]。

群是一種變換的集合,具有二元運算,滿足封閉、結合、單位元和逆元等性質。常見的應用例子包括歐幾里得群、仿射群、特殊的仿射群、歐幾里得群和Lie群等。群也被稱為置換群,其元素是對給定集合元素的置換。

2.2  群表示

群運算可以用矩陣乘法來實現,歐幾里得群O(d)和SO(d)的表示由歐幾里得矩陣定義,翻譯群T(d)可以通過仿射空間使用齊次坐標來推導。群的表示不是唯一的。

2.3  等方差和不變性

函數?在輸入向量空間X和輸出向量空間Y之間被稱為G-同態,當它與G中的任何變換相容時。通過實現群運算·和群表示,可以將公式重寫為?(ρX(g)x)=ρY(g)?(x),其中ρX和ρY分別是輸入和輸出空間中的群表示。等方差誘導了以下令人滿意的特點,包括線性性、可組合性和繼承性。在GNN中,函數?被設計為不變或同態的。

3  數據結構:從圖到幾何圖

本節定義并描述了圖和幾何圖之間的差異。表1總結了本文中使用的符號。

3.1  圖

圖被定義為G=(A,H),其中A是鄰接矩陣,H是節點特征矩陣。從圖中可以衍生出節點集合V和邊集合E等重要概念。此外,圖還可以包含邊特征。圖變換可以通過改變節點的順序而不改變圖的拓撲結構來實現,這種變換被表示為g·G=(PgAPg?,PgH)。在AIDD領域,分子可以被視為圖,其中節點是原子,節點特征是原子數的獨熱編碼,邊是化學鍵的存在或基于原子之間的相對距離構建,邊特征可以是化學鍵的類型和/或相對距離。

3.2  幾何圖

幾何圖形定義為?G := (A, H, ?X),其中A是鄰接矩陣,H是節點特征矩陣,?X是所有節點的三維坐標。幾何圖形的變換包括置換、正交變換(旋轉和反射)和平移。這些變換可以幫助我們更全面地了解整個系統在三維空間中的配置,利用諸如鄰近節點的相對方向和速度等方向量等重要信息。幾何圖形在科學任務中建模各種對象,如小分子、蛋白質、晶體、物理點云等,是一種強大而通用的工具。

4  模型:幾何GNN

本節首先回顧了拓撲圖上的消息傳遞神經網絡(MPNN)的一般形式,然后介紹了能夠處理幾何圖的三種幾何GNN:不變GNN、同態GNN以及幾何圖變換器。最后,本文簡要介紹了討論幾何GNN表達能力的相關工作,并在圖4中展示了幾何GNN的分類。

4.1  消息傳遞神經網絡

圖神經網絡通過消息傳遞機制在圖結構上傳播信息,通過迭代消息傳遞過程實現拓撲圖上的信息傳播。節點特征和邊特征由消息函數合成,鄰居中的消息通過聚合函數更新節點特征。GNNs具有排列同態性,但不具有內在的E(3)-同態性。本文主要討論后者。

4.2  不變圖神經網絡

在幾何域中,處理歐幾里得變換不變的任務需要提出許多模型,如分子屬性預測。不變圖神經網絡通過更新不變特征來處理這些問題,近年來在消息傳遞機制上進一步發展。這些模型的設計都是為了嵌入歐幾里得變換不變的歸納偏置,以更好地處理幾何域中的任務。SphereNet是一種流行的3D圖神經網絡模型,利用相對距離、角度和扭曲角度進行幾何建模,ComENet是一個高效整合3D信息的模型,通過1跳鄰居的消息傳遞來確保全球完整性。

4.3  等變圖神經網絡

等變圖神經網絡同時更新不變特征和等變特征,具有更強的表達能力,特別是在稀疏幾何圖上。目前實現等變GNNs的具體形式有標量化模型和高階可調模型兩種?;跇肆炕哪P蛯?3D 坐標轉換為不變標量,通過恢復處理標量的方向來更新等變特征,而高階可調模型使用更高階的旋轉表示和球諧函數來擴展等變 GNN 的能力,使其能夠處理更復雜的幾何圖形。

4.4  幾何圖Transformers

幾何圖Transformers,它是一種將Transformer架構應用于幾何圖形數據的方法,以處理更復雜的幾何圖形數據。這種方法在Graphormer、TorchMD-Net、SE(3)-Transformer、LieTransformer、GVP-Transformer、Equiformer、EquiformerV2、Geoformer和EPT等模型中得到了應用。

4.5  表達性的理論分析

在機器學習中,衡量網絡表達性的一個重要標準是其是否具有通用近似性質。在幾何圖學習任務中,人們探索了各種方法來證明其通用性,如TFN、GemNet等。最近,GWL框架從區分幾何圖的角度定義了幾何版本的Weisfeiler-Lehman測試來研究稀疏圖上幾何GNN的表達能力,并討論了各種不變和共變GNN之間表達性的差異。標量化方法也被探索,證實了標量化方法可以普遍近似向量中的任何不變/共變函數。這些研究結果表明共變GNN相對于不變GNN具有優勢。

5  應用

本文系統回顧了與幾何圖學習相關的應用,根據工作系統類型對現有方法進行分類,包括顆粒、小分子、蛋白質、分子+分子、分子+蛋白質、蛋白質+蛋白質和其他領域任務,如表3。文章總結了所有相關的單實例和多實例任務數據集,如表4和表5,并重點討論了利用幾何GNNs的方法,盡管其他方法如基于序列的方法在某些應用中可能適用。

表3 各種幾何GN的任務概括。生成任務指的是可以通過生成模型解決的那些任務,否則被稱為非生成任務??梢杂蒙赡P突蚍巧赡P徒鉀Q的那些任務被稱為混合任務。

粒子領域的應用:粒子用幾何圖表示,包括坐標節點、鍵邊和粒子屬性特征。幾何圖神經網絡廣泛應用于如N-body模擬等物理動力學過程。N-body系統能模擬從量子物理到天文的物理現象。其他例子包括更復雜物理場景的模擬。

分子領域的應用:分子用幾何圖表示,涉及原子坐標、鍵和原子屬性。幾何圖神經網絡廣泛應用于分子性質預測、分子動力學模擬等任務。

蛋白質領域的應用:蛋白質的三維結構決定其功能。兩種表示方法用于蛋白質的幾何圖:殘基節點和原子節點。涉及的任務包括蛋白質性質預測、生成、預訓練等。

分子與分子間的任務:連接器設計涉及預測連接兩個分子的小分子;化學反應任務預測分子間反應產物。

分子與蛋白質間的任務:涉及配體結合親和力預測、蛋白質-配體對接等。這些任務的輸入是分子和蛋白質的幾何圖,輸出是預測的幾何圖。

蛋白質-蛋白質相互作用的任務:涉及界面預測、結合親和力預測等。對稱性保持和預測函數基于幾何圖神經網絡。

其他領域任務:包括晶體性質預測和RNA任務。晶體性質預測需捕捉周期性;RNA任務預測RNA二級結構。數據集包括Materials Project、JARVIS-DFT、ViennaRNA和RNA-Puzzles數據庫。

6   討論與未來展望

盡管在幾何圖譜領域已有顯著進展,但仍有許多待探索的方向。例如,如何將基礎模型如GPT和Gato的成功模式應用于幾何領域,預訓練出對各種下游任務有益的模型,同時處理多種輸入數據和任務。

當前,該領域的數據集往往規模不足,僅通過獨立數據集評估模型可能不夠可靠。因此,需要實現模型預測和實驗驗證的閉環,例如GNoME的端到端管道,包括圖網絡訓練、DFT計算以及自主實驗室。

此外,與大型語言模型(LLM)集成也是重要趨勢。LLM具備豐富的跨領域知識,特定領域語言模型代理(LMA)在特定領域表現出高水平。將這些知識與幾何圖神經網絡(GNN)結合,有望提高GNN在科學應用中的性能和魯棒性。

最后,同態性在提高數據效率和泛化方面重要,但過于堅持同態性原則可能限制模型性能。因此,研究如何在保持同態性和靈活性之間取得平衡具有重要意義,這可能豐富我們對模型行為的理解,為開發更強大、通用的解決方案奠定基礎。

鏈接:A Survey of Geometric Graph Neural Networks: Data Structures, Models and Applications : arxiv.org/abs/2403.00485

文章轉自微信公眾號@Python人工智能前沿

上一篇:

特征工程與數據處理全流程(Python)

下一篇:

吳恩達:28張圖全解深度學習知識
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費