圖1 以數據為中心的圖學習流程

本文貢獻如下:

1  預處理階段

在本節中,我們將討論圖數據預處理階段以數據為中心的方法。具體來說,我們將現有方法分為兩類:基于修改和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類側重于幫助圖模型捕獲數據集的分布,同時保持圖實例不變。此外,我們還考慮不同的數據結構,包括拓撲、特征和標簽。相關方法如表1所示。表1 以數據為中心的圖學習的分類和代表作

1.1? 圖形簡化 (Graph Reduction)

隨著圖規模的增加,時間和空間的計算消耗也會增加。因此,在不丟失太多有用信息的情況下,減少圖的節點或邊是一個很有價值的問題。圖形簡化可以加速模型訓練并減少過擬合,并允許模型在更簡單的硬件條件下進行訓練。圖形簡化可以分為兩類:邊簡化(Edge reduction)和節點簡化(Node reduction)。邊簡化指的是圖稀疏化,而節點簡化包括圖簡化(Graph coarsening)和圖凝結(Graph condensation)。

1.2  圖形增強 (Graph Augmentation)

數據增強在深度學習中被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此好的增強方法的重要性更加明顯。與其他數據形式相比,圖形增強直接操作圖結構,是圖數據增強中最具特色的類型。

1.3  特征增強 (Feature Augmentation)

特征增強通過修改或創建節點特征來提高模型性能,防止過擬合。對于已有特征的圖,可進行特征損壞、洗牌、遮蔽、添加、重寫、傳播、混合等操作。對于無特征的節點,可通過deepwalk、node2vec、SDNE等方法生成特征。非標記圖中,可通過GREET等方法進行無監督學習實現特征增強。特征增強方法多樣,可針對具體問題進行定制。

1.4  位置編碼 (Position Encoding)

消息傳遞神經網絡(MPNN)受限于1-Weisfeiler-Lehman(WL)測試,無法區分同構圖。為解決此問題,通過添加位置信息增強節點特征,稱為位置編碼,包括絕對位置編碼(APE)和相對位置編碼(RPE)。APE為每個節點分配一個位置表示,廣泛使用的方法是圖形拉普拉斯的固有向量。RPE編碼兩個節點之間的相對信息,分為一維相對位置編碼(1D-RPE)和二維相對位置編碼(2D-RPE)。1D-RPE將錨點與目標節點之間的距離作為位置表示,2D-RPE通常用作圖結構的歸納偏差,廣泛應用于圖Transformer架構中。

1.5  標簽混合 (Label Mixing)

標簽混合的目標是創建泛化性更強的模型,防止過擬合。混合方法在圖分類和節點分類任務中很重要。通過混合圖嵌入或隨機替換子圖,可以增強模型面對圖分類任務的能力。在節點分類任務中,混合鄰居節點的標簽或嵌入可以提高性能。知識蒸餾可以幫助修改標簽,為未標記的節點生成偽標簽。圖2展示了三種理解圖數據分布的方法:圖課程學習、圖采樣和圖生成。

圖2 圖形數據分布及相關方法,其中紅色圓圈表示數據樣本

1.5.1  圖的課程學習 (Graph Curriculum Learning)

課程學習(CL)是一種模仿人類學習過程的訓練策略,通過從簡單到復雜的樣本進行學習,幫助模型更快收斂并提高泛化能力。圖課程學習(Graph CL)是一種基于圖的課程學習方法,主要用于圖形神經網絡的訓練和優化。Graph CL方法可分為預定義的和自動的,預定義的Graph CL通過設計難度測量器和訓練調度器來實現。設計難度測量器可以從數據或樣本屬性、數據關系等多個角度進行。訓練調度程序可分為連續調度程序和離散調度程序。

1.5.2  圖采樣 (Graph Sampling)

圖采樣方法通過不同的策略對節點進行采樣,只聚合部分節點的信息,從而加快模型收斂速度并減少內存開銷。啟發式采樣方法可以劃分為兩個類別:隨機采樣和重要性采樣。隨機采樣方法根據特定策略隨機抽樣要采樣的子集的節點,如GraphSAGE、Cluster-GCN和Parallelize Graph Sampling。重要性抽樣根據抽樣策略對節點執行不同的抽樣概率,如FastGCN、LADIES、GraphSAINT和PinSage。這些方法有助于克服鄰域爆炸和內存溢出問題,提高模型性能。

1.5.3  圖生成 (Graph Generation)

圖生成器可以幫助解決圖數據集太小的問題,通過生成額外的圖數據。圖生成方法分為自回歸 (autoregressive) 和一步法 (one-shot)。自回歸方法通過已生成的子圖來創建新的節點和邊,而一步法通過一次步驟生成整個鄰接矩陣。One-shot方法比自回歸方法更有效,但如何表示圖形數據以更有效地建模仍然是一個挑戰。從譜視角出發的方法可以更有效地捕獲圖的全局信息,而特定圖的生成方法可以滿足特定的應用場景。

2  訓練階段

這一部分介紹訓練階段中通過數據修改模塊和消息傳遞模塊相互協作來提高性能的圖數據修改方法。具體介紹了三種模型與數據協作的訓練模式,包括聯合訓練、自訓練和雙層訓練。相關的方法如表1所示。

2.1  圖自適應增強

傳統的基于規則的增強方法可能不足以在下游任務中實現更強的魯棒性和性能。相反,圖自適應增強方法在訓練階段結合了增強程序。可分為三類:基于邊、基于子圖、自動增強。基于邊的方法在某些損失函數的監督下操作鄰接矩陣,基于子圖的方法側重于提取信息豐富的子圖,而自動增強框架通過強化學習增強普通方法。

2.2  圖自適應采樣

自適應和可學習的采樣算法,通過模型訓練更新采樣策略,實現最佳性能。這些算法通常對采樣策略施加可學習的權重或概率,以自適應地調整采樣。可學習的參數在正向傳播中計算,并在反向傳播中更新。這些方法分為兩類:最小方差采樣和最大性能采樣。最小方差采樣旨在分析或減少采樣方差,以近似原始的全鄰域聚合。最大性能采樣直接優化模型性能,例如PASS使用梯度信息和任務性能損失來訓練采樣策略。

2.3  特征選擇

“維數災難”是指高維數據導致模型訓練成本增加的問題。特征選擇(FS)是一種解決“維數災難”的方法,通過識別與標簽高度相關的特征并優先考慮它們,降低計算成本并提高模型性能。在圖學習中,通常采用嵌入式和包裝器FS方法。嵌入式FS與模型的訓練過程集成在一起,而包裝器FS利用機器學習算法評估特征的重要性。基于Lasso的正則化方法和修改網絡結構的方法都是嵌入式FS的常見策略。包裝器FS方法不同于排名方法,引入了自適應鄰居結構和更新的特征指示器,以強調自適應鄰居結構,然后使用特征指示器對特征進行排序。

2.4  特征補全

數據質量在以數據為中心的學習任務中至關重要,但在訓練場景中,數據往往不完整。圖學習通過特征補全解決此問題,提取相鄰節點屬性以獲得缺失節點屬性的表示。傳統方法用其他屬性向量的總和或平均值替換缺失屬性向量,忽略數據基本圖結構。注意力算法、消息傳遞神經網絡和集成方法等新方法被提出,以提高特征補全的準確性和多模態屬性完成的能力。

2.5  圖結構學習

圖結構學習(GSL)是一種優化拓撲結構的方法,有助于緩解圖模型魯棒性受噪音影響的問題。聯合訓練和雙層優化通過優化圖結構和神經網絡參數,提高模型在稀疏圖上的去噪能力和對特征和語義之間復雜異構交互的理解。自我訓練方法通過訓練循環網絡產生高質量的網絡嵌入,進而訓練圖卷積網絡以獲取更好的網絡嵌入。

2.6  圖的自適應學習

自適應學習是一種半監督學習方法,用于圖機器學習,通過調整實例難度和訓練進度來更有效地利用圖結構信息。具體方法包括DSP-GCN、CGCT和SPCGNN,它們通過調整標簽增強策略來控制偽標簽質量,減輕偽標簽對訓練數據增強的負面影響。自適應學習也可被視為一種自動課程學習方法,與其他類型的自動圖課程學習方法類似。

2.7  主動學習

在圖學習數據集中,存在大量未標記數據,主動學習選擇最有價值的樣本進行標記,以提高標簽率和GNN模型性能。主動學習分為三類:成員查詢合成、流式和基于池的。基于池的主動學習經常與GNN結合使用,可按查詢方法分為基于不確定性的采樣、基于多樣性的采樣和混合模型。

2.8  偽標簽

偽標簽是一種解決圖神經網絡中未標記數據和難以標記問題的方法。與主動學習不同,偽標簽使用訓練好的模型預測未標記數據,并參考相應指標進行標注。這些指標通常是預測樣本標簽的置信度。偽標簽分為自訓練模型和聯合訓練模型,它們主要在閉環迭代過程中是否依賴自身模型的估計和偽標簽的預測。

3  推理階段

推斷階段是將預訓練圖模型應用于下游任務的階段,通過將下游任務重新定義為統一模板,實現高質量的知識轉移和多任務適應。推理數據是在預訓練模型推理階段使用的圖數據,調整推理數據作為提示有助于獲得所需目標而不改變模型參數。提示學習方法在圖的上下文中逐漸流行,分為兩類:預提示和后提示,取決于任務特定提示是在消息傳遞模塊之前或之后運行,如圖1所示。

3.1  預提示

預提示方法通過修改輸入圖形數據以促進下游任務的適應。AAGOD利用提示學習在不改變GNN主干網絡參數的情況下實現適應,通過將可學習的實例特定提示作為參數矩陣疊加在原始輸入圖的鄰接矩陣上來修改拓撲結構。多任務提示方法通過構建誘導圖并將節點級和邊級任務重新定義為圖級別任務,為輸入圖設計提示令牌并在消息傳遞之前通過加權所有提示令牌來修改每個節點的特征。

3.2  后提示

后提示方法通過在已傳遞消息的表示上運行任務特定的提示,以實現下游任務的適應。GraphPrompt和GPPT是圖領域中提示學習的早期嘗試,它們通過鏈接預測任務進行預訓練,并利用可學習的提示來指導每個下游任務。GraphPrompt采用自監督鏈接預測任務,通過添加虛擬節點將節點分類任務和圖分類任務統一為鏈接預測形式,消除了預訓練任務與下游任務之間的差距。GPPT則主要關注節點分類任務,將特定任務的提示與節點表示拼接起來以指導適應。

4  圖數據常見問題

本文討論了在以數據為中心的方法中處理圖數據問題的常見方法。首先,圖數據中的脆弱性問題可以通過證書方法提高數據對擾動的魯棒性。其次,不公平性問題可以通過公平性感知圖增強和基于插值和純化的圖增強來解決。再次,選擇性偏差可以通過穩定學習來緩解。最后,異構性問題可以通過圖結構學習來減輕。

5  未來方向

標準化圖形數據處理。現有圖結構構建和數據處理方法受限于專家先驗知識,導致圖數據在不同領域間的可遷移性差。使用大型語言模型(LLMs)處理圖數據,將節點特征統一在語言空間中,有助于在不同領域間轉移知識。

提高通用圖形數據質量。防止圖模型受有問題的圖數據影響至關重要。一種通用的方法是檢測圖數據缺陷并提高其質量。AAGOD通過自適應調整分布外圖的邊權值,將其變換成訓練分布,以提高圖模型性能。

圖數據的持續學習。持續學習使深度學習模型能不斷從數據流中學習新知識。圖數據也可從圖模型的預測中學習知識,優化自身。例如,圖壓縮方法利用圖模型的梯度生成新圖數據,可視為數據持續學習的特例。

少樣本學習和上下文學習。“圖基礎模型”有望對圖數據挖掘產生重大影響,關鍵在于賦予圖模型在少樣本和上下文上的學習能力。GraphPrompt首次嘗試將圖相關任務統一到鏈接預測框架中,并設計出任務相關的圖提示。

參考資料:

《 Data-centric Graph Learning: A Survey》

文章轉自微信公眾號@算法進階

上一篇:

卷積神經網絡特征圖的可視化(CNN)

下一篇:

神經網絡訓練技巧匯總(Tricks)
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費