3.1? 異構知識聚合

為了應對知識圖中知識關系的異構性,我們引入了關系感知知識嵌入層。這一層的設計靈感來源于圖注意機制,能夠全面捕捉知識圖中的各種關系,避免了手動設計路徑的局限性。通過與參數化注意力矩陣的結合,實體和關系依賴的上下文被投影到特定的表示中。項目與連接實體間的消息聚合機制詳述如下:

在知識聚合過程中,利用知識圖中的關系表示項目和實體的鄰近實體,防止過擬合時引入了dropout函數,標準化時使用_Norm_Max函數。非參數權重矩陣根據輸入項和實體表示進行定制,并采用LeakyReLU激活函數。在異構知識聚合前,在知識圖上實施了隨機丟棄操作,以提升推薦系統性能。

3.2? KG增強的數據增強

對比學習在推薦系統領域取得了顯著成功。KGCL、MCCIK和KGIC等方法是引入對比學習技術的知識圖增強推薦方法。但這些方法依賴于隨機增強或簡單跨視圖對比,這會導致不必要的噪聲和無關的補充信息。在知識圖中,大量語義關系至關重要,只有一部分與下游任務相關。未處理無關知識會損害性能。為應對挑戰,建議使用生成模型重建知識圖子圖,專門包含相關關系。詳細解釋見3.3節。構建相關圖后,結合圖協作過濾和異構知識聚合來編碼用戶和項目表示。我們設計了局部圖嵌入傳播層,靈感來自LightGCN中的簡化圖卷積網絡,描述為:

我們使用xu(l)和xi(l)表示用戶u和項目i在第l個圖傳播層的編碼表示。鄰近的用戶/項目表示為Nu和Ni。通過使用多個圖傳播層,基于圖的協同過濾(CF)框架可以捕獲更高階的協作信號。在我們的編碼管道中,Gk和Gk’用于異構知識聚合,生成輸入項的特征向量,同時保留知識圖的語義信息。這些項目嵌入被進一步輸入到基于圖的CF框架中細化其表示。在創建了兩個知識增強的圖視圖后,我們將同一節點的視圖特定嵌入視為正對(例如,(x′u, x′′u?)|u ∈ U)。不同節點的嵌入視為負對(例如,(x′u, x′′u?)|u, v ∈U, u≠ v )。為了實現這一點,我們定義了一個對比損失函數,旨在最大化正對之間的一致性并最小化負對之間的一致性。對比損失可以表示為:

使用余弦相似度函數來測量兩個向量之間的相似度,表示為?? (·)。超參數 ??,稱為溫度,用于 softmax 操作。用戶側的對比損失為 L???????? ???? ,項目側的對比損失為L???????? ????。通過結合這兩個損失,我們得到自監督任務的目標函數,可以表示為 L???? = L???????? ???? +?L???????? ????

3.3 ?帶知識圖譜的擴散模型

受到擴散模型在生成數據方面的啟發,我們提出了一種知識圖擴散模型。該模型旨在從原始知識圖Gk生成相關子圖Guncan。模型經過訓練,能夠識別知識圖中被噪聲破壞的關系。通過逐漸引入噪聲到知識圖譜中的關系,模擬關系的損壞。然后,通過迭代學習,目標是恢復原始關系。這種迭代去噪訓練使DiffKG能夠對關系生成過程建模,減少噪聲影響。最終,利用恢復的關系概率從Gk重建子圖G?? ′。

3.3.1? 噪聲擴散過程

如圖2,知識圖(KG)擴散包含正向和反向兩個過程,并可應用于知識圖譜。我們使用鄰接矩陣來表示知識圖譜,其中項目與實體集Σ中的實體的關系由二進制值指示。前向過程中,知識圖譜的原始結構通過逐步添加高斯噪聲而被破壞,初始狀態為項目的原始鄰接矩陣。在馬爾可夫鏈中,通過在T步逐漸添加高斯噪聲,構造??1:T。參數化從?????1到????的過渡為:

t ∈1,···,T 表示擴散步驟,每一步添加的高斯噪聲的規模由???? ε (0, 1)控制。當T→∞時,狀態T收斂于標準高斯分布。通過利用重新參數化技巧和兩個獨立高斯噪聲的可加性,可以從初始狀態??0推導出狀態????。過程描述為:

????可以重新參數化如下:

為了調節噪聲的添加,采用了一個線性噪聲調度器,其使用三個超參數:??、???????? 和 ?????? 來實現 1? ˉ????。線性噪聲調度器的定義如下:

線性噪聲調度器使用三個超參數:?? ε [0, 1] 控制噪聲尺度,而 ???????? < ?????? ε (0, 1) 設置添加噪聲的上限和下限。接下來,擴散模型學習從 ???? 中去除添加的噪聲,以便使用神經網絡恢復 ?????1。從??T開始,逆向過程通過去噪過渡步驟逐漸重建知識圖譜(KG)內的關系。去噪過渡步驟概述如下:

我們利用由 ?? 參數化的神經網絡來生成高斯分布的均值 ???? (???? , ??) 和協方差 ???? (???? , ??)。

3.3.2? KG擴散過程的優化

為了優化模型,我們最大化原始知識圖關系的證據下界(ELBO)。概率擴散過程的優化目標:log??(??0) ≥ E??(??1 |??0 ) [log???? (??0 |??1)]。

擴散模型的優化目標由兩項組成。第一項衡量0的恢復概率,代表模型重建原始知識圖的能力。第二項調節反向過程中 ?? 在 2 到 T 范圍內的 ?????1 的恢復。優化目標中的第二項旨在通過 KL 散度 D???? (·) 使分布 ???? (???1 |????) 近似于易處理分布 ??(?????1 |???? , 0)。繼[31]之后,步驟??的第二項L??如下:

其中 ????? (???? , ??) 是基于 ???? 和 ?? 來預測的 ??0,由多層感知器 (MLP) 實現。具體來說,我們使用多層感知器 (MLP) 來實例化 ????? (·),該多層感知器將 ???? 和 ?? 的步驟嵌入作為輸入來預測 ??0。我們用 L?? ???????? 表示等式9中第一項的負值,可按下式計算:

我們通過未加權的-||估計高斯對數似然log??(??0 |??1)????? (1, 1)?0||22。L??????????等于L1,所以方程9中的第一項可以被認為是?L1。ELBO可以表示為?L1?ΣT??=2L??。為了最大化ELBO,我們可以通過最小化ΣT??=1L??來優化????? (?? , ??)中的??。具體來說,我們對步驟??進行統一采樣,以在??~U(1, T)上優化L????????。ELBO損失L????????如下所示:

3.3.3? 使用擴散模型生成知識圖

我們設計了一種簡單的推理策略,用于知識圖譜中的關系預測,該策略與DiffKG的訓練相一致。首先,在前向過程中逐步破壞原始KG關系,得到T’。然后,設置^T = T’并執行反向去噪,忽略方差并使用^t-1 = μφ(^t, t)進行確定性推理。接下來,使用^T0重建修改后的KG G’k的結構。對于每個項目i,選擇頂部k^zij(j∈[0, |E | – 1], j∈J和|J | = k),并添加項目i和實體j∈J之間的k關系。這種方法保留了知識圖譜的信息結構,同時在前向過程中加入噪聲,在反向過程中加入確定性推理。

3.3.4? 協同知識圖卷積(CKGC)

為解決擴散模型在生成與下游推薦任務相關的去噪知識圖時的局限性,我們提出CKGC。該方法利用用戶-項目交互數據,將推薦任務的監督信號融入KG擴散優化中。通過聚合用戶項交互數據,模型能更好地捕獲用戶偏好,并將其整合到知識圖中,提高與推薦任務的相關性。這種方法將用戶偏好融入知識圖擴散優化,有效地彌補了知識與推薦任務之間的鴻溝。CKGC的損失函數L????????通過將用戶-項目交互信息和知識圖預測關系概率聚合到項目嵌入生成過程中來計算。具體步驟如下:首先聚合用戶-項目交互信息和知識圖預測關系概率,得到???0,然后更新用戶-項目交互矩陣,整合知識圖信息。接著結合更新后的用戶-項目矩陣和用戶嵌入E??,得到包含知識和用戶信息的項目嵌入E ′ ??。最后計算E ′ ??和原始項目嵌入E??之間的MSE損失,并與ELBO損失一起優化。L????????的表達式如下:

3.4 ?DiffKG的學習過程

DiffKG的訓練包括推薦任務訓練和KG擴散訓練兩部分。KG擴散的聯合訓練包含ELBO損失和CKGC損失兩個損失分量,并同時進行優化。因此,KG擴散的損失函數可以表示為:

為了平衡 ELBO 損失和 CKGC 損失的貢獻,我們引入了一個超參數 ??0 來控制它們各自的強度。對于推薦任務,我們將原始貝葉斯個性化排名(BPR)推薦損失與前面提到的對比損失 L???? 結合起來。BPR損失,表示為L??????,定義如下:

訓練數據表示為 O = (??,??,??)| (??,??) ε O+ , (??, ??) ε O? ,其中 O + 表示觀察到的交互作用,O ? 表示從用戶集 U 和項目集 I 的笛卡爾積(不包括 O + )獲得的未觀察到的交互作用。根據這些定義,推薦任務的綜合優化損失為:

可學習的模型參數表示為 θ,它包含模型內的可訓練變量。此外,??1 和??2 是超參數,用于確定基于 CL 的損失和 ??2 正則化項各自的強度。

4 ?實驗

為了評估DiffKG的有效性,設計了一系列實驗來研究以下問題:

RQ1:DiffKG的性能與最先進的推薦系統相比如何?

RQ2:DiffKG的關鍵組件對整體性能有何獨特貢獻,以及模型如何適應超參數設置的變化?

RQ3:DiffKG如何證明其在克服數據稀疏和噪聲障礙方面的有效性?RQ4:DiffKG模型在多大程度上為推薦提供了高水平的可解釋性,以促進對其決策過程的透徹理解?

4.1? 實驗設置

4.1.1? 數據集

為了評估的全面性和多樣性,我們采用了三個公共數據集:Last-FM(音樂)、MIND(新聞)和Alibaba-iFashion(電子商務)。經過10核技術預處理,過濾掉出現次數低于10的用戶和項目。對于Last-FM,我們采用映射方法關聯項目與Freebase實體并提取知識三元組。對于MIND,我們遵循[24]收集維基數據的KG。對于Alibaba-iFashion,我們手動構建KG,利用類別信息作為有價值的知識。三個數據集及其對應的KG的詳細統計數據如表1所示。

4.1.2? 評估協議

為了避免評估中負采樣帶來的偏差,我們在滿秩設置下報告性能指標,利用Recall@N和NDCG@N作為top-N推薦指標,其中N=20,這是常用的值。

4.1.3? 比較基線方法

為了全面評估DiffKG,我們將其與不同研究流的一組基線進行了比較。協同過濾方法:

基于嵌入的知識感知推薦器:

基于 GNN 的 KG 增強推薦器:

自我監督的知識感知推薦器:

4.2 ?RQ1:整體性能比較

我們評估了各種方法的整體性能,DiffKG在所有基線方法中表現最優,結果如表2。

DiffKG的圖擴散模型增強了數據增強的有效性,提高了推薦的準確性。與傳統方法如BPR和NeuMF相比,DiffKG結合知識圖信息顯示出優越性。與其他知識感知模型相比,DiffKG具有顯著的性能優勢。這表明知識圖通常包含不相關的關系,可能會對推薦質量產生負面影響。KGCL和DiffKG采用不同的方法來解決協同過濾的稀疏性問題,但DiffKG采用通過設計的KG擴散模型生成的任務相關知識圖,這表明DiffKG方法的有效性。

4.3 ?RQ2:消融研究

4.3.1? 關鍵模塊消融

本研究評估了DiffKG中關鍵模塊的有效性,開發了三種模型變體:“w/o CL”(刪除KG增強數據增強模塊),“w/o DM”(用變分圖自動編碼器替換擴散模型),“w/o CKGC”(從KG擴散模型優化中排除協作知識圖卷積)。如表 3 所示,消融研究得出關鍵結論:

1) 去除KG增強的對比學習導致性能顯著下降,驗證了知識圖合并額外自我監督信號的有效性。

2) 知識圖擴散模型組件的消融證明了其在提高DiffKG性能中的關鍵作用,擴散過程捕獲任務相關關系的有效性得到證實。

3) 缺乏協作知識圖卷積模塊導致性能下降,強調了DiffKG中協作知識圖卷積的重要性,有助于將用戶協作知識集成到推薦擴散模型的訓練中。在Last-FM和MIND數據集中觀察到較大性能下降,表明其知識圖中存在較高水平的噪聲。

4.3.2? 對關鍵超參數的敏感性

本研究深入探究了不同超參數對我們方法的影響,特別是數據增強和知識圖擴散模塊中的超參數。為直觀展示結果,我們在MIND數據集上報告了相應的圖表,如圖3。

我們研究了DiffKG的超參數,特別是??1(InfoNCE損失權重)和??(softmax溫度)。最佳性能出現在??1=1和??=1時,強調了對比學習的重要性。在知識圖擴散模型中,增加擴散步數對精度的影響最小,如圖3(b)。為了平衡性能和計算,我們選擇了T=5。有趣的是,最佳性能在T′=0時實現,這避免了原始KG的過度損壞。

4.4 ?RQ3:對 DiffKG 的進一步調查稀疏的用戶交互數據。

為了評估DiffKG在稀疏數據處理方面的性能,我們將用戶和項目分為五組,每組包含相同數量的用戶,交互密度從組1到組5逐漸增加,代表不同程度的稀疏性。采用類似的方法處理物品,測試結果如圖4所示。

知識圖噪聲。為了評估DiffKG過濾不相關關系的能力,我們在KG中注入10%的噪聲三元組,模擬具有大量主題不相關關系的場景。在保持測試集不變的情況下,將DiffKG的性能與其他知識感知推薦系統進行比較。

4.5 ?RQ4:案例研究

我們進行了新聞推薦案例研究,比較了使用和不使用知識圖擴散模型的結果。研究發現,知識圖譜中的噪聲可能會引入偏差并誤導用戶表示。然而,通過結合KG擴散范式,我們的DiffKG有效地過濾掉了不相關的KG信息,從而產生了更相關的新聞文章。這些文章包括對星球大戰視頻游戲的討論、演員參與星球大戰電影以及社交媒體對星球大戰電影的評論。通過準確地利用和過濾知識圖譜信息,我們的模型在推薦任務中展示了改進的性能,說明了其在增強相關性和減輕知識圖譜中不相關信息的影響方面的有效性。

5? 相關工作

5.1? 知識感知推薦系統

現有的知識感知推薦方法包括基于嵌入、基于路徑和基于GNN的方法。其中,基于GNN的方法,如KGCN、KGAT和KGIN,結合了兩種范式的優點,能從知識圖中提取有價值的信息。KGCN利用固定數量的鄰居進行項目表示聚合,而KGAT則根據知識鄰居的重要性分配權重。KGIN在聚合層中結合了用戶偏好和關系嵌入。這些基于GNN的方法利用GNN的強大功能和知識圖中的豐富信息來增強推薦系統。

5.2? 用于推薦的數據增強

數據增強技術與自我監督學習(SSL)的結合已成為增強推薦系統的有效方法。基于SSL的數據增強技術能利用從原始數據中提取的額外監督信號,解決數據稀疏性并提高推薦性能。對比學習等數據增強方法生成用戶或項目表示的增強視圖,通過訓練模型區分正負對,有效解決數據稀疏性問題,并通過自監督學習提高推薦性能。此外,受自然語言處理任務啟發,屏蔽和重建增強技術涉及屏蔽或隱藏用戶-項目交互的某些項目或部分,訓練模型預測缺失的元素,迫使模型學習上下文關系。整合SSL數據增強技術到推薦系統,能解決數據稀疏性、捕獲復雜模式并提高推薦系統的泛化能力。

5.3? 擴散概率模型

擴散概率模型在計算機視覺和自然語言處理等領域展現出巨大潛力。在視覺領域,擴散模型在圖像生成和修復任務中表現優秀。在文本生成領域,模型被訓練以從擾動的數據中恢復原始文本。擴散模型在其他領域也得到應用,如用于圖生成的圖學習,包括連續時間生成擴散過程和離散去噪擴散模型。最近,擴散概率模型在推薦領域也得到了些探索。

文章轉自微信公眾號@算法進階

上一篇:

一文徹底搞懂深度學習 - 多頭注意力(Multi-Head Attention)

下一篇:

深度!圖解神經網絡的數學原理
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費