一、簡要介紹

Self-Attention(自注意力機制):使輸入序列中的每個元素能夠關注并加權整個序列中的其他元素,生成新的輸出表示,不依賴外部信息或歷史狀態。

Multi-Head Attention(多頭注意力機制):通過并行運行多個Self-Attention層并綜合其結果,能夠同時捕捉輸入序列在不同子空間中的信息,從而增強模型的表達能力。

二、工作流程

Self-Attention(自注意力機制):通過生成查詢、鍵和值向量,計算并歸一化注意力分數,最終對值向量進行加權求和,從而得到輸入序列中每個位置的加權表示。

第一步:查詢、鍵和值的生成

第二步:注意力矩陣的計算

第三步:歸一化注意力分數

第四步:加權和輸出

Multi-Head Attention(多頭注意力機制):通過將輸入的查詢、鍵和值矩陣分割成多個頭,并在每個頭中獨立計算注意力,再將這些頭的輸出拼接并線性變換,從而實現在不同表示子空間中同時捕獲和整合多種交互信息,提升模型的表達能力。

三、兩者對比

核心差異:Self-Attention關注序列內每個位置對其他所有位置的重要性,而Multi-Head Attention則通過在多個子空間中并行計算注意力,使模型能夠同時捕獲和整合不同方面的上下文信息,從而增強了對復雜數據內在結構的建模能力。

案例對比:在“我愛AI”例子中,Self-Attention計算每個詞與其他詞的關聯權重,而Multi-Head Attention則通過拆分嵌入空間并在多個子空間中并行計算這些權重,使模型能夠捕獲更豐富的上下文信息。

Self-Attention(自注意力機制)

  1. 輸入:序列“我愛AI”經過嵌入層,每個詞(如“我”)被映射到一個512維的向量。
  2. 注意力權重計算
  3. 輸出:根據計算出的注意力權重,對輸入序列中的詞向量進行加權求和,得到自注意力機制處理后的輸出向量。

Multi-Head Attention (多頭注意力機制):

  1. 子空間拆分
  2. 獨立注意力權重計算
  3. 結果拼接與轉換

文章轉自微信公眾號@架構師帶你玩轉AI

上一篇:

神經網絡算法 - 一文搞懂RNN(循環神經網絡)

下一篇:

人工智能數學基礎 - 線性代數之特征值與特征向量篇
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費