一、簡要介紹

Self-Attention(自注意力機(jī)制):使輸入序列中的每個(gè)元素能夠關(guān)注并加權(quán)整個(gè)序列中的其他元素,生成新的輸出表示,不依賴外部信息或歷史狀態(tài)。

Multi-Head Attention(多頭注意力機(jī)制):通過并行運(yùn)行多個(gè)Self-Attention層并綜合其結(jié)果,能夠同時(shí)捕捉輸入序列在不同子空間中的信息,從而增強(qiáng)模型的表達(dá)能力。

二、工作流程

Self-Attention(自注意力機(jī)制):通過生成查詢、鍵和值向量,計(jì)算并歸一化注意力分?jǐn)?shù),最終對(duì)值向量進(jìn)行加權(quán)求和,從而得到輸入序列中每個(gè)位置的加權(quán)表示。

第一步:查詢、鍵和值的生成

第二步:注意力矩陣的計(jì)算

第三步:歸一化注意力分?jǐn)?shù)

第四步:加權(quán)和輸出

Multi-Head Attention(多頭注意力機(jī)制):通過將輸入的查詢、鍵和值矩陣分割成多個(gè)頭,并在每個(gè)頭中獨(dú)立計(jì)算注意力,再將這些頭的輸出拼接并線性變換,從而實(shí)現(xiàn)在不同表示子空間中同時(shí)捕獲和整合多種交互信息,提升模型的表達(dá)能力。

三、兩者對(duì)比

核心差異:Self-Attention關(guān)注序列內(nèi)每個(gè)位置對(duì)其他所有位置的重要性,而Multi-Head Attention則通過在多個(gè)子空間中并行計(jì)算注意力,使模型能夠同時(shí)捕獲和整合不同方面的上下文信息,從而增強(qiáng)了對(duì)復(fù)雜數(shù)據(jù)內(nèi)在結(jié)構(gòu)的建模能力。

案例對(duì)比:在“我愛AI”例子中,Self-Attention計(jì)算每個(gè)詞與其他詞的關(guān)聯(lián)權(quán)重,而Multi-Head Attention則通過拆分嵌入空間并在多個(gè)子空間中并行計(jì)算這些權(quán)重,使模型能夠捕獲更豐富的上下文信息。

Self-Attention(自注意力機(jī)制)

  1. 輸入:序列“我愛AI”經(jīng)過嵌入層,每個(gè)詞(如“我”)被映射到一個(gè)512維的向量。
  2. 注意力權(quán)重計(jì)算
  3. 輸出:根據(jù)計(jì)算出的注意力權(quán)重,對(duì)輸入序列中的詞向量進(jìn)行加權(quán)求和,得到自注意力機(jī)制處理后的輸出向量。

Multi-Head Attention (多頭注意力機(jī)制):

  1. 子空間拆分
  2. 獨(dú)立注意力權(quán)重計(jì)算
  3. 結(jié)果拼接與轉(zhuǎn)換

文章轉(zhuǎn)自微信公眾號(hào)@架構(gòu)師帶你玩轉(zhuǎn)AI

上一篇:

神經(jīng)網(wǎng)絡(luò)算法 - 一文搞懂RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))

下一篇:

人工智能數(shù)學(xué)基礎(chǔ) - 線性代數(shù)之特征值與特征向量篇
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊(cè)

多API并行試用

數(shù)據(jù)驅(qū)動(dòng)選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對(duì)API

#AI文本生成大模型API

對(duì)比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)

#AI深度推理大模型API

對(duì)比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個(gè)渠道
一鍵對(duì)比試用API 限時(shí)免費(fèi)