工作原理:單頭Attention通過計算每個token的查詢向量與所有token的鍵向量的點(diǎn)積,并經(jīng)過softmax歸一化得到注意力權(quán)重,再將這些權(quán)重應(yīng)用于值向量進(jìn)行加權(quán)求和,從而生成每個token的自注意力輸出表示。

二、多頭Attention工作原理

多頭Attention(Multi-Head Attention):多頭注意力機(jī)制通過并行運(yùn)行多個Self-Attention層并綜合其結(jié)果,能夠同時捕捉輸入序列在不同子空間中的信息,從而增強(qiáng)模型的表達(dá)能力。

工作原理:多頭Attention將每個頭得到向量拼接在一起,最后乘一個線性矩陣,得到 Multi-Head Attention 的輸出。

三、全連接網(wǎng)絡(luò)工作原理

前饋網(wǎng)絡(luò)(Feed-Forward Network):Transformer模型中,前饋網(wǎng)絡(luò)用于將輸入的詞向量映射到輸出的詞向量,以提取更豐富的語義信息。前饋網(wǎng)絡(luò)通常包括幾個線性變換和非線性激活函數(shù),以及一個殘差連接和一個層歸一化操作。

工作原理:Multi-head Attention的輸出,經(jīng)過殘差和norm之后進(jìn)入一個兩層全連接網(wǎng)絡(luò)。

文章轉(zhuǎn)自微信公眾號@架構(gòu)師帶你玩轉(zhuǎn)AI

上一篇:

大模型開發(fā) - 一文搞懂Encoder-Decoder工作原理

下一篇:

大模型開發(fā) - 一文搞懂人工智能基礎(chǔ)(上):模型
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實(shí)測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費(fèi)

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費(fèi)