工作原理:單頭Attention通過計算每個token的查詢向量與所有token的鍵向量的點積,并經過softmax歸一化得到注意力權重,再將這些權重應用于值向量進行加權求和,從而生成每個token的自注意力輸出表示。

二、多頭Attention工作原理

多頭Attention(Multi-Head Attention):多頭注意力機制通過并行運行多個Self-Attention層并綜合其結果,能夠同時捕捉輸入序列在不同子空間中的信息,從而增強模型的表達能力。

工作原理:多頭Attention將每個頭得到向量拼接在一起,最后乘一個線性矩陣,得到 Multi-Head Attention 的輸出。

三、全連接網絡工作原理

前饋網絡(Feed-Forward Network):Transformer模型中,前饋網絡用于將輸入的詞向量映射到輸出的詞向量,以提取更豐富的語義信息。前饋網絡通常包括幾個線性變換和非線性激活函數,以及一個殘差連接和一個層歸一化操作。

工作原理:Multi-head Attention的輸出,經過殘差和norm之后進入一個兩層全連接網絡。

文章轉自微信公眾號@架構師帶你玩轉AI

上一篇:

大模型開發 - 一文搞懂Encoder-Decoder工作原理

下一篇:

大模型開發 - 一文搞懂人工智能基礎(上):模型
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費