久久精品国产一区二区三区 ,亚洲精品久久久久综合网,国产成人精品男人免费

一、簡要介紹

Self-Attention（自注意力機制）：使輸入序列中的每個元素能夠關注并加權整個序列中的其他元素，生成新的輸出表示，不依賴外部信息或歷史狀態。

Self-Attention允許輸入序列中的每個元素都與序列中的其他所有元素進行交互。
它通過計算每個元素對其他所有元素的注意力權重，然后將這些權重應用于對應元素的表示，從而得到一個加權和的輸出表示。
Self-Attention不依賴于外部信息或先前的隱藏狀態，完全基于輸入序列本身。

Multi-Head Attention（多頭注意力機制）：通過并行運行多個Self-Attention層并綜合其結果，能夠同時捕捉輸入序列在不同子空間中的信息，從而增強模型的表達能力。

Multi-Head Attention實際上是多個并行的Self-Attention層，每個“頭”都獨立地學習不同的注意力權重。
這些“頭”的輸出隨后被合并（通常是拼接后再通過一個線性層），以產生最終的輸出表示。
通過這種方式，Multi-Head Attention能夠同時關注來自輸入序列的不同子空間的信息。

二、工作流程

Self-Attention（自注意力機制）：通過生成查詢、鍵和值向量，計算并歸一化注意力分數，最終對值向量進行加權求和，從而得到輸入序列中每個位置的加權表示。

第一步：查詢、鍵和值的生成

輸入：接收一個由嵌入向量組成的輸入序列，這些嵌入向量可以是詞嵌入加上位置嵌入。
處理：使用三個獨立的線性層（或稱為密集層）為每個輸入向量生成查詢（Q）、鍵（K）和值（V）向量。
- 查詢向量用于表示當前焦點或希望獲取的信息。
- 鍵向量用于確定與查詢向量匹配的信息。
- 值向量包含與相應的鍵向量關聯的實際信息。

第二步：注意力矩陣的計算

處理：計算查詢向量和所有鍵向量之間的點積，形成一個注意力分數矩陣。
- 這個矩陣的每個元素表示一個查詢向量和對應鍵向量之間的相關性分數。
- 由于點積操作，分數可能非常大或非常小。

第三步：歸一化注意力分數

處理：應用softmax函數對注意力分數矩陣進行歸一化。
- 歸一化后，每行的和為1，每個分數表示對應位置信息的權重。
- 在應用softmax之前，通常會除以一個縮放因子（如查詢或鍵向量維度的平方根）來穩定梯度。

第四步：加權和輸出

處理：使用歸一化后的注意力權重對值向量進行加權求和。
- 加權求和的結果是自注意力機制的輸出，它包含了輸入序列中所有位置的加權信息。
- 輸出向量的每個元素都是輸入向量的加權和，權重由注意力機制決定。

Multi-Head Attention（多頭注意力機制）：通過將輸入的查詢、鍵和值矩陣分割成多個頭，并在每個頭中獨立計算注意力，再將這些頭的輸出拼接并線性變換，從而實現在不同表示子空間中同時捕獲和整合多種交互信息，提升模型的表達能力。

初始化: 首先，初始化必要的參數，包括查詢、鍵和值矩陣的權重，以及多頭注意力中的頭數。這些權重將用于后續的線性變換。
線性變換: 對輸入的查詢、鍵和值矩陣進行線性變換。這些線性變換是通過與相應的權重矩陣相乘來實現的。變換后的矩陣將用于后續的多頭注意力計算。
分割與投影: 將線性變換后的查詢、鍵和值矩陣分割成多個頭。每個頭都有自己的查詢、鍵和值矩陣。然后，在每個頭中獨立地計算注意力分數。
縮放與Softmax: 對每個頭的注意力分數進行縮放，以避免梯度消失或爆炸的問題。然后，應用Softmax函數將注意力分數歸一化，使得每個位置的權重之和為1。
加權求和: 使用歸一化后的注意力權重對值矩陣進行加權求和，得到每個頭的輸出矩陣。
拼接與線性變換: 將所有頭的輸出矩陣拼接在一起，形成一個大的輸出矩陣。然后，對這個輸出矩陣進行線性變換，得到最終的輸出。

三、兩者對比

核心差異：Self-Attention關注序列內每個位置對其他所有位置的重要性，而Multi-Head Attention則通過在多個子空間中并行計算注意力，使模型能夠同時捕獲和整合不同方面的上下文信息，從而增強了對復雜數據內在結構的建模能力。

Self-Attention (自注意力機制)：自注意力機制的核心是為輸入序列中的每一個位置學習一個權重分布，這樣模型就能知道在處理當前位置時，哪些位置的信息更為重要。Self-Attention特指在序列內部進行的注意力計算，即序列中的每一個位置都要和其他所有位置進行注意力權重的計算。
Multi-Head Attention (多頭注意力機制)：為了讓模型能夠同時關注來自不同位置的信息，Transformer引入了Multi-Head Attention。它的基本思想是將輸入序列的表示拆分成多個子空間（頭），然后在每個子空間內獨立地計算注意力權重，最后將各個子空間的結果拼接起來。這樣做的好處是模型可以在不同的表示子空間中捕獲到不同的上下文信息。

案例對比：在“我愛AI”例子中，Self-Attention計算每個詞與其他詞的關聯權重，而Multi-Head Attention則通過拆分嵌入空間并在多個子空間中并行計算這些權重，使模型能夠捕獲更豐富的上下文信息。

Self-Attention(自注意力機制)：

輸入：序列“我愛AI”經過嵌入層，每個詞（如“我”）被映射到一個512維的向量。
注意力權重計算：
- 對于“我”這個詞，Self-Attention機制會計算它與序列中其他所有詞（“愛”、“A”、“I”）之間的注意力權重。
- 這意味著，對于“我”的512維嵌入向量，我們會計算它與“愛”、“A”、“I”的嵌入向量之間的注意力得分。
輸出：根據計算出的注意力權重，對輸入序列中的詞向量進行加權求和，得到自注意力機制處理后的輸出向量。

Multi-Head Attention (多頭注意力機制)：

子空間拆分：
- 原始的512維嵌入空間被拆分成多個子空間（例如，8個頭，則每個子空間64維）。
- 對于“我”這個詞，其512維嵌入向量被相應地拆分成8個64維的子向量。
獨立注意力權重計算：
- 在每個64維的子空間內，獨立地計算“我”與“愛”、“A”、“I”之間的注意力權重。
- 這意味著在每個子空間中，我們都有一套獨立的注意力得分來計算加權求和。
結果拼接與轉換：
- 將每個子空間計算得到的注意力輸出拼接起來，形成一個更大的向量（在這個例子中是8個64維向量拼接成的512維向量）。
- 通過一個線性層，將這個拼接后的向量轉換回原始的512維空間，得到Multi-Head Attention的最終輸出。

文章轉自微信公眾號@架構師帶你玩轉AI

上一篇：

神經網絡算法 - 一文搞懂RNN（循環神經網絡）

下一篇：

人工智能數學基礎 - 線性代數之特征值與特征向量篇

#你可能也喜歡這些API文章!

使用這些基本 REST API 最佳實踐構建出色的 API

使用這些基本 REST API 最佳實踐構建出色的 API

如何使用API：初學者的分步教程

如何使用API：初學者的分步教程

我們有何不同？

API服務商零注冊

多API并行試用

數據驅動選型，提升決策效率

查看全部API→

??

熱門場景實測，選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道

一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道

一鍵對比試用API 限時免費

<ruby id="losz4"><big id="losz4"></big></ruby>

<style id="losz4"><delect id="losz4"><small id="losz4"></small></delect></style>

<label id="losz4"></label>

<label id="losz4"></label>

<span id="losz4"></span>