成人精品综合免费视频,的九一视频入口在线观看,免费a级黄色片

Query、Key和Value矩陣：
- Query矩陣（Q）：表示當(dāng)前的關(guān)注點(diǎn)或信息需求，用于與Key矩陣進(jìn)行匹配。
- Key矩陣（K）：包含輸入序列中各個位置的標(biāo)識信息，用于被Query矩陣查詢匹配。
- Value矩陣（V）：存儲了與Key矩陣相對應(yīng)的實(shí)際值或信息內(nèi)容，當(dāng)Query與某個Key匹配時，相應(yīng)的Value將被用來計算輸出。
點(diǎn)積計算：
- 通過計算Query矩陣和Key矩陣之間的點(diǎn)積（即對應(yīng)元素相乘后求和），來衡量Query與每個Key之間的相似度或匹配程度。
縮放因子：
- 由于點(diǎn)積操作的結(jié)果可能非常大，尤其是在輸入維度較高的情況下，這可能導(dǎo)致softmax函數(shù)在計算注意力權(quán)重時進(jìn)入飽和區(qū)。為了避免這個問題，縮放點(diǎn)積注意力引入了一個縮放因子，通常是輸入維度的平方根。點(diǎn)積結(jié)果除以這個縮放因子，可以使得softmax函數(shù)的輸入保持在一個合理的范圍內(nèi)。
Softmax函數(shù)：
- 將縮放后的點(diǎn)積結(jié)果輸入到softmax函數(shù)中，計算每個Key相對于Query的注意力權(quán)重。Softmax函數(shù)將原始得分轉(zhuǎn)換為概率分布，使得所有Key的注意力權(quán)重之和為1。

工作原理：單頭Attention通過計算每個token的查詢向量與所有token的鍵向量的點(diǎn)積，并經(jīng)過softmax歸一化得到注意力權(quán)重，再將這些權(quán)重應(yīng)用于值向量進(jìn)行加權(quán)求和，從而生成每個token的自注意力輸出表示。

每個token對應(yīng)的Query向量與每個token對應(yīng)的Key向量做點(diǎn)積對于輸入序列中的每個token，我們都有一個對應(yīng)的查詢向量（Query Vector, Q）和鍵向量（Key Vector, K）。我們計算每個查詢向量與所有鍵向量的點(diǎn)積。這個步驟是在所有token之間建立關(guān)系，表示每個token對其他token的“關(guān)注”程度。

將上述點(diǎn)積取softmax（得到0~1之間的值，即為Attention權(quán)重）點(diǎn)積的結(jié)果需要經(jīng)過一個softmax函數(shù)，確保所有token的注意力權(quán)重之和為1。softmax函數(shù)將點(diǎn)積結(jié)果轉(zhuǎn)換為0到1之間的值，這些值表示了每個token相對于其他所有token的注意力權(quán)重。

計算每個token相對于所有其它token的Attention權(quán)重（最終構(gòu)成一個Attention矩陣）經(jīng)過softmax處理后的注意力權(quán)重構(gòu)成了一個Attention矩陣。這個矩陣的每一行對應(yīng)一個token，每一列也對應(yīng)一個token，矩陣中的每個元素表示了對應(yīng)行token對列token的注意力權(quán)重。

每個token對應(yīng)的value向量乘以Attention權(quán)重，并相加，得到當(dāng)前token的Self-Attention value向量使用這個Attention矩陣來加權(quán)輸入序列中的值向量（Value Vector, V）。具體來說，對于每個token，我們將其對應(yīng)的值向量與Attention矩陣中該token所在行的所有權(quán)重相乘，并將結(jié)果相加。這個加權(quán)求和的結(jié)果就是該token經(jīng)過自注意力機(jī)制處理后的輸出表示。

將上述操作應(yīng)用于每個token上述操作會應(yīng)用于輸入序列中的每個token，從而得到每個token經(jīng)過自注意力機(jī)制處理后的輸出表示。這些輸出表示通常會被送入模型的下一個層進(jìn)行進(jìn)一步的處理。

二、多頭Attention工作原理

多頭Attention（Multi-Head Attention）：多頭注意力機(jī)制通過并行運(yùn)行多個Self-Attention層并綜合其結(jié)果，能夠同時捕捉輸入序列在不同子空間中的信息，從而增強(qiáng)模型的表達(dá)能力。

Multi-Head Attention實(shí)際上是多個并行的Self-Attention層，每個“頭”都獨(dú)立地學(xué)習(xí)不同的注意力權(quán)重。
這些“頭”的輸出隨后被合并（通常是拼接后再通過一個線性層），以產(chǎn)生最終的輸出表示。
通過這種方式，Multi-Head Attention能夠同時關(guān)注來自輸入序列的不同子空間的信息。

工作原理：多頭Attention將每個頭得到向量拼接在一起，最后乘一個線性矩陣，得到 Multi-Head Attention 的輸出。

輸入線性變換：對于輸入的Query（查詢）、Key（鍵）和Value（值）向量，首先通過線性變換將它們映射到不同的子空間。這些線性變換的參數(shù)是模型需要學(xué)習(xí)的。
分割多頭：經(jīng)過線性變換后，Query、Key和Value向量被分割成多個頭。每個頭都會獨(dú)立地進(jìn)行注意力計算。
縮放點(diǎn)積注意力：在每個頭內(nèi)部，使用縮放點(diǎn)積注意力來計算Query和Key之間的注意力分?jǐn)?shù)。這個分?jǐn)?shù)決定了在生成輸出時，模型應(yīng)該關(guān)注Value向量的部分。
注意力權(quán)重應(yīng)用：將計算出的注意力權(quán)重應(yīng)用于Value向量，得到加權(quán)的中間輸出。這個過程可以理解為根據(jù)注意力權(quán)重對輸入信息進(jìn)行篩選和聚焦。
拼接和線性變換：將所有頭的加權(quán)輸出拼接在一起，然后通過一個線性變換得到最終的Multi-Head Attention輸出。

三、全連接網(wǎng)絡(luò)工作原理

前饋網(wǎng)絡(luò)（Feed-Forward Network）：Transformer模型中，前饋網(wǎng)絡(luò)用于將輸入的詞向量映射到輸出的詞向量，以提取更豐富的語義信息。前饋網(wǎng)絡(luò)通常包括幾個線性變換和非線性激活函數(shù)，以及一個殘差連接和一個層歸一化操作。

Encoder編碼器：
Transformer中的編碼器部分一共N個相同的編碼器層組成。每個編碼器層都有兩個子層，即多頭自注意力層(Multi-Head Attention)層和前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Network)。
在每個子層后面都有殘差連接（圖中的虛線）和層歸一化（LayerNorm）操作，二者合起來稱為Add&Norm操作。

Decoder解碼器：
Transformer中的解碼器部分同樣一共N個相同的解碼器層組成。每個解碼器層都有三個子層，掩蔽自注意力層(Masked Self-Attention)、Encoder-Decoder注意力層、前饋神經(jīng)網(wǎng)絡(luò)(Feed-Forward Network)。
同樣，在每個子層后面都有殘差連接（圖中的虛線）和層歸一化（LayerNorm）操作，二者合起來稱為Add&Norm操作。