日产精品卡1卡2卡三卡240,黄色成人在线观看,男女羞羞视频网站

一、Transformer的本質

Transformer架構：主要由輸入部分（輸入輸出嵌入與位置編碼）、多層編碼器、多層解碼器以及輸出部分（輸出線性層與Softmax）四大部分組成。

Transformer架構

輸入部分：
源文本嵌入層：將源文本中的詞匯數字表示轉換為向量表示，捕捉詞匯間的關系。
位置編碼器：為輸入序列的每個位置生成位置向量，以便模型能夠理解序列中的位置信息。
目標文本嵌入層（在解碼器中使用）：將目標文本中的詞匯數字表示轉換為向量表示。
編碼器部分：
由N個編碼器層堆疊而成。
每個編碼器層由兩個子層連接結構組成：第一個子層是一個多頭自注意力子層，第二個子層是一個前饋全連接子層。每個子層后都接有一個規范化層和一個殘差連接。
解碼器部分：
由N個解碼器層堆疊而成。
每個解碼器層由三個子層連接結構組成：第一個子層是一個帶掩碼的多頭自注意力子層，第二個子層是一個多頭注意力子層（編碼器到解碼器），第三個子層是一個前饋全連接子層。每個子層后都接有一個規范化層和一個殘差連接。
輸出部分：
線性層：將解碼器輸出的向量轉換為最終的輸出維度。
Softmax層：將線性層的輸出轉換為概率分布，以便進行最終的預測。

Encoder-Decoder（編碼器-解碼器）：左邊是N個編碼器，右邊是N個解碼器，Transformer中的N為6。

Encoder-Decoder（編碼器-解碼器）

Encoder編碼器：
Transformer中的編碼器部分一共6個相同的編碼器層組成。每個編碼器層都有兩個子層，即多頭自注意力層(Multi-Head Attention)層和逐位置的前饋神經網絡(Position-wise Feed-Forward Network)。在每個子層后面都有殘差連接（圖中的虛線）和層歸一化（LayerNorm）操作，二者合起來稱為Add&Norm操作。

Decoder解碼器：
Transformer中的解碼器部分同樣一共6個相同的解碼器層組成。每個解碼器層都有三個子層，掩蔽自注意力層(Masked Self-Attention)、Encoder-Decoder注意力層、逐位置的前饋神經網絡。同樣，在每個子層后面都有殘差連接（圖中的虛線）和層歸一化（LayerNorm）操作，二者合起來稱為Add&Norm操作。

Decoder（解碼器）架構

Transformer工作原理

Multi-Head Attention（多頭注意力）：它允許模型同時關注來自不同位置的信息。通過分割原始的輸入向量到多個頭（head），每個頭都能獨立地學習不同的注意力權重，從而增強模型對輸入序列中不同部分的關注能力。

Multi-Head Attention（多頭注意力）

輸入線性變換：對于輸入的Query（查詢）、Key（鍵）和Value（值）向量，首先通過線性變換將它們映射到不同的子空間。這些線性變換的參數是模型需要學習的。
分割多頭：經過線性變換后，Query、Key和Value向量被分割成多個頭。每個頭都會獨立地進行注意力計算。
縮放點積注意力：在每個頭內部，使用縮放點積注意力來計算Query和Key之間的注意力分數。這個分數決定了在生成輸出時，模型應該關注Value向量的部分。
注意力權重應用：將計算出的注意力權重應用于Value向量，得到加權的中間輸出。這個過程可以理解為根據注意力權重對輸入信息進行篩選和聚焦。
拼接和線性變換：將所有頭的加權輸出拼接在一起，然后通過一個線性變換得到最終的Multi-Head Attention輸出。

Scaled Dot-Product Attention（縮放點積注意力）：它是Transformer模型中多頭注意力機制的一個關鍵組成部分。

Scaled Dot-Product Attention（縮放點積注意力）

Query、Key和Value矩陣：
- Query矩陣（Q）：表示當前的關注點或信息需求，用于與Key矩陣進行匹配。
- Key矩陣（K）：包含輸入序列中各個位置的標識信息，用于被Query矩陣查詢匹配。
- Value矩陣（V）：存儲了與Key矩陣相對應的實際值或信息內容，當Query與某個Key匹配時，相應的Value將被用來計算輸出。
點積計算：
- 通過計算Query矩陣和Key矩陣之間的點積（即對應元素相乘后求和），來衡量Query與每個Key之間的相似度或匹配程度。
縮放因子：
- 由于點積操作的結果可能非常大，尤其是在輸入維度較高的情況下，這可能導致softmax函數在計算注意力權重時進入飽和區。為了避免這個問題，縮放點積注意力引入了一個縮放因子，通常是輸入維度的平方根。點積結果除以這個縮放因子，可以使得softmax函數的輸入保持在一個合理的范圍內。
Softmax函數：
- 將縮放后的點積結果輸入到softmax函數中，計算每個Key相對于Query的注意力權重。Softmax函數將原始得分轉換為概率分布，使得所有Key的注意力權重之和為1。
加權求和：
- 使用計算出的注意力權重對Value矩陣進行加權求和，得到最終的輸出。這個過程根據注意力權重的大小，將更多的關注放在與Query更匹配的Value上。

BERT：BERT是一種基于Transformer的預訓練語言模型，它的最大創新之處在于引入了雙向Transformer編碼器，這使得模型可以同時考慮輸入序列的前后上下文信息。

BERT架構

輸入層（Embedding）：
- Token Embeddings：將單詞或子詞轉換為固定維度的向量。
- Segment Embeddings：用于區分句子對中的不同句子。
- Position Embeddings：由于Transformer模型本身不具備處理序列順序的能力，所以需要加入位置嵌入來提供序列中單詞的位置信息。
編碼層（Transformer Encoder）：BERT模型使用雙向Transformer編碼器進行編碼。
輸出層（Pre-trained Task-specific Layers）：
- MLM輸出層：用于預測被掩碼（masked）的單詞。在訓練階段，模型會隨機遮蓋輸入序列中的部分單詞，并嘗試根據上下文預測這些單詞。
- NSP輸出層：用于判斷兩個句子是否為連續的句子對。在訓練階段，模型會接收成對的句子作為輸入，并嘗試預測第二個句子是否是第一個句子的后續句子。

GPT：GPT也是一種基于Transformer的預訓練語言模型，它的最大創新之處在于使用了單向Transformer編碼器，這使得模型可以更好地捕捉輸入序列的上下文信息。

GPT架構

輸入層（Input Embedding）：
- 將輸入的單詞或符號轉換為固定維度的向量表示。
- 可以包括詞嵌入、位置嵌入等，以提供單詞的語義信息和位置信息。
編碼層（Transformer Encoder）：GPT 模型使用單向Transformer編碼器進行編碼和生成。
輸出層（Output Linear and Softmax）：
- 線性輸出層將最后一個Transformer Decoder Block的輸出轉換為詞匯表大小的向量。
- Softmax函數將輸出向量轉換為概率分布，以便進行詞匯選擇或生成下一個單詞。