一、Seq2Seq工作原理

Seq2Seq(Sequence-to-sequence):輸入一個序列,輸出另一個序列。

在2014年,Cho等人首次在循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)中提出了Seq2Seq(序列到序列)模型。與傳統(tǒng)的統(tǒng)計翻譯模型相比,Seq2Seq模型極大地簡化了序列轉(zhuǎn)換任務(wù)的處理流程。

Seq2Seq模型通過端到端的訓練方式,將輸入序列和目標序列直接關(guān)聯(lián)起來,避免了傳統(tǒng)方法中繁瑣的特征工程和手工設(shè)計的對齊步驟。這使得模型能夠自動學習從輸入到輸出的映射關(guān)系,提高了序列轉(zhuǎn)換任務(wù)的性能和效率。

工作原理:Seq2Seq模型中的編碼器使用循環(huán)神經(jīng)網(wǎng)絡(luò)將輸入序列轉(zhuǎn)換為固定長度的上下文向量,而解碼器則利用這個向量和另一個循環(huán)神經(jīng)網(wǎng)絡(luò)逐步生成輸出序列。

Encoder(編碼器):

Decoder(解碼器):

二、Attention工作原理

Attention Mechanism(注意力機制)Attention Mechanism是一種在深度學習模型中用于處理序列數(shù)據(jù)的技術(shù),尤其在處理長序列時表現(xiàn)出色。最初引入注意力機制是為了解決機器翻譯中遇到的長句子(超過50字)性能下降問題。

傳統(tǒng)的機器翻譯在長句子上的效果并不理想,因為固定長度的向量難以包含句子的所有語義細節(jié)。注意力機制的核心思想是在生成每個輸出詞時,模型都能夠關(guān)注到輸入序列中的相關(guān)部分。

核心邏輯:從關(guān)注全部到關(guān)注重點

工作原理:通過計算Decoder的隱藏狀態(tài)與Encoder輸出的每個詞的隱藏狀態(tài)的相似度(Score),進而得到每個詞的Attention Weight,再將這些Weight與Encoder的隱藏狀態(tài)加權(quán)求和,生成一個Context Vector。

Encoder(編碼器):

Decoder(解碼器):

三、Transformer工作原理

Transformer:通常 Attention 會與傳統(tǒng)的模型配合起來使用,但 Google 的一篇論文《?Attention Is All You Need?》中提出只需要注意力就可以完成傳統(tǒng)模型所能完成的任務(wù),從而擺脫傳統(tǒng)模型對于長程依賴無能為力的問題并使得模型可以并行化,并基于此提出 Transformer 模型。

Transformer架構(gòu):主要由輸入部分(輸入輸出嵌入與位置編碼)、多層編碼器、多層解碼器以及輸出部分(輸出線性層與Softmax)四大部分組成。

工作原理:左邊是N個編碼器,右邊是N個解碼器,圖中Transformer的N為6。

Encoder(編碼器):

Decoder(解碼器):

文章轉(zhuǎn)自微信公眾號@架構(gòu)師帶你玩轉(zhuǎn)AI

上一篇:

大模型開發(fā) - 一文搞懂Embedding工作原理

下一篇:

大模型開發(fā) - 一文搞懂Transformer工作原理
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費