Transformer模型出現的背景

在Transformer模型之前,大多數最先進的NLP系統都依賴于諸如LSTM門控循環單元(GRU)等門控RNN模型,并在此基礎上增加了注意力機制。Transformer正是在注意力機制的基礎上構建的,但其沒有使用RNN結構,這表明僅依靠注意力機制就能在性能上比肩加上了注意力機制的RNN模型。

順序處理

門控RNN模型按順序處理每一個標記(token)并維護一個狀態向量,其中包含所有已輸入數據的表示。如要處理第

一站搜索、試用、比較全球API!
冪簡集成已收錄 4968種API!
試用API,一次比較多個渠道