在Transformer模型之前,大多數最先進的NLP系統都依賴于諸如LSTM、門控循環單元(GRU)等門控RNN模型,并在此基礎上增加了注意力機制。Transformer正是在注意力機制的基礎上構建的,但其沒有使用RNN結構,這表明僅依靠注意力機制就能在性能上比肩加上了注意力機制的RNN模型。
門控RNN模型按順序處理每一個標記(token)并維護一個狀態向量,其中包含所有已輸入數據的表示。如要處理第