鍵.png)
使用這些基本 REST API 最佳實(shí)踐構(gòu)建出色的 API
工作原理:單頭Attention通過計算每個token的查詢向量與所有token的鍵向量的點(diǎn)積,并經(jīng)過softmax歸一化得到注意力權(quán)重,再將這些權(quán)重應(yīng)用于值向量進(jìn)行加權(quán)求和,從而生成每個token的自注意力輸出表示。
多頭Attention(Multi-Head Attention):多頭注意力機(jī)制通過并行運(yùn)行多個Self-Attention層并綜合其結(jié)果,能夠同時捕捉輸入序列在不同子空間中的信息,從而增強(qiáng)模型的表達(dá)能力。
工作原理:多頭Attention將每個頭得到向量拼接在一起,最后乘一個線性矩陣,得到 Multi-Head Attention 的輸出。
前饋網(wǎng)絡(luò)(Feed-Forward Network):Transformer模型中,前饋網(wǎng)絡(luò)用于將輸入的詞向量映射到輸出的詞向量,以提取更豐富的語義信息。前饋網(wǎng)絡(luò)通常包括幾個線性變換和非線性激活函數(shù),以及一個殘差連接和一個層歸一化操作。
工作原理:Multi-head Attention的輸出,經(jīng)過殘差和norm之后進(jìn)入一個兩層全連接網(wǎng)絡(luò)。
文章轉(zhuǎn)自微信公眾號@架構(gòu)師帶你玩轉(zhuǎn)AI