解決問題:

工作原理:

池化層:下采樣實現數據降維,大大減少運算量,避免過擬合。

LeNet-5:被譽為卷積神經網絡的“Hello Word”,是圖靈獎獲得者Yann LeCun(楊立昆)在1998年提出的CNN算法,用來解決手寫識別的問題。

LeNet-5通過引入卷積層、池化層和全連接層等關鍵組件,構建了一個高效且強大的圖像識別網絡,為后續卷積神經網絡的發展奠定了基礎。

二、什么是RNN?

循環神經網絡(RNN):一種能處理序列數據并存儲歷史信息的神經網絡,通過利用先前的預測作為上下文信號,對即將發生的事件做出更明智的決策。

網絡結構:

解決問題:

工作原理:

隱藏層:在此過程中,我們注意到前面的所有輸入都對后續的輸出產生了影響。圓形隱藏層不僅考慮了當前的輸入,還綜合了之前所有的輸入信息,能夠利用歷史信息來影響未來的輸出

輸出層:生成最終的預測結果:Asking for the time。

詳細了解看這篇:《一文搞懂RNN(循環神經網絡)》

長短期記憶網絡(LSTM):一種特殊的循環神經網絡,通過引入內存塊和門控機制來解決梯度消失問題,從而更有效地處理和記憶長期依賴信息。

網絡結構:

  1. 細胞狀態(Cell State):負責保存長期依賴信息。
  2. 門控結構:每個LSTM單元包含三個門:輸入門、遺忘門和輸出門。

解決問題:

工作原理:

三、什么是Transformer

Transformer:一種基于自注意力機制的神經網絡結構,通過并行計算和多層特征抽取,有效解決了長序列依賴問題,實現了在自然語言處理等領域的突破。

網絡結構:由輸入部分(輸入輸出嵌入與位置編碼)、多層編碼器、多層解碼器以及輸出部分(輸出線性層與Softmax)四大部分組成。

解決問題:

工作原理:

BERT:BERT是一種基于Transformer的預訓練語言模型,它的最大創新之處在于引入了雙向Transformer編碼器,這使得模型可以同時考慮輸入序列的前后上下文信息。

  1. 輸入層(Embedding)
  2. 編碼層(Transformer Encoder):BERT模型使用雙向Transformer編碼器進行編碼。
  3. 輸出層(Pre-trained Task-specific Layers)

GPT:GPT也是一種基于Transformer的預訓練語言模型,它的最大創新之處在于使用了單向Transformer編碼器,這使得模型可以更好地捕捉輸入序列的上下文信息。

GPT架構

  1. 輸入層(Input Embedding)
  2. 編碼層(Transformer Encoder):GPT模型使用單向Transformer編碼器進行編碼和生成。
  3. 輸出層(Output Linear and Softmax)

文章轉自微信公眾號@架構師帶你玩轉AI

上一篇:

大模型開發 - 一文搞懂人工智能基礎(上):模型

下一篇:

大模型開發 - 一文搞懂Fine-tuning(大模型微調)
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費