Normalization

歸一化

歸一化(Normalization)是什么?歸一化是一種數(shù)據(jù)預(yù)處理技術(shù),旨在將數(shù)據(jù)的數(shù)值范圍縮放到一個特定的尺度,通常是為了消除不同特征之間的量綱差異,使得數(shù)據(jù)更加適合進行后續(xù)的分析和處理

歸一化是深度學(xué)習(xí)中不可或缺的數(shù)據(jù)預(yù)處理步驟。通過合理的歸一化處理,可以顯著提高模型的訓(xùn)練效率和性能,為深度學(xué)習(xí)模型的優(yōu)化和泛化能力的提升提供有力支持。

為什么需要歸一化?由于目標(biāo)函數(shù)擁有眾多參數(shù)且結(jié)構(gòu)復(fù)雜,直接尋找最優(yōu)參數(shù)變得十分困難。因此,我們需要借助優(yōu)化器,它能夠逐步調(diào)整參數(shù),確保每次優(yōu)化都朝著最快降低損失的方向前進。

歸一化的過程是什么?歸一化是通過確定數(shù)據(jù)的取值范圍應(yīng)用相應(yīng)的歸一化公式將數(shù)據(jù)轉(zhuǎn)換到新的穩(wěn)定尺度,從而得到更加適合后續(xù)分析和處理的數(shù)據(jù)集的過程。

  1. 確定歸一化的范圍:確定數(shù)據(jù)的取值范圍,即數(shù)據(jù)的最大值和最小值。在某些情況下,也可以根據(jù)需要選擇其他統(tǒng)計量(如均值和標(biāo)準(zhǔn)差)來確定歸一化的范圍。
  2. 應(yīng)用歸一化公式:根據(jù)選定的歸一化范圍,應(yīng)用相應(yīng)的歸一化公式將數(shù)據(jù)轉(zhuǎn)換到新的尺度。常見的歸一化公式包括線性函數(shù)歸一化(將數(shù)據(jù)映射到[0,1]或[-1,1]的范圍)和Z-score標(biāo)準(zhǔn)化(將數(shù)據(jù)轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布)。
  3. 得到歸一化后的數(shù)據(jù):應(yīng)用歸一化公式后,即可得到新的、經(jīng)過歸一化處理的數(shù)據(jù)集。這些數(shù)據(jù)集在數(shù)值上更加穩(wěn)定,有利于后續(xù)的分析和處理。

常用的歸一化

常用的歸一化有哪些?常用的歸一化主要包括批量歸一化(BN)、層歸一化(LN)、組歸一化(GN)和實例歸一化(IN)等,它們各有其獨特的應(yīng)用場景和優(yōu)勢,選擇哪種歸一化方法通常取決于具體任務(wù)和數(shù)據(jù)的特點。

1.?批量歸一化(Batch Normalization, BN)

2.?層歸一化(Layer Normalization, LN)

3.?實例歸一化(Instance Normalization, IN)

4.?組歸一化(Group Normalization, GN)

正則化(Regularization)

在深度學(xué)習(xí)中,正則化通過約束模型的復(fù)雜度來防止過擬合,提高模型的泛化能力、魯棒性和解釋性。在深度學(xué)習(xí)的實踐中,可以根據(jù)具體問題和數(shù)據(jù)集的特點選擇合適的正則化技術(shù)和參數(shù)設(shè)置。

常用的正則化方法,包括L1正則化(Lasso Regularization)L2正則化(Ridge Regularization)Dropout等。其中,L1正則化實現(xiàn)特征選擇和模型稀疏化,L2正則化使權(quán)重值盡可能小,而Dropout則通過隨機丟棄神經(jīng)元來減少神經(jīng)元之間的共適應(yīng)性

Regularization

正則化

正則化(Regularization)是什么?正則化是一種減少模型過擬合風(fēng)險的技術(shù)。

當(dāng)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)得太好時,它可能會學(xué)習(xí)到訓(xùn)練數(shù)據(jù)中的噪聲或隨機波動,而不是數(shù)據(jù)中的基本模式這會導(dǎo)致模型在未見過的數(shù)據(jù)上表現(xiàn)不佳,即過擬合。

正則化的目的是通過引入額外的約束或懲罰項來限制模型的復(fù)雜度,從而提高模型在未知數(shù)據(jù)上的泛化能力。

如何實現(xiàn)正則化?正則化是通過在損失函數(shù)中添加一個正則項來實現(xiàn)的,這個正則項是基于模型參數(shù)而構(gòu)建的。

L1正則化在損失函數(shù)L中添加L1正則項,得到新的損失函數(shù)L_new = L + λ∑|w_i|,其中λ是正則化系數(shù),w_i是模型參數(shù)。

L2正則化則在損失函數(shù)L中添加L2正則項,得到新的損失函數(shù)L_new = L + λ∑w_i^2,其中λ是正則化系數(shù),w_i是模型參數(shù)。

在訓(xùn)練過程中,L1正則化、L2正則化都是通過優(yōu)化算法最小化損失函數(shù)L_new,從而實現(xiàn)對模型參數(shù)的約束。

常用的正則化

常用的正則化有哪些?常用的正則化方法主要包括L1正則化(產(chǎn)生稀疏權(quán)重)、L2正則化(減少權(quán)重大小)、Dropout(隨機丟棄神經(jīng)元)、數(shù)據(jù)增強(擴充數(shù)據(jù)集)以及提前停止(監(jiān)控驗證誤差)等,它們各自通過不同機制減少模型過擬合風(fēng)險。

1. L1正則化(Lasso):

2. L2正則化(Ridge):

3. Dropout:

4. 數(shù)據(jù)增強(Data Augmentation):

5. 提前停止(Early Stopping):

自注意力(Self- Attention)

深度學(xué)習(xí)中,自注意力機制允許模型在處理序列數(shù)據(jù)時,通過計算序列中不同位置元素之間的相關(guān)性得分,動態(tài)地調(diào)整對每個元素的關(guān)注程度,從而捕捉序列內(nèi)部的復(fù)雜依賴關(guān)系。

自注意力機制與注意力機制在處理對象和應(yīng)用場景上存在差異,自注意力機制更側(cè)重于處理序列內(nèi)部元素之間的相互作用。

Self- Attention

自注意力機制

自注意力機制(Self- Attention)是什么?自注意力機制能夠動態(tài)地捕捉序列中不同位置元素之間的依賴關(guān)系,并根據(jù)這些依賴關(guān)系生成新的序列表示。

它之所以被稱為“自注意力”,是因為它在單一序列中通過計算序列元素之間相互依賴關(guān)系來生成新的特征表示。這與傳統(tǒng)的注意力機制有所不同,后者通常涉及兩個序列之間的交互。

自注意力機制和傳統(tǒng)注意力機制區(qū)別是什么?傳統(tǒng)注意力機制通常涉及目標(biāo)元素(輸出)與源元素(輸入)之間的交互,而自注意力機制則專注于輸入序列或輸出序列內(nèi)部元素之間的相互作用,其查詢和鍵均來自同一組元素

注意力分?jǐn)?shù)

如何實現(xiàn)注意力機制?在自注意力機制中,通過縮放點積計算注意力得分,并利用這些得分對值向量進行加權(quán)求和,從而實現(xiàn)了自注意力機制,它能夠捕捉序列內(nèi)部元素之間的依賴關(guān)系。

注意力分?jǐn)?shù)是什么?注意力分?jǐn)?shù)用來量化注意力機制中某一部分信息被關(guān)注的程度,反映了信息在注意力機制中的重要性。在注意力機制中,模型會根據(jù)注意力分?jǐn)?shù)來決定對不同輸入信息的關(guān)注程度。

Q(Query)、K(Key)、V(Value)通過映射矩陣得到相應(yīng)的向量,通過計算Q與K的點積相似度并經(jīng)過softmax歸一化得到權(quán)重,最后使用這些權(quán)重對V進行加權(quán)求和得到輸出。

Q、K、V計算過程是什么?對于輸入序列的每個單詞,通過計算其Query與所有單詞Key的點積得到注意力分?jǐn)?shù),經(jīng)Softmax歸一化后得到注意力權(quán)重,再用這些權(quán)重對Value向量進行加權(quán)求和,以得到包含豐富上下文信息的新單詞表示。

文章轉(zhuǎn)自微信公眾號@架構(gòu)師帶你玩轉(zhuǎn)AI

上一篇:

大模型開發(fā) - 一文搞懂 LangChain(二):Model I/O

下一篇:

一文徹底搞懂深度學(xué)習(xí)(2)
#你可能也喜歡這些API文章!

我們有何不同?

API服務(wù)商零注冊

多API并行試用

數(shù)據(jù)驅(qū)動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內(nèi)容創(chuàng)意新穎性、情感共鳴力、商業(yè)轉(zhuǎn)化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準(zhǔn)確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費