可見神經網絡學習的核心是,學習合適權重參數以對數據進行非線性轉換,以提取關鍵特征或者決策。即模型參數控制著特征加工方法及決策。了解了神經網絡的原理,我們可以結合如下項目示例,看下具體的學習的權重參數,以及如何參與抽象特征生成與決策。

二、神經網絡的學習內容

2.1 簡單的線性模型的學習

我們先從簡單的模型入手,分析其學習的內容。像線性回歸邏輯回歸可以視為單層的神經網絡,它們都是廣義的線性模型,可以學習輸入特征到目標值的線性映射規律。

如下代碼示例,以線性回歸模型學習波士頓各城鎮特征與房價的關系,并作出房價預測。數據是波士頓房價數據集,它是統計20世紀70年代中期波士頓郊區房價情況,有當時城鎮的犯罪率、房產稅等共計13個指標以及對應的房價中位數。

import pandas as pd 
import numpy as np
from keras.datasets import boston_housing #導入波士頓房價數據集

(train_x, train_y), (test_x, test_y) = boston_housing.load_data()

from keras.layers import *
from keras.models import Sequential, Model
from tensorflow import random
from sklearn.metrics import mean_squared_error

np.random.seed(0) # 隨機種子
random.set_seed(0)

# 單層線性層的網絡結構(也就是線性回歸):無隱藏層,由于是數值回歸預測,輸出層沒有用激活函數;
model = Sequential()
model.add(Dense(1,use_bias=False))

model.compile(optimizer='adam', loss='mse') # 回歸預測損失mse

model.fit(train_x, train_y, epochs=1000,verbose=False) # 訓練模型
model.summary()

pred_y = model.predict(test_x)[:,0]

print("正確標簽:",test_y)
print("模型預測:",pred_y )

print("實際與預測值的差異:",mean_squared_error(test_y,pred_y ))

通過線性回歸模型學習訓練集,輸出測試集預測結果如下:

分析預測的效果,用上面數值體現不太直觀,如下畫出實際值與預測值的曲線,可見,整體模型預測值與實際值的差異還是比較小的(模型擬合較好)。

#繪圖表示
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 設置圖形大小
plt.figure(figsize=(8, 4), dpi=80)
plt.plot(range(len(test_y)), test_y, ls='-.',lw=2,c='r',label='真實值')
plt.plot(range(len(pred_y)), pred_y, ls='-',lw=2,c='b',label='預測值')

# 繪制網格
plt.grid(alpha=0.4, linestyle=':')
plt.legend()
plt.xlabel('number') #設置x軸的標簽文本
plt.ylabel('房價') #設置y軸的標簽文本

# 展示
plt.show()

回到正題,我們的單層神經網絡模型(線性回歸),在數據(波士頓房價)、優化目標(最小化預測誤差mse)、優化算法(梯度下降)的共同配合下,從數據中學到了什么呢?

我們可以很簡單地用決策函數的數學式來概括我們學習到的線性回歸模型,預測y=w1x1 + w2x2 + wn*xn。通過提取當前線性回歸模型最終學習到的參數:

將參數與對應輸入特征組合一下,我們忙前忙后訓練模型學到內容也就是——權重參數,它可以對輸入特征進行加權求和輸出預測值決策。如下決策公式,我們可以看出預測的房價和犯罪率、弱勢群體比例等因素是負相關的:

房價預測值 = [-0.09546997]CRIM|住房所在城鎮的人均犯罪率+[0.09558205]ZN|住房用地超過 25000 平方尺的比例+[-0.01804003]INDUS|住房所在城鎮非零售商用土地的比例+[3.8479505]CHAS|有關查理斯河的虛擬變量(如果住房位于河邊則為1,否則為0 )+[1.0180658]NOX|一氧化氮濃度+[2.8623202]RM|每處住房的平均房間數+[0.05667834]AGE|建于 1940 年之前的業主自住房比例+[-0.47793597]DIS|住房距離波士頓五大中心區域的加權距離+[0.20240606]RAD|距離住房最近的公路入口編號+[-0.01002822]TAX 每 10000 美元的全額財產稅金額+[0.23102441]PTRATIO|住房所在城鎮的師生比例+[0.0190283]B|1000(Bk|0.63)^2,其中 Bk 指代城鎮中黑人的比例+[-0.66846687]*LSTAT|弱勢群體人口所占比例

小結:單層神經網絡學習到各輸入特征所合適的權重值,根據權重值對輸入特征進行加權求和,輸出求和結果作為預測值(注:邏輯回歸會在求和的結果再做sigmoid非線性轉為預測概率)。

2.2 深度神經網絡的學習

深度神經網絡(深度學習)與單層神經網絡的結構差異在于,引入了層數>=1的非線性隱藏層。從學習的角度上看,模型很像是集成學習方法——以上層的神經網絡的學習的特征,輸出到下一層。而這種學習方法,就可以學習到非線性轉換組合的復雜特征,達到更好的擬合效果。

對于學習到的內容,他不僅僅是利用權重值控制輸出決策結果–f(WX),還有比較復雜多層次的特征交互, 這也意味著深度學習不能那么直觀數學形式做表示–它是一個復雜的復合函數f(f..f(WX))。

如下以2層的神經網絡為例,繼續波士頓房價的預測:

注:本可視化工具來源于https://netron.app/

from keras.layers import *
from keras.models import Sequential, Model
from tensorflow import random
from sklearn.metrics import mean_squared_error

np.random.seed(0) # 隨機種子
random.set_seed(0)

# 網絡結構:輸入層的特征維數為13,1層relu隱藏層,線性的輸出層;
model = Sequential()
model.add(Dense(10, input_dim=13, activation='relu',use_bias=False)) # 隱藏層
model.add(Dense(1,use_bias=False))

model.compile(optimizer='adam', loss='mse') # 回歸預測損失mse

model.fit(train_x, train_y, epochs=1000,verbose=False) # 訓練模型
model.summary()

pred_y = model.predict(test_x)[:,0]

print("正確標簽:",test_y)
print("模型預測:",pred_y )

print("實際與預測值的差異:",mean_squared_error(test_y,pred_y ))

可見,其模型的參數(190個)遠多于單層線性網絡(13個);學習的誤差(27.4)小于單層線性網絡模型(31.9),有著更高的復雜度和更好的學習效果。

#繪圖表示
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

# 設置圖形大小
plt.figure(figsize=(8, 4), dpi=80)
plt.plot(range(len(test_y)), test_y, ls='-.',lw=2,c='r',label='真實值')
plt.plot(range(len(pred_y)), pred_y, ls='-',lw=2,c='b',label='預測值')

# 繪制網格
plt.grid(alpha=0.4, linestyle=':')
plt.legend()
plt.xlabel('number') #設置x軸的標簽文本
plt.ylabel('房價') #設置y軸的標簽文本

# 展示
plt.show()

回到分析深度神經網絡學習的內容,這里我們輸入一條樣本,看看每一層神經網絡的輸出。

from numpy import exp

x0=train_x[0]
print("1、輸入第一條樣本x0:\n", x0)
# 權重參數可以控制數據的特征表達再輸出到下一層
w0= model.layers[0].get_weights()[0]
print("2、第一層網絡的權重參數w0:\n", w0)

a0 = np.maximum(0,np.dot(w0.T, x0))
# a0可以視為第一層網絡層交互出的新特征,但其特征含義是比較模糊的
print("3、經過第一層神經網絡relu(w0*x0)后輸出:\n",a0)
w1=model.layers[1].get_weights()[0]
print("4、第二層網絡的權重參數w1:\n", w1)
# 預測結果為w1與ao加權求和
a1 = np.dot(w1.T,a0)
print("5、經過第二層神經網絡w1*ao后輸出預測值:%s,實際標簽值為%s"%(a1[0],train_y[0]))

運行代碼,輸出如下結果

從深度神經網絡的示例可以看出,神經網絡學習的內容一樣是權重參數。由于非線性隱藏層的作用下,深度神經網絡可以通過權重參數對數據非線性轉換,交互出復雜的、高層次的特征,并利用這些特征輸出決策,最終取得較好的學習效果。但是,正也因為隱藏層交互組合特征過程的復雜性,學習的權重參數在業務含義上如何決策,并不好直觀解釋。

對于深度神經網絡的解釋,常常說深度學習模型是“黑盒”,學習內容很難表示成易于解釋含義的形式。在此,一方面可以借助shap等解釋性的工具加于說明。另一方面,還有像深度學習處理圖像識別任務,就是個天然直觀地展現深度學習的過程。如下展示輸入車子通過層層提取的高層次、抽象的特征,圖像識別的過程。注:圖像識別可視化工具來源于https://poloclub.github.io/cnn-explainer/

在神經網絡學習提取層次化特征以識別圖像的過程:

這和人類學習(圖像識別)的過程是類似的——從具體到抽象,簡單概括出物體的本質特征。就像我們看到一輛很酷的小車,

然后憑記憶將它畫出來,很可能沒法畫出很多細節,只有抽象出來的關鍵特征表現,類似這樣??:

我們的大腦學習輸入的視覺圖像的抽象特征,而不相關忽略的視覺細節,提高效率的同時,學習的內容也有很強的泛化性,我們只要識別一輛車的樣子,就也會辨別出不同樣式的車。這也是深度神經網絡學習更高層次、抽象的特征的過程。

文章轉自微信公眾號@算法進階

上一篇:

一文講透神經網絡的激活函數

下一篇:

LSTM原理及生成藏頭詩(Python)
#你可能也喜歡這些API文章!

我們有何不同?

API服務商零注冊

多API并行試用

數據驅動選型,提升決策效率

查看全部API→
??

熱門場景實測,選對API

#AI文本生成大模型API

對比大模型API的內容創意新穎性、情感共鳴力、商業轉化潛力

25個渠道
一鍵對比試用API 限時免費

#AI深度推理大模型API

對比大模型API的邏輯推理準確性、分析深度、可視化建議合理性

10個渠道
一鍵對比試用API 限時免費