– Q 是近似分布(模型預測分布)。
– log 通常以自然對數(底數為 ( e ))或對數 2 為底。
## 2. KL散度的直觀理解
KL散度衡量的是用分布 Q 來近似分布 P 時所損失的信息量。它可以理解為:
– 如果用 Q 來表示 P,KL散度表示額外需要的編碼長度。
– KL散度越小,說明 Q 與 P 越接近;當 Q = P 時,KL散度為 0。
需要注意的是,KL散度是非對稱的,即 *DKL*?(*P*∥*Q*)=*DKL*?(*Q*∥*P*)。因此,KL散度不滿足距離度量的對稱性要求。
## 3. KL散度的性質
KL散度具有以下重要性質:
### 3.1 非負性
KL散度始終非負:
當且僅當 P = Q 時,KL散度為 0。
### 3.2 非對稱性
KL散度是非對稱的:
### 3.3 不滿足三角不等式
KL散度不滿足距離度量的三角不等式,因此不能嚴格稱為“距離”。
### 3.4 與交叉熵的關系
KL散度與[交叉熵](http://www.dlbhg.com/wiki/what-is-cross-entropy/) H(P, Q) 和熵 H(P) 的關系為:
其中:
## 4. KL散度的計算方法
以下通過具體示例說明KL散度的計算過程。
### 4.1 離散概率分布示例
假設有兩個離散概率分布 P 和 Q :
KL散度計算如下:
計算每一項:
最終結果:
### 4.2 連續概率分布示例
假設有兩個正態分布