– Q 是近似分布(模型預測分布)。
– log 通常以自然對數(底數為 ( e ))或對數 2 為底。

## 2. KL散度的直觀理解

KL散度衡量的是用分布 Q 來近似分布 P 時所損失的信息量。它可以理解為:

– 如果用 Q 來表示 P,KL散度表示額外需要的編碼長度。
– KL散度越小,說明 Q 與 P 越接近;當 Q = P 時,KL散度為 0。

需要注意的是,KL散度是非對稱的,即 *DKL*?(*P*∥*Q*)=*DKL*?(*Q*∥*P*)。因此,KL散度不滿足距離度量的對稱性要求。

## 3. KL散度的性質

KL散度具有以下重要性質:

### 3.1 非負性

KL散度始終非負:

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_17358912606711.png)當且僅當 P = Q 時,KL散度為 0。

### 3.2 非對稱性

KL散度是非對稱的:

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_1735891295288.png)### 3.3 不滿足三角不等式

KL散度不滿足距離度量的三角不等式,因此不能嚴格稱為“距離”。

### 3.4 與交叉熵的關系

KL散度與[交叉熵](http://www.dlbhg.com/wiki/what-is-cross-entropy/) H(P, Q) 和熵 H(P) 的關系為:

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_17358913418932.png)其中:

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_17358913752286.png)## 4. KL散度的計算方法

以下通過具體示例說明KL散度的計算過程。

### 4.1 離散概率分布示例

假設有兩個離散概率分布 P 和 Q :

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_17358914253616.png)KL散度計算如下:

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_17358914569174.png)計算每一項:

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_17358914914145.png)最終結果:

![](https://explinks-blog.oss-cn-beijing.aliyuncs.com/wp-content/uploads/2025/01/企業微信截圖_1735891517893.png)### 4.2 連續概率分布示例

假設有兩個正態分布

一站搜索、試用、比較全球API!
冪簡集成已收錄 4968種API!
試用API,一次比較多個渠道