| 此條目需要 精通或熟悉相關主題的編者參與及協助編輯。 請邀請適合的人士改善本條目。更多的細節與詳情請參見討論頁。 |
KL散度(Kullback-Leibler divergence,簡稱KLD)[1],在訊息系統中稱為相對熵(relative entropy),在連續時間序列中稱為隨機性(randomness),在統計模型推斷中稱為訊息增益(information gain)。也稱訊息散度(information divergence)。
KL散度是兩個概率分佈P和Q差別的非對稱性的度量。 KL散度是用來度量使用基於Q的分佈來編碼服從P的分佈的樣本所需的額外的平均位元數。典型情況下,P表示數據的真實分佈,Q表示數據的理論分佈、估計的模型分佈、或P的近似分佈。[1]
對於離散隨機變數,其概率分佈P 和 Q的KL散度可按下式定義為

等價於

即按概率P求得的P和Q的對數商的平均值。KL散度僅當概率P和Q各自總和均為1,且對於任何i皆滿足
及
時,才有定義。式中出現
的情況,其值按0處理。
對於連續隨機變量,其概率分佈P和Q的KL散度可按積分方式定義為 [2]

其中p和q分別表示分佈P和Q的密度。
更一般的,若P和Q為集合X的概率測度,且P關於Q絕對連續,則從P到Q的KL散度定義為

其中,假定右側的表達形式存在,則
為Q關於P的R–N導數。
相應的,若P關於Q絕對連續,則

即為P關於Q的相對熵。
相對熵的值為非負數:

由吉布斯不等式可知,若且唯若
時
為零。
儘管從直覺上KL散度是個度量或距離函數, 但是它實際上並不是一個真正的度量或距離。因為KL散度不具有對稱性:從分佈P到Q的距離通常並不等於從Q到P的距離。

自資訊和KL散度

相互資訊和KL散度

資訊熵和KL散度

條件熵和KL散度

交叉熵和KL散度
![{\displaystyle \mathrm {H} (p,q)=\mathrm {E} _{p}[-\log q]=\mathrm {H} (p)+D_{\mathrm {KL} }(p\|q).\!}](https://wikimedia.org/api/rest_v1/media/math/render/svg/2d8f2e114908f6a358fa616fa739cf57f37eaf60)