在信息论中,条件熵描述了在已知第二个随机变量 的值的前提下,随机变量 的信息熵还有多少。同其它的信息熵一样,条件熵也用Sh、nat、Hart等信息单位表示。基于 条件的 的信息熵,用 表示。
如果 为变量 在变量 取特定值 条件下的熵,那么 就是 在 取遍所有可能的 后取平均的结果。
给定随机变量 与 ,定义域分别为 与 ,在给定 条件下 的条件熵定义为:[1]
注意: 可以理解,对于确定的 c>0,表达式 0 log 0 和 0 log (c/0) 应被认作等于零。
当且仅当 的值完全由 确定时,。相反,当且仅当 和 为独立随机变量时。
假设两个随机变量 X 和 Y 确定的组合系统的联合熵为 ,即我们需要 bit的信息来描述它的确切状态。
现在,若我们先学习 的值,我们得到了 bits的信息。
一旦知道了 ,我们只需 bits来描述整个系统的状态。
这个量正是 ,它给出了条件熵的链式法则:
链式法则接着上面条件熵的定义:
条件熵的贝叶斯规则表述为
证明. and 。对称性意味着 。将两式相减即为贝叶斯规则。
在量子信息论中,条件熵都概括为量子条件熵。