本文主要结合公式和定义解释了信息熵(Entropy)和信息量(Quantities of information)的含义和联系.
背景
信息熵是由信息论之父,克劳德·艾尔伍德·香农(Claude Elwood Shannon)于 1948 年发表的论文《通信的数学理论》(A Mathematical Theory of Communication)中提出.
熵这个词是香农从热力学中借用的:热力学中的热熵是表示分子状态的混乱程度的物理量,香农则使用信息熵来描述信源的不确定度.
信息熵的提出解决了对信息的量化度量问题.(应注意,信息量不等同于信息熵)
定义
熵(Entropy):对于给定的离散随机变量
上述定义可以看出,熵是对于随机变量而言的,那么又是如何与信息量联系起来的呢?
熵与信息量
虽然我们有了信息熵的公式,但抽象且不容易理解. 应该如何理解信息熵呢?下面是维基百科中给出的一句解释:
In information theory, the entropy of a random variable is the average level of "information", "surprise", or "uncertainty" inherent in the variable's possible outcomes.
也就是说,一个随机变量的熵是指该变量可能的结果所蕴含的不确定性的平均水平.
举个例子,对于一枚不均衡的硬币,抛掷它时以概率
我们就用熵来定量衡量这种随机事件的不确定性,至于如何定量先不讨论,先来看看熵与信息量有什么联系.
信息论中有一句常见的口诀:“不确定性越多(概率越低),信息量越大;不确定性越低(概率越高),信息量越小“,也就是对信源来说,所发出的信号对于接受者可以看作随机变量,接受者在接受前对该变量的不确定性越大,则接收到后所“消除”的不确定越大,则获得的信息量越大.
举个例子:你知道你每天起床后你妈一定会对你说:“你看你像猪一样起这么晚!”,这句话对你来说没有任何不确定性(概率为
以上通俗的解释了“熵”、“信息量”的概念,但需要注意的是信息熵不等同于信息量,但它们在量上是相等的. 即,“熵”度量了不确定性,而接受信息后所消除的不确定性即为该信息的“量”.
信息量和熵都是相对于某一主体来说的,即同一个信息对于不同的人而言信息量不同,同一件不确定的事情对于不同的人所蕴含的熵也不同.
定量
以上定性的解释了“熵”的含义,那么公式中熵的值是怎么确定的呢?
类似于质量、长度等物理量,信息熵同样作为物理量也需要有一个基本度量单位.
类似于光年作为长度单位被定义为光行驶一年的长度,熵的基本单位被定义为等概率
有了基本单位,衡量其他随机变量的熵就有了基准,类似于光行驶
对于等概率事件仍可以类似量化,比如对于猜一道有四个选项的选择题的答案,那么四个答案的概率均等分布,与先后掷两枚硬币的分布是等同的,因此其熵为
其中
至此,已经解决了等概率分布的随机变量的熵的计算,那么对于不等概率的分布将如何计算呢?公式中展示出了加权的思想,即把每一个结果都看作等可能事件中的一个结果,按照其发生的概率加权求和.
例如,通过某些“手段”答题人得知选项 A、B、C、D 为正确答案的概率分别为
至此,便得到了熵的定义中的公式形式.
性质
香农总结出了信息熵的三条性质:
- 单调性,即发生概率越高的事件,其所携带的信息熵越低.
- 非负性,即信息熵不能为负.
- 累加性,即多随机事件同时发生的的总不确定性的度量可以表示为各事件不确定性的度量的和,也即:
对于相互独立的随机变量
香农从数学上,严格证明了满足上述三个条件的随机变量不确定度量具有唯一的形式:
信息量(Quantities of information)
信息量是衡量信息多少的度量,其值等于获得该信息后减少的随机变量不确定性量.
例如,对于一个有四个选项的选择题,我根本不会做,则正确答案对应的随机变量
若此时老师说 A 选项是错的,不选,根据公式则有
那么老师这句话带给我的信息量则为:
如果我的同桌小农一开始就知道这题选
D,那么关于这道题答案的熵对于他来说即为