熵增 熵( 二 )


考虑两个特殊的硬币,之一个硬币正面朝上 (H, Head) 的概率为80%,背面朝上 (T, Tail) 的概率为 20% 。另一个硬币的正面朝上和反面朝上的概率分别为 60% 和 40% 。如果我们同事抛两枚硬币,那么有四种可能:正正,正反,反正,反反 。对应的概率分别为[0.48, 0.32, 0.12, 0.08] 。

熵增  熵

文章插图
两个独立事件的联合熵等于独立事件的熵的和
将这些概率带入到熵的公式中,我们能够看到:
就跟我们设想的一样,两个独立事件的联合熵等于各个独立事件的熵的和 。
基本性质3:加入发生概率为0的结果并不会有影响假设有一个游戏,获胜条件如下:(a)只要#1号结果出现,你就赢了 。(b)你可以在两个概率分布 A 和 B 中选一个进行游戏 。分布 A 有两种可能,#1号结果为 80% 概率,#2号结果为 20% 概率 。分布 B 有三种结果,#1号结果80%,#2号结果20%,#3号结果0%.
熵增  熵

文章插图
增加第三个概率为0的结果并不会有什么不同
给定 A 和 B 两个选择,你会选哪个?可能正确的反应应该是耸耸肩或白个眼 。第三个结果的加入并没有增加或减少这个游戏的不确定性 。谁关心到底是用A还是B呀,因为用哪个都是一样的 。
熵的公式也满足这个性质:
即,增加一个概率为0的结果,并不会影响对于不确定性的度量 。
基本性质4:不确定性的度量应该是连续的最后一个基本性质是连续性 。
连续性的最直观的解释就是没有断开或者空洞 。更精确的解释是:输出(在我们的场景下是不确定性)中任意小的变化,都可以由输入(概率)中足够小的变化得到 。
对数函数在定义域上每个点都是连续的 。在子集上有限数量函数的和和乘积也是连续的 。由此可能得出熵函数也是连续的 。
唯一性定理
Khinchin(1957)证明,满足上述四种基本属性的唯一函数族具有如下形式:
熵增  熵

文章插图
其中λ是正常数 。Khinchin称之为唯一性定理 。将λ设为1,并使用以2为底的对数就得到了香农熵 。
重申一下,使用熵作为不确定性度量是因为它具有我们期望的属性,并且是从满足上面提到的四个属性的函数族中做出的很自然的选择 。
其他属性除了上述用于Khinchin的唯一性定理中的四个基本属性,熵还具有一些其他的性质,下面就介绍其中的一些 。
性质5:具有更多可能结果的均匀分布有更大的不确定性比如你可以在抛硬币试验和抛骰子试验中做出一个选择,如果硬币正面朝上或者骰子1那面朝上就算赢 。你会选择那个试验?如果你想更大化收入,肯定会选择硬币 。如果只是想体验下不确定性,那可能就会选骰子 。
熵增  熵

文章插图
随着等概率结果的数量的增加,不确定性的度量也应该增加 。
这正是熵所做的:H(1/6,1/6,1/6,1/6,1/6,1/6)> H(0.5,0.5)
一般来说,L(k)为具有K个结果的均匀分布的熵,我们能够得到:
对于m>n,有
性质6:事件拥有非负的不确定性你知道什么是负的不确定性吗?反正我也不知道 。
对于一个用户友好的不确定性度量来说,无论输入是什么,应该总会返回一个非负的结果 。
熵的公式同样满足这个性质,我们来看一下公式:
熵增  熵

文章插图
概率是定义在0-1的范围内的,因此是非负的 。所以概率的对数是负的 。概率乘概率的对数不会改变符号 。因此求和之后应该是负的,最终负负得正 。所以对于所有的输入,熵都是非负的 。
性质7:有确定结果的事件具有0不确定性假设你拥有一个魔法硬币,无论你怎么抛,硬币总是正面朝上 。
熵增  熵

文章插图
你会怎么量化这个魔法硬币的不确定性,或者其他情况下有确定结果的事件的不确定性?这中情况下就没有不确定性,所以结果也很自然,不确定性为0 。
熵的定义也满足这个性质 。
假设结果i一定会发生,即p_i=1,所以H(X)为:
即,确定事件的熵为0 。
性质8:调转参数顺序没有影响这是另一个显而易见的理想性质 。考虑两种情况,之一个,抛硬币正面朝上的概率和背面朝上的概率分别为80%和20% 。第二个情况里概率正好相反:正面朝上和背面朝上的概率分别为20%和80% 。

推荐阅读