百科生活 投稿
关于【熵(熵增)】:人类进入信息时代70年,3分钟带你搞懂背后的大BOSS——香农定律,熵(熵增),今天小编给您分享一下,如果对您有所帮助别忘了关注本站哦。
- 内容导航:
- 1、熵(熵增)
- 2、人类进入信息时代70年,3分钟带你搞懂背后的大BOSS——香农定律
1、熵(熵增)
雷锋网 AI 科技评论按:「熵」大概是统计学、信息学里最让初学者愁肠百结的基本概念之一。我们都知道熵可以用来描述含有的信息丰富程度的多少,但是具体是怎么回事呢?这篇文章中雷锋网 AI 科技评论将带大家重新系统认识一下「熵」倒是在讲什么。
假设你在医生办公室中与三个等待的病人交流。三个病人都刚刚完成药物测试,他们面临着两种可能的结果:患病或者未患病。假设这三个病人都充满好奇心而且数学好。他们提前各自研究得到了自己患病的风险,并且想通过这些来确认自己的诊断结果。
病人 A 知道他自己有 95% 的可能会患病。对于病人 B,患病概率为 30%,病人 C 的患病未患病的概率都为 50%。
病房中的不确定性
首先我们专注于一个简单的问题。在其他条件都相同的情况下,这三个病人中的哪个面临着最大的不确定性?
这个问题的答案是显而易见的,病人 C。他所面临的是在这种情况下可能呢存在的最大程度的不确定性:就像医疗版本的抛硬币试验一样。
对于病人 A 来说,虽然他的情况不容乐观,但是至少他对于是否患病这个问题有最小的不确定性。对于病人 B,他的不确定性在病人 A 和病人 C 之间。
这就是为什么要引入熵这个概念的原因:描述一个状况下的不确定性为在xx和xx之间,在日常生活环境下这种精细程度可能足够了,但是对于机器学习任务来说,这种描述太宽泛了。
不确定性度量熵允许我们对于生活中的一个重要问题:事情最终会发展到什么样的结果,进行精确度量和计算。
换种说法,熵是一种不确定性的度量。
在本篇文章中,熵都是指代香农熵(Shannon entropy)。其实还有几种其他类型的熵,但是在自然语言处理或者机器学习领域中,我们提到的熵都是香农熵。
所以在没有特意说明的情况下,下面就是熵的公式。对于事件X,有n种可能结果,且概率分别为p_1, ... p_n,公式为:
基本性质如果你是第一次看到这个公式,你可能会提出一个问题:为什么要用对数?为什么这个公式就能够度量不确定性?当然,还有为什么要用字母H来表示熵?(表面上这个英文字母H是从希腊大写字母Eta上演变过来的,但实际上为什么采用了字母H来表示,还是有一段复杂的历史的,感兴趣的可以看这个问题:Why use H for entropy?)
对于很多情况下的问题,我认为从以下两点切入是很好的选择:(1)我所面对的这个数学结构有那些理想的属性?(2)是否有其他结构也能够满足所有这些理想的属性?
对于香农熵作为不确定性的度量来说,这两个问题的答案分别是:(1)很多,(2)没有。
我们来一个一个看我们希望熵的公式应该具有哪些性质。
基本性质1:均匀分布具有最大的不确定性如果你的目标是减小不确定性,那么一定要远离均匀概率分布。
简单回顾一下概率分布:概率分布是一个函数,对于每个可能的结果都有一个概率,且所有的概率相加等于 1。当所有可能的结果具有相同的可能性时,该分布为均匀分布。例如:抛硬币实验(50% 和 50% 的概率), 均匀的骰子(每个面朝上的概率都为六分之一)。
均匀分布具有最大的熵
一个好的不确定性度量会在均匀分布时达到最大的值。熵满足这个要求。给定 n 个可能的结果,最大的熵在所有结果的概率相同时得到。
下面是对于伯努利试验中熵的图像。(伯努利试验有两种可能的结果:p和1-p):
在伯努利试验中,当p=0.5时,熵达到最大
基本性质2:对于独立事件,不确定性是可加的假设 A 和 B 是独立事件。换句话讲,知道事件 A 的结果并不会丝毫影响 B 的结果。
关于这两个事件的不确定性应该是两个事件单独的不确定性的和,这也是我们希望熵的公式应该具备的性质。
对于独立事件,不确定性是可加的
让我们使用抛两个硬币的试验作为例子来使这个概念更加具体。我们既可以两个硬币同时抛,也可以先抛一个硬币再抛另一个硬币。在两种情况下,不确定性是相同的。
考虑两个特殊的硬币,第一个硬币正面朝上 (H, Head) 的概率为80%,背面朝上 (T, Tail) 的概率为 20%。另一个硬币的正面朝上和反面朝上的概率分别为 60% 和 40%。如果我们同事抛两枚硬币,那么有四种可能:正正,正反,反正,反反。对应的概率分别为[0.48, 0.32, 0.12, 0.08]。
两个独立事件的联合熵等于独立事件的熵的和
将这些概率带入到熵的公式中,我们能够看到:
就跟我们设想的一样,两个独立事件的联合熵等于各个独立事件的熵的和。
基本性质3:加入发生概率为0的结果并不会有影响假设有一个游戏,获胜条件如下:(a)只要#1号结果出现,你就赢了。(b)你可以在两个概率分布 A 和 B 中选一个进行游戏。分布 A 有两种可能,#1号结果为 80% 概率,#2号结果为 20% 概率。分布 B 有三种结果,#1号结果80%,#2号结果20%,#3号结果0%.
增加第三个概率为0的结果并不会有什么不同
给定 A 和 B 两个选择,你会选哪个?可能正确的反应应该是耸耸肩或白个眼。第三个结果的加入并没有增加或减少这个游戏的不确定性。谁关心到底是用A还是B呀,因为用哪个都是一样的。
熵的公式也满足这个性质:
即,增加一个概率为0的结果,并不会影响对于不确定性的度量。
基本性质4:不确定性的度量应该是连续的最后一个基本性质是连续性。
连续性的最直观的解释就是没有断开或者空洞。更精确的解释是:输出(在我们的场景下是不确定性)中任意小的变化,都可以由输入(概率)中足够小的变化得到。
对数函数在定义域上每个点都是连续的。在子集上有限数量函数的和和乘积也是连续的。由此可能得出熵函数也是连续的。
唯一性定理
Khinchin(1957)证明,满足上述四种基本属性的唯一函数族具有如下形式:
其中λ是正常数。Khinchin称之为唯一性定理。将λ设为1,并使用以2为底的对数就得到了香农熵。
重申一下,使用熵作为不确定性度量是因为它具有我们期望的属性,并且是从满足上面提到的四个属性的函数族中做出的很自然的选择。
其他属性除了上述用于Khinchin的唯一性定理中的四个基本属性,熵还具有一些其他的性质,下面就介绍其中的一些。
性质5:具有更多可能结果的均匀分布有更大的不确定性比如你可以在抛硬币试验和抛骰子试验中做出一个选择,如果硬币正面朝上或者骰子1那面朝上就算赢。你会选择那个试验?如果你想最大化收入,肯定会选择硬币。如果只是想体验下不确定性,那可能就会选骰子。
随着等概率结果的数量的增加,不确定性的度量也应该增加。
这正是熵所做的:H(1/6, 1/6, 1/6, 1/6, 1/6, 1/6)> H(0.5, 0.5)
一般来说,L(k)为具有K个结果的均匀分布的熵,我们能够得到:
对于m>n,有
性质6:事件拥有非负的不确定性你知道什么是负的不确定性吗?反正我也不知道。
对于一个用户友好的不确定性度量来说,无论输入是什么,应该总会返回一个非负的结果。
熵的公式同样满足这个性质,我们来看一下公式:
概率是定义在0-1的范围内的,因此是非负的。所以概率的对数是负的。概率乘概率的对数不会改变符号。因此求和之后应该是负的,最终负负得正。所以对于所有的输入,熵都是非负的。
性质7:有确定结果的事件具有0不确定性假设你拥有一个魔法硬币,无论你怎么抛,硬币总是正面朝上。
你会怎么量化这个魔法硬币的不确定性,或者其他情况下有确定结果的事件的不确定性?这中情况下就没有不确定性,所以结果也很自然,不确定性为0。
熵的定义也满足这个性质。
假设结果i一定会发生,即p_i=1, 所以H(X)为:
即,确定事件的熵为0。
性质8:调转参数顺序没有影响这是另一个显而易见的理想性质。考虑两种情况,第一个,抛硬币正面朝上的概率和背面朝上的概率分别为80%和20%。第二个情况里概率正好相反:正面朝上和背面朝上的概率分别为20%和80%。
两种抛硬币试验都有相同的熵,即H(0.8, 0.2) = H(0.2, 0.8)。
更通用的形式,对于个结果的试验,我们有:
实际上这对于有任何数量结果的试验都适用。我们可以以任意的方式调整参数的顺序,而所有的结果都是一样的。
总结回顾一下,香农熵是一种不确定性的度量。
它被广泛的适用,因为它满足了我们想要的一些标准(同时也是因为我们生活中充满了不确定性)。唯一性定理告诉我们,只有一个函数族具有我们想要的四种基本性质。香农熵是这个函数族的一个很自然的选择。
熵的性质有(1)对于均匀分布有最大的熵;(2)对于独立事件熵是可加的;(3)具有非零概率的结果数量增加,熵也会增加;(4)连续性;(5)非负性;(6)确定事件的熵为0;(7)参数排列不变性。
via TowardsDatascience,雷锋网 AI 科技评论编译
2、人类进入信息时代70年,3分钟带你搞懂背后的大BOSS——香农定律
众所周知,瓦特改良蒸汽机,使人类进入了“蒸汽时代;而麦克斯韦提出的电磁理论,则让人类从蒸汽时代跨越到了电气时代。而第三次信息革命,则是香农提出的香农定律吹响了变革的号角。

从 1948 年,香农定律的提出,标准着信息论的建立,美国之所以能够对全球经济具有话语权,除了是因为强大的军事能力之外,还仰赖于香农定律构建的全球技术标准,让美国成为新帝国的垄断者。
从 1G 到 4G 时代,美国都是主导者,但到了 5G 时代,以华为为代表的中国企业异军突起,争夺 5G 的全球领导权,这也是美国恼羞成怒的原因。

但不管怎么样,从技术的角度来看,主宰者从来只有一个,那就是我们刚刚提到的香农公式,它才是5G幕后真正的大BOSS。香农定律诞生 70 年,是时候搞懂它了。
1850 年克劳修斯从热机的效率出发,认识到正转变(功转变成热量)可以自发进行,而负转变(热量转变成功)作为正转变的逆过程却不能自发进行。负转变的发生需要同时有一个正转变伴随发生,并且正转变的能量要大于负转变,这实际是意味着自然界中的正转变是无法复原的。

所以克劳修斯在论文中提出了一条基本定律:“没有某种动力的消耗或其他变化,不可能使热从低温转移到高温。“这个定律被称为热力学第二定律。

克劳修斯在 1854 年的随笔《关于热的力学理论的第二基础定理的一个修正形式》提出了新的物理量来解释这种现象,1865 年正式命名为熵,以符号S表示。
由此克劳修斯提出了热力学第二定律的又一个表述方式,也被称为熵增原理,那就是:不可逆热力过程中熵的微增量总是大于零。在自然过程中,一个孤立系统的总混乱度(即“熵”)不会减小。

简而言之就是孤立系统的熵永不自动减少,熵在可逆过程中不变,在不可逆过程中增加,可以说非常鲜明地指出了不可逆过程的进行方向。
熵增原理是热力学第二定律的另外一种表述形式,却又拥有更加深刻的含义,它创造了“熵”这个概念。
1865年,热力学奠基人之一克劳修斯把熵增原理(熵增原理是热力学第二定律的又一种表述)应用于无限宇宙中而提出“热寂说”,熵增原理就是孤立热力学系统的熵不减少,总是增大或者不变。用来给出一个孤立系统的演化方向。说明一个孤立系统不可能朝低熵的状态发展即不会变得有序。(孤立体系是指:系统与环境之间既无物质交换,又无能量交换,故称为孤立体系)

热寂说将熵增原理扩大到整个宇宙,将整个宇宙当成一个孤立系统,认为宇宙的熵会趋向极大,最终达到热平衡状态,即宇宙每个地方的温度都相等。

麦克斯韦在听到热寂说之后,立即脑洞大开,首先从概率统计的角度认真思考这个假说,意识到对于宇宙这种“开放系统”来说,一定存在某种机制,使得在某种条件下,会存在貌似“违反了”热力学第二定律的情况。
1871年,他在《热理论》一书的末章《热力学第二定律的限制》中,设计了一个假想的存在物,即著名的“麦克斯韦妖” (Maxwell's demon)。

在麦克斯韦构想中,麦克斯韦妖有极高的智能,可以追踪每个分子的行踪,并能辨别出它们各自的速度。这个理想实验如下:
“我们知道,在一个温度均匀的充满空气的容器里的分子,其运动速度决不均匀,然而任意选取的任何大量分子的平均速度几乎是完全均匀的。现在让我们假定把这样一个容器分为两部分,A和B,在分界上有一个小孔,在设想一个能见到单个分子的存在物,打开或关闭那个小孔,使得只有快分子从A跑向B,而慢分子从B跑向A。这样,它就在不消耗功的情况下,B的温度提高,A的温度降低,从而与热力学第二定律发生了矛盾"。
而这个存在物就是“麦克斯韦妖”,小妖精掌握和控制着高温系统和低温系统之间的分子通道。它利用了分子运动速度的统计分布性质。因为根据麦克斯韦分布,即使是低温区,也有不少高速分子,高温的系统中也有低速度的分子,通过这样一个能够控制分子运动的小妖精,在两系统的中间设置一个门,只允许快分子从低温往高温运动,慢分子则从高温往低温运动,在“小妖”的这种管理方式下,两边的温差会逐渐加大,高温区的温度会越来越高,低温区的温度越来越低。
麦克斯韦认为,只有当我们能够处理的只是大块的物体而无法看出或处理借以构成物体分离的分子时,热力学第二定律才是正确的,并由此提出应当对热力学第二定律的应用范围加以限制。
1929 年匈牙利物理学家利奥·希拉德在研究麦克斯韦妖的时候,将麦克斯韦的设计方案简化,构建了一个单分子版的实验模型。
希拉德首次将信息的概念引入到热力学循环中。小妖精进行测量的目的是为了获得信息,从而知道分子是处于左边还说右边,而在这个获取信息的过程中会消耗能量,从而导致整体的熵的增加。如果把这个效果包含到热力学循环中来,热力学第二定律就不会被违反,那么麦克斯韦妖就被斩杀了!
希拉德第一次认识到信息的物理本质,将信息与能量消耗联系起来。可以说为后来的消息论奠定了基础。
我们知道,自人类诞生之初,信息就已经产生,比如古代猿人通过声音告诉同伴捕猎成功,这也是信息。但是千百年来从未有科学家对信息展开系统研究。人通过获得、识别自然界和社会的不同信息来区别不同事物,得以认识和改造世界。在一切通讯和控制系统中,信息是一种普遍联系的形式。
飞鸽传书
而香农对信息的认知可以说开人类之先河,彻底颠覆了人类的认知。香农是一个天才,从小对数学就极为痴迷,香农十分热衷于解答姐姐凯瑟琳交给他的数学题。
而到了 22 岁的时候,他发表的硕士论文《A Symbolic Analysis of Relay and Switching Circuits》(继电器与开关电路的符号分析)就已经惊震世界。当时他已经注意到电话交换电路与布尔代数之间的类似性,即把布尔代数的“真”与“假”和电路系统的“开”与“关”对应起来,并用1和0表示。于是他用布尔代数分析并优化开关电路,这就奠定了数字电路的理论基础。如果说德布罗意的博士论文是世界上最伟大的博士论文,那香农的这篇就是世界上最伟大的硕士论文。

不过,香农的确是一个非常有趣的人,他曾因为获得杂耍学博士而欣喜不已,到了晚年,依然热衷于像人们展示自己鼓捣的各式各样的小玩意小器械。
玩杂耍的香农
香农在贝尔实验室为美国情报部门工作工作多年,在英文里情报和信息的英文都是“information”。这让他对于信息产生了独特的理解。
当时香农在研究探讨信息的本质和通信的理论极限问题,比如什么是信息,怎样从数学上定义衡量信息,数据压缩和数据传输可达到的极限在哪里。
香农认为信息是能够用来消除不确定性的东西,举一个不是很恰当的例子,我不知道我这次考试的分数是多少,但是老师给我发了一个信息告知了我,我立马做出决定不告诉我妈这次的成绩,这其实就是一个获取新信息、消除不确定性的过程,这个过程可以看做是信息论原理的一个具象呈现。
香农本来打算直接用“不确定性”(uncertainty)来表达这个概念,但是这个概念太过于模糊,不确定性究竟指的是什么东西,它的意义是什么,就很难说明白。
当他和冯·诺伊曼讨论这个问题时,冯·诺伊曼对香农建议说:“你应该把它称之为‘熵’。”并给出两个理由,一是“不确定性”这个概念已被用于统计力学,二是没有人知道“熵”到底是什么,不致引发争论。
所以香农熵由此诞生,香农指出信息熵是消除不确定性所需信息量的度量,即未知事件可能含有的信息量。通俗的讲信息熵是用来衡量信息量的大小。
- 若不确定性越大,则信息量越大,熵越大。
- 若不确定性越小,则信息量越小,熵越小。
在之前,克劳修斯提出的“熵”,最初是用来描述“能量退化”的物质状态参数之一,仅仅是一个可以通过热量改变来测定的物理量,但是在香农的手里,熵则开启了信息时代的大门,所以才有了那句经典的“香农说,要有熵,信息时代由此开启”。
信息熵的公式
香农在希拉德的基础上提出,信息就是负熵,麦克斯韦妖将负熵输给系统,即是降低了熵,增加了有序性。信息的获取是需要消耗能量的。物体之间的相互作用在系统之内并不降低系统的不确定度,所以没有信息作用。信息是对系统的观测,是外界对原来系统的作用。信息的本质就是“意义'的载体。
1948年10月香农在《贝尔系统技术学报》发表了论文《A Mathematical Theory of Communication》(通信的数学理论),这是现代信息论研究的开端,文章系统论述了信息的定义,怎样数量化信息,怎样更好地对信息进行编码。在这些研究中,概率理论是香农使用的重要工具,并且正式提出了信息熵的概念,用于衡量消息的不确定性,从而解决了电报、电话、无线电等如何计量信号信息量的问题。
除此之外香农还自创用“比特”来测量信息的单位,现已跻身于公尺、千克、分钟之列,成为了日常生活中最常见的量纲之一,是计算机最小的数据单位。
例如“小编实在太厉害”这七个汉字一共是112bits,一个汉字两个字节,一个字节8bits,总共就是7*2*8bits。
香农的厉害之处就在于,有的理论的创始人是带我们到了一个新的起点,而香农创立信息论时,直接定义了它的终点。只要你还在经典信息论框架内,你就逃不出三大定理的范围,我们拼尽全力往技术的山顶走,而香农就在山顶等我们,哪怕是现在认为非常先进的5G技术,其实也并没有突破香农理论的极限。
我们真的,香农信息论是以概率论、随机过程为基本研究工具,研究广义通信系统的整个过程,而不是整个环节,并以编、译码器为重点,其关心的是最优系统的性能及如何达到该性能。
虽然香农熵解决了电报、电话、无线电等如何计量信号信息量的问题。但怎么在远距离通信中进一步提高信道容量?也就是信息传送速率上限,即“香农极限”。
因为在信息论里,有噪信道编码定理指出,尽管噪声会干扰通信信道,但还是有可能在信息传输速率小于信道容量的前提下,以任意低的错误概率传送数据信息。
而通信信道的信道容量也就是香农限制是指在指定的噪音标准下,信道理论上的最大传输率。
由此,在这篇论文中,香农提出了信息论的基础,也是关于信道容量计算的一个经典定律——香农定律。这使得至今几乎所有的现代通信理论都是基于这个公式展开。
它是指在高斯白噪声背景下的连续信道的容量
=
(b/s)。
其中:B为信道带宽(Hz);S为信号功率(W);n0为噪声功率谱密度(W/Hz);N为噪声功率(W)。
香农定理给出了信道信息传送速率的上限(比特每秒)和信道信噪比及带宽的关系。可以解释现代各种无线制式由于带宽不同,所支持的单载波最大吞吐量的不同。
C是单信道的信道容量,是能在此信道中信息传输速率的最大值,。我们建立了一个单点输入、单点输出的通信通道(我们称为信道)后,这条通道每秒最多可以传送多少bit的信息量,如果信息速率超过信道容量,那信息是不可能被传输。
B是信道的带宽,可以简单理解为分配给一个信道可用的频率范围的一半;S是传送信号的平均功率,而N则是噪声或者干扰信号的平均功率。
从香农公式可知,对于单信道而言,要增加信道容量C,无非三种方式:或增加带宽B,或增加信号功率S,或减少噪声或干扰信号的功率N。

我们可以简单地把信息通道看作是城市道路,那么在这条道路上的单位时间内的车流量就受到道路宽度和车辆速度等因素的制约,在这些特定制约条件下,单位时间内最大车流量就被称为极限值。
而根据香农定理,由于受到一些固有规律的制约,任何信道都不能无限增加信息传送的速率。
从香农公式中我们可以看出,想要提高信息的传送速率关键在于提高信噪比和带宽。
香农定律为信息时代指明了道路,二十世纪六十年代由美国贝尔实验室等单位提出蜂窝系统的概念和理论,但是受到硬件的限制,七十年才在正式向产业化发展。移动通信的变革在北美、欧洲、和日本几乎同时进行。1978年,美国贝尔实验室研制成功全球首个移动蜂窝电话系统AMPS,标志着 1G 时代的到来,全球正式进入了信息时代,信息技术革命以美国为核心逐渐扩散到其他国家。
香农定律告诉我们:牺牲单个信道的功率,虽然单个信道的容量有所降低,但是这个降低却能换来信道数目的增长。因此,有的时候,牺牲一定的带宽、提高一点噪声或是降低一点信号功率,如果能使输入或输出信号之间的区分度增加,也是可以提高信道总容量的。这正是5G的另一类重要技术,非正交复用技术(Non-Orthogonal Multiple Access,NOMA)的原理基础。
而从 1G 到 5G 的过程,就是逼近香农极限的过程。香农公式是整个信息时代规则的制定者,它是至高无上的神,也是美国得以制衡全球的终极法器。然而随着时代的发展,我们也获悉了香农定律中的无上奥秘。从而在 5G 世界走在了全球的前列。
或许这新帝国的垄断者也该易位了!
本文关键词:熵熵增,熵是增加的,熵变△siso,化学 熵增,熵增熵减负熵。这就是关于《熵(熵增),3分钟带你搞懂背后的大BOSS——香农定律》的所有内容,希望对您能有所帮助!
- 最近发表