信息论
信息论的研究范围分成三种不同类型:
(1)狭义信息论是一门应用数理统计方法来研究信息处理和信息传递的科学。它研究存在于通讯和控制系统中普遍存在着的信息传递的共同规律,以及如何提高各信息传输系统的有效性和可靠性的一门通讯理论。
(2)一般信息论主要是研究通讯问题,但还包括噪声理论、信号滤波与预测、调制与信息处理等问题。
熵
在信息论中,熵表示的是不确定性的量度。信息论的创始人香农在其著作《通信的数学理论》中提出了建立在概率统计模型上的信息度量。他把信息定义为“用来消除不确定性的东西”。
熵在信息论中的定义如下:
如果有一个系统S内存在多个事件S = {E1,...,En}, 每个事件的机率分布 P = {p1, ..., pn},则每个事件本身的讯息为
Ie = − log2pi
(对数以2为底,单位是位元(bit))
Ie = − lnpi
(对数以e为底,单位是纳特/nats)
如英语有26个字母,假如每个字母在文章中出现次数平均的话,每个字母的讯息量为
I_e = -\log_2 {1\over 26} = 4.7
;而汉字常用的有2500个,假如每个汉字在文章中出现次数平均的话,每个汉字的信息量为
I_e = -\log_2 {1\over 2500} = 11.3
整个系统的平均消息量为
H_s = \sum_{i=1}^n p_i I_e = -\sum_{i=1}^n p_i \log_2 p_i
这个平均消息量就是消息熵。因为和热力学中描述热力学熵的玻耳兹曼公式形式一样,所以也称为“熵”。
如果两个系统具有同样大的消息量,如一篇用不同文字写的同一文章,由于是所有元素消息量的加和,那么中文文章应用的汉字就比英文文章使用的字母要少。所以汉字印刷的文章要比其他应用总体数量少的字母印刷的文章要短。即使一个汉字占用两个字母的空间,汉字印刷的文章也要比英文字母印刷的用纸少。
实际上每个字母和每个汉字在文章中出现的次数并不平均,因此实际数值并不如同上述,但上述计算是一个总体概念。使用书写单元越多的文字,每个单元所包含的讯息量越大。
I(A)度量事件A发生所提供的信息量,称之为事件A的自信息,P(A)为事件A发生的概率。如果一个随机试验有N个可能的结果或一个随机消息有N个可能值,若它们出现的概率分别为p1,p2,…,pN,则这些事件的自信息的和:[H=-SUM(pi*log(pi)),i=1,2…N]称为熵。
熵的公式
熵H(X)=-Σx∈Ωp(x)logxp(x)
– 假设PX(x)是随机变量X的分布
– 基本输出字母表是Ω
– 单位:bits
• 熵是X的平均信息量,是自信息量的期望
E(X)=Σx∈Ω p(x) x
I(X)=-logp(x),取2为底,I(X)=-log2p(x)
E(I(X)=E(-log2p(x))= Σx∈Ω p(x)(-log2p(x)) = H(X)
H(X)=H(p)=Hp(X)=HX(p)=H(pX)
熵H(X)=-Σx∈Ωp(x)logxp(x)
– 假设PX(x)是随机变量X的分布
– 基本输出字母表是Ω
– 单位:bits
• 熵是X的平均信息量,是自信息量的期望
E(X)=Σx∈Ω p(x) x
I(X)=-logp(x),取2为底,I(X)=-log2p(x)
E(I(X)=E(-log2p(x))= Σx∈Ω p(x)(-log2p(x)) = H(X)
H(X)=H(p)=Hp(X)=HX(p)=H(pX)
熵的例子
• 掷均匀硬币,Ω={H,T}
p(H)=.5, p(T)=.5
H(p)=-0.5log20.5 (-0.5log20.5)=1
• 32面的均匀股子,掷股子
H(p)=-32((1/32)log2(1/32))=5
• 事实上,掷的次数21=2, 25=32(perplexity)
• 掷不均匀硬币
p(H)=0.2, p(T)=0.8, H(p)=0.722(不确定性更大)
p(H)=0.01, p(T)=0.99, H(p)=0.081
• 掷均匀硬币,Ω={H,T}
p(H)=.5, p(T)=.5
H(p)=-0.5log20.5 (-0.5log20.5)=1
• 32面的均匀股子,掷股子
H(p)=-32((1/32)log2(1/32))=5
• 事实上,掷的次数21=2, 25=32(perplexity)
• 掷不均匀硬币
p(H)=0.01, p(T)=0.99, H(p)=0.081
什么时候H(p)=0?
– 试验结果事先已经知道
– 即:∃x∈Ω, p(x)=1; ∀y∈Ω, p(y)=0 if y≠x
• 熵有没有上限?
– 没有一般的上限
– 对于|Ω|=n,H(p)≤-log2n
– 均衡分布的熵是最大的
– 试验结果事先已经知道
– 即:∃x∈Ω, p(x)=1; ∀y∈Ω, p(y)=0 if y≠x
• 熵有没有上限?
– 没有一般的上限
– 对于|Ω|=n,H(p)≤-log2n
– 均衡分布的熵是最大的
– 2个输出的等概率分布,H(p)=1bit
– 32个输出的等概率分布,H(p)=5bits
– 43亿输出的等概率分布,H(p)=32bits
• 非等概率分布
– 32个输出,2个0.5,其余为0,H(p)=1bit
– 怎样比较具有不同数量输出的“熵”?困惑度(perplexity)
困惑度(perplexity)即混乱度
G(p)=2的H(p)次方,在NLP中,如果词表中的词具有统一的分布概率,则最难预测,熵最大,混乱度最高
反之,分布越不均衡,熵越小,混乱度越小
G(p)=2的H(p)次方,在NLP中,如果词表中的词具有统一的分布概率,则最难预测,熵最大,混乱度最高
反之,分布越不均衡,熵越小,混乱度越小
条件熵给定随机变量X的情况下,随机变量Y的条件熵定义为:
H(Y|X)=Σx∈Ωp(x)H(Y|X=x)
= Σx∈Ωp(x)(-Σ y∈Ψp(y|x)log2p(y|x))
=-Σx∈Ω Σ y∈Ψp(y|x)p(x)log2p(y|x)
= -Σx∈Ω Σ y∈Ψp(x,y)log2p(y|x)
p(x,y)是加权,权值是没有条件的
H(Y|X)=Σx∈Ωp(x)H(Y|X=x)
p(x,y)是加权,权值是没有条件的
联合熵(joint entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量
联合熵(joint entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量
联合熵(joint entropy)
如果X, Y 是一对离散型随机变量X, Y ~ p(x, y),X, Y 的联合熵H(X, Y) 为:
(X,Y)被视为一个事件
H(X,Y)=-Σx∈Ω Σ y∈Ψp(x,y)log2p(x,y)
联合熵实际上就是描述一对随机变量平均所需要的信息量
熵的性质
熵是非负的
H(X)≥0
Chain Rule
H(X,Y)=H(Y|X) H(X)
H(X,Y)=H(X|Y) H(Y)
H(X,Y)≤H(X) H(Y),X和Y独立时相等
H(Y|X)≤H(Y),条件熵比熵小
熵是非负的
H(X)≥0
Chain Rule
H(X,Y)=H(Y|X) H(X)
H(X,Y)=H(X|Y) H(Y)
H(X,Y)≤H(X) H(Y),X和Y独立时相等
H(Y|X)≤H(Y),条件熵比熵小
互信息(Mutual Information)
如果( X, Y ) ~ p(x, y),X, Y 之间的互信息I(X; Y) 为:I (X; Y) = H(X) –H( X | Y )
推导为:I(x,y)=log2p(x,y)/(p(x)p(y))
互信息I (X; Y) 是在知道了Y 的值后X 的不确定性的减少量。即,Y 的值透露了多少关于X 的信息量。
• 比如计算两个词的搭配
I(伟大,祖国)=log2p(伟大,祖国)/(p(伟大)p(祖国))
• 此值较高,说明“伟大”和“祖国”是一个比较强的搭配
I(的,祖国)=log2p(的,祖国)/(p(的)p(祖国))
• 此值较低,因为p(的)太高,“的”和“祖国”不是一个稳定的搭配
互信息性质
I(x,y)>>0:x和y关联强度大
I(x,y)=0:x和y无关
I(x,y)<<0:x和y具有互补的分布
由于H(X, X) = 0, 所以,
H(X) = H(X) –H(X|X) = I(X; X)
这一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。
==================================
另一篇文章对互信息的介绍:
如果( X, Y ) ~ p(x, y),X, Y 之间的互信息I(X; Y) 为:I (X; Y) = H(X) –H( X | Y )
推导为:I(x,y)=log2p(x,y)/(p(x)p(y))
互信息I (X; Y) 是在知道了Y 的值后X 的不确定性的减少量。即,Y 的值透露了多少关于X 的信息量。
• 比如计算两个词的搭配
I(伟大,祖国)=log2p(伟大,祖国)/(p(伟大)p(祖国))
• 此值较高,说明“伟大”和“祖国”是一个比较强的搭配
I(的,祖国)=log2p(的,祖国)/(p(的)p(祖国))
• 此值较低,因为p(的)太高,“的”和“祖国”不是一个稳定的搭配
互信息性质
I(x,y)>>0:x和y关联强度大
I(x,y)=0:x和y无关
I(x,y)<<0:x和y具有互补的分布
由于H(X, X) = 0, 所以,
H(X) = H(X) –H(X|X) = I(X; X)
这一方面说明了为什么熵又称自信息,另一方面说明了两个完全相互依赖的变量之间的互信息并不是一个常量,而是取决于它们的熵。
==================================
另一篇文章对互信息的介绍:
信息论 熵 互信息 信息论是运用概率论与数理统计的方法研究信息、信息熵、通信系统、数据传输、密码学、数据压缩等问题的应用数学学科。 信息论将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域。这两个方面又由信息传输定理、信源-信道隔离定理相互联系。香农被称为是“信息论之父”。人们通常将香农于1948年10月发表于《贝尔系统技术学报》上的论文《A Mathematical Theory of Communication》(通信的数学理论)作为现代信息论研究的开端。这一文章部分基于哈里·奈奎斯特和拉尔夫·哈特利先前的成果。在该文中,香农给出了信息熵(以下简称为“熵”)的定义: H = - ∑ pilogpi i 这一定义可以用来推算传递经二进制编码后的原信息所需的信道带宽。熵度量的是消息中所含的信息量,其中去除了由消息的固有结构所决定的部分,比如,语言结构的冗余性以及语言中字母、词的使用频度等统计特性。 信息论中熵的概念与物理学中的热力学熵有着紧密的联系。玻耳兹曼与吉布斯在统计物理学中对熵做了很多的工作。信息论中的熵也正是受之启发。 互信息(Mutual Information)是另一有用的信息度量,它是指两个事件集合之间的相关性。两个事件X和Y的互信息定义为: I(X,Y) = H(X) + H(Y) - H(X,Y) 其中 H(X,Y) 是联合熵(Joint Entropy),其定义为: H(X,Y) = - ∑ p(x,y)logp(x,y) x,y 互信息与多元对数似然比检验以及皮尔森χ2校验有着密切的联系。 互信息: 可以将信息量重复定义为:I(信息量)=不肯定程度的减小量 如果信道是无噪的,当信源发出消息 后,信宿必能准确无误地收到该消息,彻底消除对 的不确定度,所获得的信息量就是 的不确定度 ,即 本身含有的全部信息。 为什么不用信源发出多少信息量来定义呢,而用不肯定程度的减小量呢?这是因为在通讯系统中一般都是有噪声的。信源发出的信息量因为噪声而减少,并不是信宿收到的信息量,而“不肯定程度的减小量”确是信宿收到的信息量。不肯定程度减少到极端0,那么信源的消息信宿也就都收到了。 信宿在收信前后,其消息的概率分布发生了变化,即其概率空间变了。 一般而言,信道中总是存在着噪声和干扰,信源发出消息xi,通过信道后信宿只可能收到由于干扰作用引起的某种变形的 yi。信宿收到 yi 后推测信源发出 xi 的概率,这一过程可由后验概率 P(xi | yi) 来描述。相应地,信源发出 xi 的概率 P(xi) 称为先验概率。我们定义 xi 的后验概率与先验概率比值的对数为 yi 对 xi 的互信息量,也称交互信息量(简称互信息),用 I(xi, yi) 表示,即 上式可以变换为: 上式表示互信息量等于自信息量减去条件信息量。 同样的道理,可以定义 xi 对 yi 的互信息量为 |
没有评论:
发表评论