信息论中的重要不等式_第1页
信息论中的重要不等式_第2页
信息论中的重要不等式_第3页
信息论中的重要不等式_第4页
信息论中的重要不等式_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

相对熵和互信息附:信息论中的重要不等式1主要内容信息论中的重要不等式相对熵互信息

对数函数基本不等式詹森不等式费诺不等式21.4

重要不等式对任意实数对任何两组满足条件的实数,等号成立的充要条件是

对数函数的基本不等式3重要不等式对任何两组实数

,对数和不等式.4重要不等式詹森不等式

是一个随机变量,表示的数学期望,是上凸函数,则费诺不等式是在中取值的随机变量,记则5相对熵(互熵)两个概率分布“差异性”的度量值,也是一种重要的信息度量.同一字母集上两个概率分布的相对熵:对任意概率分布pi,它对其他概率分布qi的自信息量-logqi取数学期望时的差异.6相对熵的性质,等号成立是概率分布对的凸函数7互信息8互信息I(信息量)=不确定程度的减小量如果信道是无噪的,当信源发出消息x后,信宿必能准确无误地收到该消息,彻底消除对x的不确定度,所获得的信息量就是x的不确定度,即x本身含有的全部信息.信宿在收信前后,其消息的概率分布发生了变化,即其概率空间变了.9

1.互信息

(1)yj对xi的互信息I(xi;yj)

即:I(xi;yj)=I(xi)-I(xi/yj)p(xi)——先验概率:信源发xi的概率

p(xi/yj)——后验概率:信宿收到yj后,推测信源发xi的概率[含义]互信息I(xi;yj)=自信息I(xi)-条件自信息I(xi/yj)

*I(xi)__信宿收到yj之前,对信源发xi的不确定度*

I(xi/yj)__信宿收到yj之后,对信源发xi的不确定度*

I(xi;yj)__收到yj而得到(关于xi

)的互信息

=不确定度的减少量互信息10(2)xi对yj的互信息I(yj;xi)[含义]信源发xi前、后,信宿收到yj的不确定度的减少互信息112.互信息的性质

(1)对称性——I(xi

;yj)=I(yj

;xi)(2)X与Y独立时——I(xi

;yj)=0(3)I(xi;yj)可为正、负、03.条件互信息给定zk条件下,xi与yj间互信息互信息12I(xi;yj)可为正、负、0的举例设yj代表“闪电”,则当xi代表“打雷”时,I(xi/yj)=0,I(xi;yj)=I(xi)>0当xi代表“下雨”时,I(xi/yj)<I(xi),I(xi;yj)>0当xi代表“雾天”时,I(xi/yj)=I(xi),I(xi;yj)=0当xi代表“飞机正点起飞”时,I(xi/yj)>I(xi),I(xi;yj)<0互信息13平均互信息为了客观地测度信道中流通的信息,定义互信息量I(xi;yj)在联合概率空间p(x,y)中的统计平均值为Y对X的平均互信息量:X对Y的平均互信息量:14平均互信息由关系式,可以推导出

表示通过信源和信道来观测到达信宿信息量,而没有观察信宿.

15平均互信息表示通过信道和信宿来观察到达信宿信息量,而没有观察信源.16平均互信息171.Y对X:2.X对Y:3.合写:平均互信息(表达式)H(X)–H(X/Y)H(Y)–H(Y/X)H(X)+H(Y)–H(XY)181.I(X;Y)=H(X)–H(X/Y)(1)H(X)——信源熵:X的不确定度

H(X/Y)——已知Y时,对X仍剩的不确定度

[结论]“Y已知”使得对X的不确定度减小了,

即获得了I(X;Y)

的信息量

(2)H(X)——信源含有的平均信息量(有用总体)

I(X/Y)——信宿收到的平均信息量(有用部分)

[结论]H(X/Y)—因信道有扰而丢失的平均信息量,故称损失熵平均互信息(物理意义)192.I(Y;X)=H(Y)–H(Y/X)=I(X;Y)(1)H(Y)——信宿收到的平均信息量

I(X;Y)——信道传输的平均信息量[结论]H(Y/X)——因信道有扰而产生的称噪声熵、散布度

(2)H(Y)——Y的先验不定度

H(Y/X)——发出X后,关于Y的后验不定度[结论]I(Y;X)——发X前后,Y不定度的减少量平均互信息(物理意义)203.I(X;Y)=H(X)+H(Y)–H(XY)H(X)+H(Y)——通信前,整个系统的先验不确定度H(XY)——通信后,整个系统仍剩的不确定度I(X;Y)——通信前后,整个系统不确定度的减少量,即传输的互信息[结论]I(X;Y)——平均每传送一个信源符号时,流经信道的平均(有用)信息量H(X)

I(X;Y)H(Y)

H(X|Y)

H(Y|X)

平均互信息(物理意义)21文氏图

I(X;Y)=H(X)–H(X/Y)=H(Y)–H(Y/X)H(XY)=H(X)+H(Y/X)=H(Y)+H(X/Y)H(XY)+I(X;Y)=H(X)+H(Y)H(X/Y)H(Y/X)H(Y)H(X)I(X;Y)H(XY)H(X)

I(X;Y)H(Y)

H(X/Y)

H(Y/X)

22文氏图

I(X;Y)=H(X)–H(X/Y)=H(Y)–H(Y/X)H(XY)=H(X)+H(Y/X)=H(Y)+H(X/Y)H(XY)+I(X;Y)=H(X)+H(Y)H(X/Y)H(Y/X)H(Y)H(X)I(X;Y)H(XY)H(X)

I(X;Y)H(Y)

H(X/Y)

H(Y/X)

231.非负性——I(X;Y)≥0,尽管I(xi;yj)的某些元素可为负2.对称性——I(X;Y)=I(Y;X)3.极值性——I(X;Y)≤H(X)I(X;Y)≤H(Y)[特例]I(X;Y)=H(X)–H(X/Y)*当H(X/Y)=0时,I(X;Y)=H(X)——信道无噪(X、Y一一对应)*当I(X;Y)=0时,H(X/Y)=H(X)——信道中断(X、Y独立)平均互信息(性质)24

4.凸函数性

(1)I(X;Y)是信源概率分布P(X)的上凸函数

(最大值)—信道容量的基础;

(2)I(X;Y)是信道转移概率P(Y/X)的下凸函数

(最小值)—率失真函数的基础.平均互信息(性质)25让一百万只猴子花一百万年的时间来打字,我们就能最终得到一本圣经;如今,我们搞定了!!只花了经过相当程度缩减的时间。借助我们特别训练的马尔可夫猴,我们可以实时的重写整部圣经了。

26马尔可夫链(离散时间)马尔可夫链,因安德烈•马尔可夫(A.A.Markov,1856-1922)得名,是数学中具有马尔可夫性质的离散时间随机过程。该过程中,在给定当前知识或信息的情况下,过去(即当期以前的历史状态)对于预测将来(即当期以后的未来状态)是无关的。

27马尔可夫链马尔可夫性质是概率论中的一个概念。随机过程被称为是具有马尔可夫性质,当给定现在状态时该过程的未来状态的条件概率分布,仅依赖于当前状态。换句话说,在给定现在状态时,它与过去状态(即该过程的历史路径)是条件独立的。具有马尔可夫性质的过程通常称之为马尔可夫过程。

28马尔可夫链马尔可夫过程

Markovprocess

一类随机过程。它的原始模型马尔可夫链,由俄国数学家A.A.马尔可夫于1907年提出。该过程具有如下特性:在已知目前状态(现在)的条件下,它未来的演变(将来)不依赖于它以往的演变(过去)。例如森林中动物头数的变化构成——马尔可夫过程。在现实世界中,有很多过程都是马尔可夫过程,如液体中微粒所作的布朗运动、传染病受感染的人数、车站的候车人数等,都可视为马尔可夫过程。29马尔可夫链关于该过程的研究,1931年A.H.柯尔莫哥洛夫在《概率论的解析方法》一文中首先将微分方程等分析的方法用于这类过程,奠定了马尔可夫过程的理论基础。1951年前后,伊藤清建立的随机微分方程的理论,为马尔可夫过程的研究开辟了新的道路。1954年前后,W.费勒将半群方法引入马尔可夫过程的研究。流形上的马尔可夫过程、马尔可夫向量场等都是正待深入研究的领域。

30马尔可夫链马氏链模型描述一类重要的随机动态过程的模型:

•系统在每个时期所处的状态是随机的;

•从一时期到下时期的状态按一定概率转移;

•下时期状态只取决于本时期状态和转移概率已知现在,将来与过去无关(无后效性);

马氏链的两个重要类型

1.正则链~从任一状态出发经有限次转移能以正概率到达另外任一状态;

2.吸收链~存在吸收状态(一旦到达就不会离开的状态),且从任一非吸收状态出发经有限次转移能以正概率到达吸收状态.31如果随机变量与关于条件独立,即称为马尔可夫链;齐次马尔可夫链:

如果转移概率与所处的状态无关,即马尔可夫链32定理

若是一个马尔可夫链,则

若是齐次马尔可夫链,则马尔可夫链33

数据处理定理:

当消息通过多级处理器时,随着处理器数目的增多,输入消息与输出消息之间的平均互信息量趋于变小。(X-Y-Z构成马氏链)

第一级处理器第二级处理器XYZ输入图示

级联处理器平均互信息(应用)34

数据处理定理

I(X;Z)≤I(X;Y)

I(X;Z)≤I(Y;Z)[意义]信息不增原理——

每经一次处理,可能丢失一部分信息P(Y/X)P(Z/Y)XYZ平均互信息(应用)35

符号xi与符号对yj

zk之间的互信息量定义为:

I(xi;yjzk)=log

定义

条件互信息量是在给定zk条件下,xi与yj之间的互信息量,定义为:

I(xi;yj|zk)=log

(三维)平均互信息量36I(xi;yjzk)=I(xi;zk)+I(xi;yj|zk)

说明:

一个联合事件yjzk出现后所提供的有关xi的信息量I(xi;yjzk)等于zk事件出现后提供的有关xi的信息量I(xi;zk),加上在给定zk条件下再出现yj事件后所提供的有关xi的信息量I(xi;yj/zk).(三维)平均互信息量I(xi;yjzk)=I(xi;yj)+I(xi;zk/yj)37I(xi;yjzk)=I(xi;zkyj)证明:因为所以I(xi;yjzk)=I(xi;zkyj)(三维)平均互信息量38I(X;YZ)=I(X;Y)+I(X;Z|Y)

I(X;YZ)=I(X;Z)+I(X;Y/Z)

I(YZ;X)=I(Y;X)+I(Z;X/Y)

三维联合集XYZ上的

平均互信息量

39

数据处理定理

I(X;Z)≤I(X;Y)

I(X;Z)≤I(Y;Z)[意义]信息不增原理——

每经一次处理,可能丢失一部分信息P(Y/X)P(Z/Y)XYZ平均互信息(应用)40证明:

图中

X是输入消息集合

Y是第一级处理器的输出消息集合

Z为第二级处理器的输出消息集合

假设:在Y条件下X与Z相互独立可得:即得(1)41而且(2){又由

I(X;YZ)=I(X;Y)+I(X;Z/Y)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论