




已阅读5页,还剩61页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章 信息量和熵,信息量和熵,2.1 离散变量的非平均信息量 2.2 离散集的平均自信息量熵 2.3 离散集的平均互信息量 2.4 连续随机变量的互信息和熵 2.5 凸函数和互信息的凸性,2.1 离散变量的非平均信息量,输入,输出空间定义,输入空间X=xk,k=1,2,K,概率记为q(xk) 输出空间Y=yj,j=1,2,J,概率记为(yj) 联合空间XY=xkyj ;k=1,2,K;j=1,2,J, 概率为p(xkyj) p(xkyj)= p(xk|yj)(yj)= p(yj|xk)q(xk),非平均互信息量,例2.1.1,非平均互信息量,非平均互信息量,例2.1.2,非平均互信息量,非平均互信息量,定义2.1.1(非平均互信息量) 给定一个二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就给定了两个离散型随机变量 X, xk, qk, k=1K和Y, yj, wj, j=1J)。事件xkX与事件yjY的互信息量定义为,非平均互信息量,其中底数a是大于1的常数。常用a=2或a=e,当a=2时互信息量的单位为“比特”。 几点说明: (1)I(xk; yj)=loga(rkj/(qkwj)。因此有对称性: I(xk; yj)=I(yj; xk)。 (2)当rkj=qkwj时I(xk; yj)=0。(当两个事件相互独立时,互信息量为0)。 (3)当rkjqkwj时I(xk; yj)0,当rkjqkwj时I(xk; yj)0。(当两个事件正相关时,互信息量为正值,当两个事件负相关时,互信息量为负值)。,条件互信息和联合事件互信息,三个事件集的条件互信息定义为 可以推广到任意有限多个空间情况,互信息的可加性,系统,u1,u2,u3,互信息量特性:,对称性 可加性 互信息量的值域: -infinite +infinite, 即全体实数,离散变量的非平均自信息量,定义:给定集合X, q(xk),事件xkX的自信息量定义为:,非平均自信息的性质,非负性 体现先验不确定性大小,条件自信息和联合自信息,自信息、条件自信息和互信息,2.2 离散集的平均自信息量熵,熵,集X中事件出现的平均不确定性,(平均自信息量熵) 离散型随机变量X, xk, qk, k=1K的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。,熵,注意: (1)事件xk的自信息量值为I(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。 (2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为,熵,例2.2.1 离散型随机变量X有两个事件x1和x2, P(X=x1)=p,P(X=x2)=1-p。 则X的平均自信息量(熵)为 H(X)=ploga(1/p)+(1-p)loga(1/(1-p) 。 观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有 当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0) 当00。p越靠近1/2, H(X)越大。 (X是真正的随机变量时,总有正的熵。随机性越大,熵越大) 当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特),条件熵(定义2.2.2),XY独立时有H(X|Y)=H(X),联合熵,熵的性质,对称性 非负性 确定性 扩展性 可加性 极值性 是H(P)上凸函数,熵是概率矢量的函数,P(p1, p2, , pk)可以看作是K维矢量,当 ,常称作是概率矢量; 故HK(P)=HK(p1, p2, , pk)是概率矢量P的函数,熵的性质对称性,矢量的各分量p1,p2,pk的次序任意改变时,熵值不变 熵函数的值只与概率分布或将1分割成的K个实数的取值有关,而与这K个实数和K个事件采取何种一一对应方式无关,熵的性质非负性,HK(P) = HK(p1, p2, , pK) 0 可由单个事件自信息量的非负性得到,熵的性质确定性,若事件集X中有一个事件为必然事件,其余事件为不可能事件,则此集合的熵值为0,熵的性质扩展性,熵的性质可加性,H(p1q11,p1q12,p4q44)=H(p1,p4)+p1H(q11,q14)+p4H(q41,q44),熵的性质极值性,引理1: lnxx-1 引理2: H(X|Y) H(X) H(U1UN) H(U1)+H(UN),熵的性质凸性,H(P)是P的上凸函数,2.3 离散集的平均互信息量,平均互信息量,定义2.4.1(平均互信息量) 给定一个二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J(因此就给定了两个离散型随机变量X, xk, qk, k=1K和Y, yj, wj, j=1J)。X与Y的平均互信息量定义为如下的I(X; Y):,平均互信息量,注意:事件对(xk, yj)的互信息量值为I(xk; yj)。此外,可以定义半平均互信息量I(xk; Y)和I(X; yj)。,平均互信息量的性质,非负性 I(X;Y) 0 对称性 I(X;Y)=I(Y;X) 平均互信息用熵与条件熵表示 平均互信息与熵的关系: I(X;Y) H(X) or H(Y) 若X是Y的确定的函数X=g(Y),则I(X;Y)=H(X)H(Y); 若Y是X的确定的函数Y=g(X),则I(X; Y)=H(Y)H(X)。,平均互信息量,一般印象 (平均互信息量I(X; Y)的各种性质与我们对“互信息量”这个名词的直观理解非常吻合)。 一般情形:总有0I(X; Y)minH(X), H(Y)。 一种极端情形:若X与Y相互独立,则I(X; Y)=0。 另一种极端情形:若X、Y中有一个完全是另一个的确定的函数,则I(X; Y)=minH(X), H(Y)。,平均互信息量,平均条件互信息与联合互信息,信息处理定理,Z出现情况下,X和Y独立,信息处理定理,2.4 连续随机变量的互信息和相对熵,连续随机变量的互信息,定义2.5.1 给定二维连续型随机变量(X, Y), f(X,Y)(x, y)(因此就给定了两个连续型随机变量X, fX(x)和Y, fY(y))。事件xX与事件yY的互信息量定义为,连续随机变量的平均互信息,I(X; Y | Z) I(XY; Z),定义2.5.2 给定二维连续型随机变量(X, Y), f(X,Y)(x, y)(因此就给定了两个连续型随机变量X, fX(x)和Y, fY(y))。 X与Y的平均互信息量定义为,性质,非负性 对称性 数据处理定理 关系,连续随机变量的相对熵,(连续型随机变量为什么不能类似地定义平均自信息量熵?这是因为,连续型随机变量的事件有无穷多个,每个事件发生的概率无穷小。如果类似地定义熵,则熵是无穷大。因此只能定义所谓“相对熵”,而“相对熵”的直观合理性大打折扣),相对熵的定义 给定连续型随机变量X, fX(x)。 X的相对熵定义为,连续随机变量的相对熵,HC(XY) HC(Y | X), HC(Y | X) HC(Y) 互信息与相对熵 I(X ; Y)HC(X)HC(X | Y)HC(Y)HC(Y | X) HC(X)+HC(Y)HC(X, Y) HC(X, Y)HC(X)+HC(Y)I(X ; Y),均匀随机变量的相对熵,例2.5.2 设XU(a, b),求X的相对熵(我们将发现, X的相对熵未必非负)。,正态随机变量的相对熵,例2.5.3 设XN(m, 2),求X的相对熵(我们将发现, X的相对熵未必非负)。,正态随机变量的相对熵,熵功率,相对熵不具有非负性,例2.5.3,练习:,试求指数分布连续信源的熵,相对熵的极大化,1.峰值功率受限 均匀分布相对熵最大:HC(X) log 2M 2.平均功率受限 高斯分布相对熵最大 3.平均功率大于等于熵功率,2.5 凸函数与互信息的凸性,凸函数,凸集R:a,b属于R,qa+(1-q)b也属于R,其中0q1 概率矢量: 矢量a的所有分量非负,且和为1 概率矢量全体所构成的区域R是凸的 上凸函数 下凸函数,凸函数的性质,f(a)是上凸的,f(a)是下凸的 f1(a),fL(a)是R上的上凸函数,c1,cL是正数,c1f1(a)+cLfL(a)也是上凸函数 Jensen不等式: f(a)是上凸函数,Ef(a)fE(a),E为求数学期望,记离散型随机变量X的事件为1,2,K。 记X的概率分布为P(X=k)=qk,k=1K。 记离散型随机变量Y的事件为1,2,J。 记条件概率P(Y=j|X=k)=p(j|k)。则 rkj=P(X, Y)=(k,j)=qkp(j|k),(概率论中的乘法公式) wj=P(Y=j)=k qkp(j|k),(概率论中的全概率公式),互信息的凸性,互信息的凸性,设条件概率p(j|k),k=1K,j=1J被确定。此时I(X; Y)是概率向量q=(q1, q2, , qK)的函数。我们希望找到这样的概率向量,使得对应的I(X; Y)达到最大。这就是说,记 我们希望找到这样的K维概率向量a=(a1, a2, , aK),使得,K-T条件,f(a)是定义域R上的上凸函数,a是概率矢量。偏导数 存在且连续, f(a)在R上为极大的 充分必要条件 其中l为一常数。,互信息的凸性,p(y | x)给定,I(X; Y)是q(x)的上凸函数 q(x)给定,I(X; Y)是p(y | x)的下凸函数,互信息的凸性,定理2.6.2的含义 K维概率向量a=(a1, a2, , aK)使得 当且仅当:以a为X的概率向量的时候,I(X=k; Y)对所有ak0的k都取一个相同的值C; I(X=k; Y)对所有满足ak=0的k都取值不超过上述的相同值C 。,互信息的凸性,I(X=k; Y)表示什么?表示事件X=k与随机变量Y之间的“半平均互信息量”。,互信息的凸性,例 设X的事件有0、1; Y的事件有0、1; 已知 p(0|0)=1-u;p(1|0)=u;p(0|1)=u;p(1|1)=1-u。
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年深海矿产资源勘探技术装备创新与市场潜力报告
- 2025年高中数学概率统计知识冲刺押题试卷
- 2025年房地产估价师考试房地产估价实务冲刺试卷
- 2025年考研英语(一)阅读理解技巧精讲 阅读理解高分策略
- 2025年公共营养师二级考试专项训练试卷及真题解析
- 现代化家具知识培训总结课件
- 2025年环境影响评价工程师考试案例分析试卷 环评报告专项强化
- 现代农业知识培训课件
- 测试工程师的岗位职责
- 新重庆市劳动合同范本
- 合规审计笔试题及答案
- 木制玩具行业跨境出海战略研究报告
- 业务宣传制作合同样本
- 2025年动物(兽医)微生物实验(教学实践)报告
- 离心机验证方案
- 储能电站施工方案新建项目
- 《劳动法常识(第3版)》中职全套教学课件
- 2025年山东水发集团有限公司招聘笔试参考题库含答案解析
- 环境卫生学监测及采样方法介绍(院感培训)
- 餐饮行业油脂废物处理应急预案
- 鞋厂品质管理
评论
0/150
提交评论