信息论与编码讲义第三讲_第1页
信息论与编码讲义第三讲_第2页
信息论与编码讲义第三讲_第3页
信息论与编码讲义第三讲_第4页
信息论与编码讲义第三讲_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、2022-2-211第二章:第二章:信息量和熵2.1 离散型随机变量的非平均信息量离散型随机变量的非平均信息量(事件的信息量)(事件的信息量)2.2 离散型随机变量的平均自信息量离散型随机变量的平均自信息量(熵)(熵)2.4 离散型随机变量的平均互信息量离散型随机变量的平均互信息量2.5 连续型随机变量的平均互信息量和连续型随机变量的平均互信息量和相对熵相对熵2.6 凸函数与凸函数与(离散型随机变量的离散型随机变量的)平均平均互信息量的凸性互信息量的凸性2022-2-2122.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)定义定义2.2.1(平均自信息量熵) 离散型随

2、机变量X, xk, qk, k=1K的平均自信息量(又称为熵)定义为如下的H(X),其中底数a是大于1的常数。 KkkakqqXH11log)(2022-2-2132.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)注意:(1)事件xk的自信息量值为h(xk)=loga(1/qk),因此H(X)是随机变量X的各事件自信息量值的“数学期望”。(2)定义H(X)时,允许某个qk=0。(此时将qkloga(1/qk) 通盘考虑)此时补充定义qkloga(1/qk)=0。这个定义是合理的,因为01loglim0qqaq2022-2-2142.2 离散型随机变量的平均离散型随机变

3、量的平均自信息量(熵)自信息量(熵)例例2.2.1 离散型随机变量X有两个事件x1和x2,P(X=x1)=p,P(X=x2)=1-p。则X的平均自信息量(熵)为H(X)=ploga(1/p)+(1-p)loga(1/(1-p) 。观察H(X)(它是p的函数,图2.2.1给出了函数图象,该图象具有某种对称性),有当p=0或p=1时,H(X)=0。(随机变量X退化为常数时,熵为0)当0p0。p越靠近1/2, H(X)越大。 (X是真正的随机变量时,总有正的熵。随机性越大,熵越大)当p=1/2时,H(X)达到最大。(随机变量X的随机性最大时,熵最大。特别如果底数a=2,则H(X)=1比特) 2022

4、-2-2152.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)定义定义2.2.2(条件熵) 给定一个二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J。称如下定义的H(X|Y)为X相对于Y的条件熵。KkJjkjjakjKkJjjkakjrwryYxXPrYXH1111log)|(1log)|(JjjjjkJjKkjkjyYXHwyYxXPyYxXPwYXH111)|()|(1log)|()|(2 .2 .2的注解:关于定义2022-2-2162.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)定义定义2.2.3

5、(联合熵) 二维离散型随机变量(X, Y), (xk, yj), rkj, k=1K; j=1J的联合熵定义为 KkJjkjakjrrXYH111log)(2022-2-2172.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)熵、条件熵、联合熵之间的关系:(1)H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)。(由定义容易证明)(2)当X与Y相互独立时,H(Y|X)=H(Y),因此此时H(XY)=H(X)+H(Y)。 证明 此时KkkakKkJjkjkaKkJjkakjKkJjjkakjqqrqqryYxXPrYXH11111111log1log1log)|

6、(1log)|(2022-2-2182.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)熵的性质熵的性质 对于随机变量X, xk, qk, k=1K的熵H(X)=kqkloga(1/qk),有以下的性质。 1、 H(X)与事件xk, k=1K的具体形式无关,仅仅依赖于概率向量qk, k=1K。 而且H(X)与概率向量qk, k=1K的分量排列顺序无关。2、H(X)0。完全同理,H(X|Y)0;H(Y|X)0;H(XY)0。3、确定性:当概率向量qk, k=1K的一个分量为1时(此时其它分量均为0),H(X)=0。(这就是说,当随机变量X实际上是个常量时,不含有任何信息量

7、)。2022-2-2192.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)4、可忽略性:当随机变量X的某个事件的概率很小时,该事件对熵的贡献可以忽略不计。(虽然小概率事件的自信息量很大。这是因为当qk0时,qkloga(1/qk)0)。5、可加性:H(XY)=H(X)+H(Y|X)=H(Y)+H(X|Y)。因此,H(XY)H(X); H(XY)H(Y)。 (性质5有一个隐含的结论:设X的概率向量为q1, q2, , qK,Y的概率向量为q1, q2, , qK-2, qK-1+qK,其中qK-1qK0,则H(X) H(Y)。 )2022-2-21102.2 离散型随机

8、变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)6、极值性:H(X)logaK。当q1=q2=qK=1/K时,才有H(X)=logaK。(以下是极值性的证明过程) 引理引理1 对任何x0总有lnxx-1。证明 令f(x)=lnx-(x-1),则f(x)=1/x-1。因此当0 x0;当x1时f(x)0。换句话说,当0 x1时,f(x)的值严格单调减。注意到f(1)=0。所以对任何x0总有f(x)f(1)=0。得证。 2022-2-21112.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)引理引理2 设有两个K维概率向量(什么叫概率向量?)qk, k=1K和pk, k=1K 。则总满足 KkkakKkkakpqqq111log1log2022-2-21122.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)证明 注意到引理1,0)(log)1 (loglnloglog1log1log111111KkkkaKkkkkaKkkkkaKkkkakKkkakKkkakpqeqpqeqpqeqpqpqqq2022-2-21132.2 离散型随机变量的平均离散型随机变量的平均自信息量(熵)自信息量(熵)引理2得证。(注意:此证明过程省略了若干

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论