信息论与编码理论基础王育民(第二章 )

上传人：闯*** IP属地：广东上传时间：2020-04-06 格式：PPT 页数：101 大小：746KB 积分：25 举报 版权申诉

已阅读5页，还剩96页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

2020 4 6 1 第二章信息量和熵 2 1离散型随机变量的非平均信息量事件的信息量 2 2离散型随机变量的平均自信息量熵 2 4离散型随机变量的平均互信息量 2 5连续型随机变量的平均互信息量和微分熵 2 6凸函数与离散型随机变量的平均互信息量凸性 2020 4 6 2 2 1离散型随机变量的非平均信息量事件的信息量 2020 4 6 3 非平均互信息量例2 1 1 2020 4 6 4 非平均互信息量 2020 4 6 5 直观认识对观察者来说同样观察事件011 但输入消息等概情况下收获要大些即得到的信息要多些越是不太可能发生的事件竟然发生了越是令人震惊获得的信息要多些 2020 4 6 6 非平均互信息量例2 1 2 2020 4 6 7 直观认识在接收010的过程中消息出现的可能性即后验概率也在不断变化但变化趋势不再像例2 1 1那样单调地变化而是有起伏的且最后并未达到1或0 观察到010之后不能断定是哪个消息出现了但是由观察结果计算出来的某个消息出现的后验概率大于1 2或小于1 2 使我们可比未观察前较有把握地推断消息出现的可能性因而多少得到了一些有关出现的信息若p1 2 也即010是消息x1的输出可能性大 2020 4 6 8 直观认识从上述两个系统可以看出在一个系统中我们所关心的输入是哪个消息的问题只与事件出现的先验概率和经过观察后事件出现的后验概率有关信息应当是先验概率和后验概率的函数即I xk yj f Q xk P xk yj 2020 4 6 9 研究表明信息量就表示成为事件的后验概率与事件的先验概率之比的对数函数 2020 4 6 10 非平均互信息量本章将给出各种信息量的定义和它们的性质定义2 1 1 非平均互信息量给定一个二维离散型随机变量因此就给定了两个离散型随机变量事件xk X与事件yj Y的互信息量定义为 2020 4 6 11 非平均互信息量直观认识若信源发某符号xi 由于信道中噪声的随机干扰收信者收到的是xi的某种变形yj 收信者收到yj后从yj中获取xi的信息量用I xi yj 表示则有I xi yj 收到yj前收信者对信源发xi的不确定性收到yj后收信者对信源发xi仍然存在的不确定性收信者收到yj前后收信者对信源发xi的不确定性的消除 2020 4 6 12 非平均互信息量性质其中底数a是大于1的常数常用a 2或a e 当a 2时互信息量的单位为比特互信息量的性质 1 I xk yj loga rkj qkwj 因此有对称性 I xk yj I yj xk 2 当rkj qkwj时 I xk yj 0 即当 rkj qk wj时 I xk yj 0 又即当 rkj wj qk时 I xk yj 0 换句话说当 X xk 与 Y yj 这两个事件相互独立时互信息量为0 2020 4 6 13 非平均互信息量性质 3 当rkj qkwj时I xk yj 0 当rkjwj时 I xk yj 0 当 rkj qk wj时 I xk yj 0 换句话说当 X xk 与 Y yj 这两个事件相互肯定时互信息量为正值当 X xk 与 Y yj 这两个事件相互否定时互信息量为负值 2020 4 6 14 条件互信息和联合事件互信息三个事件集的条件互信息定义定义2 1 2 为可以推广到任意有限多个空间情况 2020 4 6 15 互信息的可加性系统 u1 u2 u3 意味着 u2 u3 联合给出的关于u1的信息量等于u2给出的关于u1的信息量与u2已知条件下u3给出的关于u1的信息量之和 2020 4 6 16 非平均自信息量定义2 1 3 非平均自信息量给定一个离散型随机变量 X xk qk k 1 K 事件xk X的自信息量定义为I xk loga 1 qk 其中底数a是大于1的常数 2020 4 6 17 自信息量的性质 1 非负性 I xk 0 2 单调性 qk越小 I xk 越大 3 I xk yj min I xk I yj 即互信息量不超过各自的自信息量证明注意到总有rkj min qk j why 什么情况下相等因此根据定义 I xk yj I xk I xk yj I yj 非平均自信息量 2020 4 6 18 非平均自信息量的直观认识若信源发某符号xi 没有信道中噪声的随机干扰收信者收到的yj就是xi本身收信者收到yj xi后当然就完全消除了对信源发符号xi的不确定性即收到yj xi后收信者对信源发xi仍然存在的不确定性 0I xi xi 收到xi前收信者对信源发xi的不确定性 I xi 2020 4 6 19 2020 4 6 20 2020 4 6 21 2020 4 6 22 条件的非平均自信息量定义2 1 4 条件的非平均自信息量给定一个二维离散型随机变量 X Y xk yj rkj k 1 K j 1 J 在事件yj发生的条件下事件xk的条件自信息量定义为I xk yj loga 1 P X xk Y yj loga wj rkj 2020 4 6 23 条件的非平均自信息量条件的非平均自信息量实际上是非平均自信息量的简单推广只不过将概率换成了条件概率条件的非平均自信息量的特殊性质 I xk yj I xk I xk yj 2020 4 6 24 联合的非平均自信息量定义2 1 5 联合的非平均自信息量给定一个二维离散型随机变量 X Y xk yj rkj k 1 K j 1 J 事件 xk yj X Y 的自信息量定义为I xk yj loga 1 rkj 2020 4 6 25 联合的非平均自信息量联合的非平均自信息量实际上是非平均自信息量的简单推广即可以将 X Y 直接看成是一维的随机变量联合的非平均自信息量的特殊性质 I xk yj I yj I xk yj I xk I yj xk I xk yj I xk I yj I xk yj 2020 4 6 26 非平均信息量事件的信息量小结非平均互信息量 I xk yj 非平均自信息量 I xk I yj 条件的非平均自信息量 I xk yj I yj xk 联合的非平均自信息量 I xk yj 2020 4 6 27 非平均信息量事件的信息量相互关系 I xk yj min I xk I yj I xk yj I xk I xk yj I xk yj I yj I xk yj I xk I yj xk I xk yj I xk I yj I xk yj 2020 4 6 28 联合自信息条件自信息和互信息 2020 4 6 29 2 2离散型随机变量的平均自信息量熵 2020 4 6 30 自信息量的不足信息函数I xk 破天荒地使信息度量成为可能是信息度量的有力工具但在信息度量方面仍然存在某些不足 2020 4 6 31 自信息量的不足信源发符号xk不是确定事件是以p xk 为概率的随机事件相应的自信息量I xk 也是一个以p xk 为概率的随机性的量显然用一个随机性的量来度量信息是不方便的信息函数I xk 只能表示信源发某一特定的具体符号xk所提供的信息量不同的符号由不同的自信息量所以它不足以作为整个信源的总体信息测度据此在信息函数I xk 的基础上构架一个确定的量作为信源的总体信息测度就成为我们面临的一个重要课题 2020 4 6 32 统计平均值能作为信源总体信息测度的确定的量应是信源X可能发出的各种不同符号xk k 1 2 K 含有的自信息量I xk k 1 2 K 在信源的概率空间 p x1 p x2 p xK 中的统计平均值H X 2020 4 6 33 平均自信息量熵定义2 2 1 平均自信息量熵离散型随机变量 X xk qk k 1 K 的平均自信息量又称为熵定义为其中底数a是大于1的常数 2020 4 6 34 平均自信息量信息熵集X的平均自信息量表示集X中事件出现的平均不确定性即为了确定集X中出现一个事件平均所需的信息量观测之前或集X中每出现一事件平均给出的信息量观测之后 2020 4 6 35 信息熵与热熵信息熵和统计热力学中定义的热熵在形式上完全相同在热力学中 X表示系统所有可能的状态 p x 表示某一个特定状态x出现的概率热熵H X 描述了系统的无规则的程度即在某一给定时刻一个系统可能出现的有关状态的不确定的程度 2020 4 6 36 例子 2020 4 6 37 2020 4 6 38 2020 4 6 39 平均自信息量熵注意 1 事件xk的自信息量值为I xk loga 1 qk 因此H X 是随机变量X的各事件自信息量值的数学期望 2 定义H X 时允许某个qk 0 此时将qkloga 1 qk 通盘考虑此时补充定义qkloga 1 qk 0 这个定义是合理的因为 2020 4 6 40 平均自信息量熵例2 2 1离散型随机变量X有两个事件x1和x2 P X x1 p P X x2 1 p则X的平均自信息量熵为H X ploga 1 p 1 p loga 1 1 p 观察H X 它是p的函数图2 2 1给出了函数图象 2020 4 6 41 图2 2 1 H X 1 00 500 51P 2020 4 6 42 平均自信息量熵该图象具有某种对称性当p 0或p 1时 H X 0 随机变量X退化为常数时熵为0 当00 p越靠近1 2 H X 越大 X是真正的随机变量时总有正的熵随机性越大熵越大当p 1 2时 H X 达到最大随机变量X的随机性最大时熵最大特别如果底数a 2 则H X 1比特 2020 4 6 43 平均自信息量熵 2020 4 6 44 平均自信息量熵 2020 4 6 45 平均自信息量熵 2020 4 6 46 平均自信息量熵 2020 4 6 47 平均自信息量熵 2020 4 6 48 平均自信息量熵 2020 4 6 49 平均自信息量熵 2020 4 6 50 条件平均自信息量条件熵条件非平均自信息量是集上的随机变量由此可类似给出条件平均自信息量称做是给定条件下集的条件熵同时又可以看作是集上的随机变量继续求统计平均期望 2020 4 6 51 条件平均自信息量条件熵定义2 2 2 条件熵给定一个二维离散型随机变量 X Y xk yj rkj p xk yj k 1 K j 1 J 称如下定义的H X Y 为X相对于Y的条件熵 2020 4 6 52 联合的非平均自信息量给定一个二维离散型随机变量 X Y xk yj rkj p xk yj k 1 K j 1 J 事件 xk yj X Y 的自信息量I xk yj logp xk yj 求其统计平均或数学期望 2020 4 6 53 联合的平均自信息量联合熵定义2 2 3 联合熵二维离散型随机变量 X Y xk yj rkj p xk yj k 1 K j 1 J 的联合熵定义为 2020 4 6 54 各熵之间的关系熵条件熵联合熵之间的关系 1 H X Y H X H Y X H Y H X Y 由定义容易证明 2 当X与Y相互独立时 H Y X H Y H X Y H X 此时也有H X Y H X H Y 2020 4 6 55 各熵之间的关系证明 2 2020 4 6 56 熵的性质对于随机变量 X xk qk k 1 K 的熵H X kqkloga 1 qk 有以下的性质 1 H X 与事件 xk k 1 K 的具体形式无关仅仅依赖于概率向量 qk k 1 K 而且H X 与概率向量 qk k 1 K 的分量排列顺序无关 2 H X 0 完全同理 H X Y 0 H Y X 0 H X Y 0 2020 4 6 57 熵的性质 3 确定性当概率向量 qk k 1 K 的一个分量为1时此时其它分量均为0 H X 0 这就是说当随机变量X实际上是个常量时不含有任何信息量 2020 4 6 58 2 2离散型随机变量的平均自信息量熵 4 可忽略性当随机变量X的某个事件的概率很小时该事件对熵的贡献可以忽略不计虽然小概率事件的自信息量很大这是因为当qk 0时 qkloga 1 qk 0 5 可加性 H X Y H X H Y X H Y H X Y 因此 H X Y H X H X Y H Y 性质5有一个隐含的结论设X的概率向量为 q1 q2 qK Y的概率向量为 q1 q2 qK 2 qK 1 qK 其中qK 1qK 0 则H X H Y 2020 4 6 59 2 2离散型随机变量的平均自信息量熵 6 极值性 H X logaK 当q1 q2 qK 1 K时才有H X logaK 以下是极值性的证明过程引理1对任何x 0总有lnx x 1 证明令f x lnx x 1 则f x 1 x 1 因此当00 当x 1时f x 1时 f x 的值严格单调减注意到f 1 0 所以对任何x 0总有f x f 1 0 得证 2020 4 6 60 2 2离散型随机变量的平均自信息量熵引理2设有两个K维概率向量什么叫概率向量每个分量都是非负的且各分量之和等于1 qk k 1 K 和 pk k 1 K 则总满足 2020 4 6 61 2 2离散型随机变量的平均自信息量熵证明注意到引理1 2020 4 6 62 2 2离散型随机变量的平均自信息量熵引理2得证注意此证明过程省略了若干细节比如当概率向量的某个分量为0时情况比较复杂极值性的证明 qk k 1 K 是一个K维概率向量令pk 1 K k 1 K 则 pk k 1 K 也是一个K维概率向量由引理2 H X kqkloga 1 qk kqkloga 1 1 K logaK 得证 2020 4 6 63 2 4离散型随机变量的平均互信息量 2020 4 6 64 2 4离散型随机变量的平均互信息量 2020 4 6 65 2 4离散型随机变量的平均互信息量定义2 4 1 平均互信息量给定一个二维离散型随机变量 X Y xk yj rkj k 1 K j 1 J 因此就给定了两个离散型随机变量 X xk qk k 1 K 和 Y yj wj j 1 J X与Y的平均互信息量定义为如下的I X Y 2020 4 6 66 注意事件对 xk yj 的非平均互信息量值为I xk yj 此外可以定义半平均互信息量 I xk Y 和I X yj I xk Y 表示事件 X xk 与随机变量Y之间的半平均互信息量 I X yj 表示事件 Y yj 与随机变量X之间的半平均互信息量 2020 4 6 67 2 4离散型随机变量的平均互信息量平均互信息量的性质1 I X Y 0 虽然每个非平均互信息量 I xk yj 未必非负但平均互信息量I X Y 非负证明 2020 4 6 68 2 4离散型随机变量的平均互信息量 rkj k 1 K j 1 J 是一个概率向量 qkwj k 1 K j 1 J 是另一个概率向量故由引理2知 2020 4 6 69 2 4离散型随机变量的平均互信息量 2 对称性 I X Y I Y X 3 平均互信息量的熵表示 I X Y H X H X Y H Y H Y X H X H Y H XY 证明 2020 4 6 70 2 4离散型随机变量的平均互信息量 2020 4 6 71 2 4离散型随机变量的平均互信息量 3 若X与Y相互独立则I X Y 0 H X Y H X H Y X H Y H XY H X H Y 证明若X与Y相互独立则rkj qkwj k 1 K j 1 J 因此此时loga rkj qkwj 0 k 1 K j 1 J 因此I X Y 0 再由性质3 性质3 得证 2020 4 6 72 2 4离散型随机变量的平均互信息量 4 I X Y H X I X Y H Y 性质4有多种简单的证明方法第一种证明方法由I X Y 的定义 loga rkj qkwj loga 1 qk 第二种证明方法由性质3 I X Y H X H X Y H X 4 若X是Y的确定的函数X g Y 则I X Y H X H Y 若Y是X的确定的函数Y g X 则I X Y H Y H X 证略 2020 4 6 73 2 4离散型随机变量的平均互信息量一般印象平均互信息量I X Y 的各种性质与我们对平均互信息量这个名词的直观理解非常吻合一般情形总有0 I X Y min H X H Y 一种极端情形若X与Y相互独立则I X Y 0 另一种极端情形若X Y中有一个完全是另一个的确定的函数则I X Y min H X H Y 2020 4 6 74 2 4离散型随机变量的平均互信息量定理2 4 1 信息处理定理对于以下给定的系统串联有 I X Y I X Z 信息处理定理的含义串联的系统越多两端的平均互信息量越小信息处理定理的证明思想注意到X Z Y构成了马尔可夫链简单地说在已知Z的条件下 X与Y条件独立根据这种马尔可夫链结构可以证明I X Y I X Z 证略 2020 4 6 75 2 1 2 4诸概念直观理解两个事件的非平均互信息量互相肯定的程度一个事件的非平均自信息量令人震惊的程度一个随机变量的平均自信息量熵不可预测的程度一个随机变量X相对于另一个随机变量Y的条件熵当Y的值确定时 X剩余的不可预测的程度二维随机变量 XY 的联合熵联合不可预测的程度两个随机变量X与Y的平均互信息量互相依赖的程度当Y的值确定时 X的可预测的程度当Y的值确定时所能够给出的X的信息量当X的值确定时 Y的可预测的程度当X的值确定时所能够给出的Y的信息量事件X x与随机变量Y的半平均互信息量当X x时所能够给出的Y的信息量 2020 4 6 76 2 2和 2 4中的若干公式 2020 4 6 77 2 5连续型随机变量的平均互信息量和微分熵 2020 4 6 78 事件互信息量定义2 5 1给定二维连续型随机变量 X Y p X Y x y 因此就给定了两个连续型随机变量 X pX x 和 Y pY y 事件x X与事件y Y的互信息量定义为 2020 4 6 79 平均互信息量定义2 5 2给定二维连续型随机变量 X Y p X Y x y 因此就给定了两个连续型随机变量 X pX x 和 Y pY y X与Y的平均互信息量定义为 2020 4 6 80 平均互信息量性质平均互信息量的性质1 I X Y 0 2 对称性 I X Y I Y X 3 信息处理定理对于如下的系统串联有I X Y I X Z 4 2020 4 6 81 微分熵相对熵连续型随机变量为什么不能类似地定义平均自信息量熵这是因为连续型随机变量的事件有无穷多个每个事件发生的概率无穷小如果类似地定义熵则熵是无穷大因此只能定义所谓微分熵而微分熵的直观合理性大打折扣比如微分熵可以是负的微分熵的定义给定连续型随机变量 X pX x X的微分熵又称为相对熵定义为 2020 4 6 82 联合微分熵联合的微分熵的定义给定二维连续型随机变量 X Y p X Y x y X Y 的联合的微分熵定义为 2020 4 6 83 例题例2 5 1设 XY 是连续型的二维随机变量其联合分布密度函数pXY xy 为二维高斯概率密度函数二元正态密度函数 2020 4 6 84 例题 2020 4 6 85 例题例2 5 2设X U a b 求X的微分熵相对熵我们将发现 X的相对熵未必非负 2020 4 6 86 例题例2 5 3设X N m 2 求X的微分熵相对熵我们将发现 X的相对熵未必非负 2020 4 6 87 例题熵功率 2020 4 6 88 微分熵的极大化已知当离散型随机变量X的事件有K个时 H X logaK 只有当X服从等概分布时才有H X logaK 1 峰值功率受限均匀分布相对熵最大定理2 5 1若连续型随机变量X的取值范围在区间 M M 之内即当x不在区间 M M 时 fX x 0 则Hc X loga2M 只有当X服从U M M 分布时才有Hc X loga2M 2020 4 6 89 微分熵的极大化 2 平均功率受限高斯分布相对熵最大定理2 5 2若连续型随机变量X的方差等于 2 则Hc X 1 2 loga 2 e 2 只有当X服从N m 2 分布时才有Hc X 1 2 loga 2 e 2 3 平均功率大于等于熵功率 2020 4 6 90 2 6凸函数与离散型随机变量的平均互信息量的凸性 2020 4 6 91 凸函数凸集R a b属于R qa 1 q b也属于R 其中0 q 1概率矢量矢量a的所有分量和为1上凸函数 2020 4 6 92 凸函数的性质 f a 是上凸的 f a 是下凸的f1 a fL a

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

信息论与编码理论基础王育民(第二章 )

文档简介

温馨提示

最新文档

评论

信息论与编码理论基础 王育民(第二章 )

文档简介

温馨提示

最新文档

评论

相关文档

信息论与编码理论基础王育民(第二章 )