信息论与编码理论基础 王育民(第二章 )_第1页
信息论与编码理论基础 王育民(第二章 )_第2页
信息论与编码理论基础 王育民(第二章 )_第3页
信息论与编码理论基础 王育民(第二章 )_第4页
信息论与编码理论基础 王育民(第二章 )_第5页
已阅读5页,还剩96页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020 4 6 1 第二章 信息量和熵 2 1离散型随机变量的非平均信息量 事件的信息量 2 2离散型随机变量的平均自信息量 熵 2 4离散型随机变量的平均互信息量 2 5连续型随机变量的平均互信息量和微分熵 2 6凸函数与 离散型随机变量的 平均互信息量凸性 2020 4 6 2 2 1离散型随机变量的非平均信息量 事件的信息量 2020 4 6 3 非平均互信息量 例2 1 1 2020 4 6 4 非平均互信息量 2020 4 6 5 直观认识 对观察者来说 同样观察事件011 但输入消息等概情况下 收获 要大些 即得到的 信息 要多些 越是不太可能发生的事件竟然发生了 越是令人震惊 获得的 信息 要多些 2020 4 6 6 非平均互信息量 例2 1 2 2020 4 6 7 直观认识 在接收010的过程中 消息出现的可能性 即后验概率也在不断变化 但变化趋势不再像例2 1 1那样单调地变化 而是有起伏的 且最后并未达到1或0 观察到010之后不能断定是哪个消息出现了 但是由观察结果计算出来的某个消息出现的后验概率大于1 2或小于1 2 使我们可比未观察前较有把握地推断消息出现的可能性 因而多少得到了一些有关出现的 信息 若p1 2 也即010是消息x1的输出可能性大 2020 4 6 8 直观认识 从上述两个系统可以看出 在一个系统中我们所关心的输入是哪个消息的问题 只与事件出现的先验概率和经过观察后事件出现的后验概率有关 信息应当是先验概率和后验概率的函数 即I xk yj f Q xk P xk yj 2020 4 6 9 研究表明信息量就表示成为事件的后验概率与事件的先验概率之比的对数函数 2020 4 6 10 非平均互信息量 本章将给出各种信息量的定义和它们的性质 定义2 1 1 非平均互信息量 给定一个二维离散型随机变量因此就给定了两个离散型随机变量事件xk X与事件yj Y的互信息量定义为 2020 4 6 11 非平均互信息量直观认识 若信源发某符号xi 由于信道中噪声的随机干扰 收信者收到的是xi的某种变形yj 收信者收到yj后 从yj中获取xi的信息量用I xi yj 表示 则有I xi yj 收到yj前 收信者对信源发xi的不确定性 收到yj后 收信者对信源发xi仍然存在的不确定性 收信者收到yj前后 收信者对信源发xi的不确定性的消除 2020 4 6 12 非平均互信息量性质 其中底数a是大于1的常数 常用a 2或a e 当a 2时互信息量的单位为 比特 互信息量的性质 1 I xk yj loga rkj qkwj 因此有对称性 I xk yj I yj xk 2 当rkj qkwj时 I xk yj 0 即当 rkj qk wj时 I xk yj 0 又即当 rkj wj qk时 I xk yj 0 换句话说 当 X xk 与 Y yj 这两个事件相互独立时 互信息量为0 2020 4 6 13 非平均互信息量性质 3 当rkj qkwj时I xk yj 0 当rkjwj时 I xk yj 0 当 rkj qk wj时 I xk yj 0 换句话说 当 X xk 与 Y yj 这两个事件相互肯定时 互信息量为正值 当 X xk 与 Y yj 这两个事件相互否定时 互信息量为负值 2020 4 6 14 条件互信息和联合事件互信息 三个事件集的条件互信息定义 定义2 1 2 为可以推广到任意有限多个空间情况 2020 4 6 15 互信息的可加性 系统 u1 u2 u3 意味着 u2 u3 联合给出的关于u1的信息量等于u2给出的关于u1的信息量与u2已知条件下u3给出的关于u1的信息量之和 2020 4 6 16 非平均自信息量 定义2 1 3 非平均自信息量 给定一个离散型随机变量 X xk qk k 1 K 事件xk X的自信息量定义为I xk loga 1 qk 其中底数a是大于1的常数 2020 4 6 17 自信息量的性质 1 非负性 I xk 0 2 单调性 qk越小 I xk 越大 3 I xk yj min I xk I yj 即互信息量不超过各自的自信息量 证明注意到总有rkj min qk j why 什么情况下相等 因此根据定义 I xk yj I xk I xk yj I yj 非平均自信息量 2020 4 6 18 非平均自信息量的直观认识 若信源发某符号xi 没有信道中噪声的随机干扰 收信者收到的yj就是xi本身 收信者收到yj xi后 当然就完全消除了对信源发符号xi的不确定性 即 收到yj xi后 收信者对信源发xi仍然存在的不确定性 0I xi xi 收到xi前 收信者对信源发xi的不确定性 I xi 2020 4 6 19 2020 4 6 20 2020 4 6 21 2020 4 6 22 条件的非平均自信息量 定义2 1 4 条件的非平均自信息量 给定一个二维离散型随机变量 X Y xk yj rkj k 1 K j 1 J 在事件yj发生的条件下事件xk的条件自信息量定义为I xk yj loga 1 P X xk Y yj loga wj rkj 2020 4 6 23 条件的非平均自信息量 条件的非平均自信息量实际上是非平均自信息量的简单推广 只不过将概率换成了条件概率 条件的非平均自信息量的特殊性质 I xk yj I xk I xk yj 2020 4 6 24 联合的非平均自信息量 定义2 1 5 联合的非平均自信息量 给定一个二维离散型随机变量 X Y xk yj rkj k 1 K j 1 J 事件 xk yj X Y 的自信息量定义为I xk yj loga 1 rkj 2020 4 6 25 联合的非平均自信息量 联合的非平均自信息量实际上是非平均自信息量的简单推广 即可以将 X Y 直接看成是一维的随机变量 联合的非平均自信息量的特殊性质 I xk yj I yj I xk yj I xk I yj xk I xk yj I xk I yj I xk yj 2020 4 6 26 非平均信息量 事件的信息量 小结非平均互信息量 I xk yj 非平均自信息量 I xk I yj 条件的非平均自信息量 I xk yj I yj xk 联合的非平均自信息量 I xk yj 2020 4 6 27 非平均信息量 事件的信息量 相互关系 I xk yj min I xk I yj I xk yj I xk I xk yj I xk yj I yj I xk yj I xk I yj xk I xk yj I xk I yj I xk yj 2020 4 6 28 联合自信息 条件自信息和互信息 2020 4 6 29 2 2离散型随机变量的平均自信息量 熵 2020 4 6 30 自信息量的不足 信息函数I xk 破天荒地使信息度量成为可能 是信息度量的有力工具 但在信息度量方面仍然存在某些不足 2020 4 6 31 自信息量的不足 信源发符号xk不是确定事件 是以p xk 为概率的随机事件 相应的自信息量I xk 也是一个以p xk 为概率的随机性的量 显然 用一个随机性的量来度量信息是不方便的 信息函数I xk 只能表示信源发某一特定的具体符号xk所提供的信息量 不同的符号由不同的自信息量 所以它不足以作为整个信源的总体信息测度 据此 在信息函数I xk 的基础上 构架一个确定的量 作为信源的总体信息测度 就成为我们面临的一个重要课题 2020 4 6 32 统计平均值 能作为信源总体信息测度的确定的量 应是信源X可能发出的各种不同符号xk k 1 2 K 含有的自信息量I xk k 1 2 K 在信源的概率空间 p x1 p x2 p xK 中的统计平均值H X 2020 4 6 33 平均自信息量 熵 定义2 2 1 平均自信息量 熵 离散型随机变量 X xk qk k 1 K 的平均自信息量 又称为熵 定义为其中底数a是大于1的常数 2020 4 6 34 平均自信息量 信息 熵 集X的平均自信息量表示集X中事件出现的平均不确定性 即为了确定集X中出现一个事件平均所需的信息量 观测之前 或集X中每出现一事件平均给出的信息量 观测之后 2020 4 6 35 信息熵与热熵 信息熵和统计热力学中定义的热熵在形式上完全相同 在热力学中 X表示系统所有可能的状态 p x 表示某一个特定状态x出现的概率 热熵H X 描述了系统的 无规则 的程度 即在某一给定时刻一个系统可能出现的有关状态的 不确定 的程度 2020 4 6 36 例子 2020 4 6 37 2020 4 6 38 2020 4 6 39 平均自信息量 熵 注意 1 事件xk的自信息量值为I xk loga 1 qk 因此H X 是随机变量X的各事件自信息量值的 数学期望 2 定义H X 时 允许某个qk 0 此时将qkloga 1 qk 通盘考虑 此时补充定义qkloga 1 qk 0 这个定义是合理的 因为 2020 4 6 40 平均自信息量 熵 例2 2 1离散型随机变量X有两个事件x1和x2 P X x1 p P X x2 1 p则X的平均自信息量 熵 为H X ploga 1 p 1 p loga 1 1 p 观察H X 它是p的函数 图2 2 1给出了函数图象 2020 4 6 41 图2 2 1 H X 1 00 500 51P 2020 4 6 42 平均自信息量 熵 该图象具有某种对称性 当p 0或p 1时 H X 0 随机变量X退化为常数时 熵为0 当00 p越靠近1 2 H X 越大 X是真正的随机变量时 总有正的熵 随机性越大 熵越大 当p 1 2时 H X 达到最大 随机变量X的随机性最大时 熵最大 特别如果底数a 2 则H X 1比特 2020 4 6 43 平均自信息量 熵 2020 4 6 44 平均自信息量 熵 2020 4 6 45 平均自信息量 熵 2020 4 6 46 平均自信息量 熵 2020 4 6 47 平均自信息量 熵 2020 4 6 48 平均自信息量 熵 2020 4 6 49 平均自信息量 熵 2020 4 6 50 条件平均自信息量 条件熵 条件非平均自信息量是集上的随机变量由此可类似给出条件平均自信息量称做是给定条件下 集的条件熵同时 又可以看作是集上的随机变量 继续求统计平均 期望 2020 4 6 51 条件平均自信息量 条件熵 定义2 2 2 条件熵 给定一个二维离散型随机变量 X Y xk yj rkj p xk yj k 1 K j 1 J 称如下定义的H X Y 为X相对于Y的条件熵 2020 4 6 52 联合的非平均自信息量 给定一个二维离散型随机变量 X Y xk yj rkj p xk yj k 1 K j 1 J 事件 xk yj X Y 的自信息量I xk yj logp xk yj 求其统计平均或数学期望 2020 4 6 53 联合的平均自信息量 联合熵 定义2 2 3 联合熵 二维离散型随机变量 X Y xk yj rkj p xk yj k 1 K j 1 J 的联合熵定义为 2020 4 6 54 各熵之间的关系 熵 条件熵 联合熵之间的关系 1 H X Y H X H Y X H Y H X Y 由定义容易证明 2 当X与Y相互独立时 H Y X H Y H X Y H X 此时也有H X Y H X H Y 2020 4 6 55 各熵之间的关系 证明 2 2020 4 6 56 熵的性质 对于随机变量 X xk qk k 1 K 的熵H X kqkloga 1 qk 有以下的性质 1 H X 与事件 xk k 1 K 的具体形式无关 仅仅依赖于概率向量 qk k 1 K 而且H X 与概率向量 qk k 1 K 的分量排列顺序无关 2 H X 0 完全同理 H X Y 0 H Y X 0 H X Y 0 2020 4 6 57 熵的性质 3 确定性 当概率向量 qk k 1 K 的一个分量为1时 此时其它分量均为0 H X 0 这就是说 当随机变量X实际上是个常量时 不含有任何信息量 2020 4 6 58 2 2离散型随机变量的平均自信息量 熵 4 可忽略性 当随机变量X的某个事件的概率很小时 该事件对熵的贡献可以忽略不计 虽然小概率事件的自信息量很大 这是因为当qk 0时 qkloga 1 qk 0 5 可加性 H X Y H X H Y X H Y H X Y 因此 H X Y H X H X Y H Y 性质5有一个隐含的结论 设X的概率向量为 q1 q2 qK Y的概率向量为 q1 q2 qK 2 qK 1 qK 其中qK 1qK 0 则H X H Y 2020 4 6 59 2 2离散型随机变量的平均自信息量 熵 6 极值性 H X logaK 当q1 q2 qK 1 K时 才有H X logaK 以下是极值性的证明过程 引理1对任何x 0总有lnx x 1 证明令f x lnx x 1 则f x 1 x 1 因此当00 当x 1时f x 1时 f x 的值严格单调减 注意到f 1 0 所以对任何x 0总有f x f 1 0 得证 2020 4 6 60 2 2离散型随机变量的平均自信息量 熵 引理2设有两个K维概率向量 什么叫概率向量 每个分量都是非负的 且各分量之和等于1 qk k 1 K 和 pk k 1 K 则总满足 2020 4 6 61 2 2离散型随机变量的平均自信息量 熵 证明注意到引理1 2020 4 6 62 2 2离散型随机变量的平均自信息量 熵 引理2得证 注意 此证明过程省略了若干细节 比如当概率向量的某个分量为0时 情况比较复杂 极值性的证明 qk k 1 K 是一个K维概率向量 令pk 1 K k 1 K 则 pk k 1 K 也是一个K维概率向量 由引理2 H X kqkloga 1 qk kqkloga 1 1 K logaK 得证 2020 4 6 63 2 4离散型随机变量的平均互信息量 2020 4 6 64 2 4离散型随机变量的平均互信息量 2020 4 6 65 2 4离散型随机变量的平均互信息量 定义2 4 1 平均互信息量 给定一个二维离散型随机变量 X Y xk yj rkj k 1 K j 1 J 因此就给定了两个离散型随机变量 X xk qk k 1 K 和 Y yj wj j 1 J X与Y的平均互信息量定义为如下的I X Y 2020 4 6 66 注意 事件对 xk yj 的 非平均互信息量 值为I xk yj 此外 可以定义 半平均互信息量 I xk Y 和I X yj I xk Y 表示事件 X xk 与随机变量Y之间的半平均互信息量 I X yj 表示事件 Y yj 与随机变量X之间的半平均互信息量 2020 4 6 67 2 4离散型随机变量的平均互信息量 平均互信息量的性质1 I X Y 0 虽然每个 非平均互信息量 I xk yj 未必非负 但平均互信息量I X Y 非负 证明 2020 4 6 68 2 4离散型随机变量的平均互信息量 rkj k 1 K j 1 J 是一个概率向量 qkwj k 1 K j 1 J 是另一个概率向量 故由引理2知 2020 4 6 69 2 4离散型随机变量的平均互信息量 2 对称性 I X Y I Y X 3 平均互信息量的熵表示 I X Y H X H X Y H Y H Y X H X H Y H XY 证明 2020 4 6 70 2 4离散型随机变量的平均互信息量 2020 4 6 71 2 4离散型随机变量的平均互信息量 3 若X与Y相互独立 则I X Y 0 H X Y H X H Y X H Y H XY H X H Y 证明若X与Y相互独立 则rkj qkwj k 1 K j 1 J 因此此时loga rkj qkwj 0 k 1 K j 1 J 因此I X Y 0 再由性质3 性质3 得证 2020 4 6 72 2 4离散型随机变量的平均互信息量 4 I X Y H X I X Y H Y 性质4有多种简单的证明方法 第一种证明方法 由I X Y 的定义 loga rkj qkwj loga 1 qk 第二种证明方法 由性质3 I X Y H X H X Y H X 4 若X是Y的确定的函数X g Y 则I X Y H X H Y 若Y是X的确定的函数Y g X 则I X Y H Y H X 证略 2020 4 6 73 2 4离散型随机变量的平均互信息量 一般印象 平均互信息量I X Y 的各种性质与我们对 平均互信息量 这个名词的直观理解非常吻合 一般情形 总有0 I X Y min H X H Y 一种极端情形 若X与Y相互独立 则I X Y 0 另一种极端情形 若X Y中有一个完全是另一个的确定的函数 则I X Y min H X H Y 2020 4 6 74 2 4离散型随机变量的平均互信息量 定理2 4 1 信息处理定理 对于以下给定的系统串联有 I X Y I X Z 信息处理定理的含义 串联的系统越多 两端的平均互信息量越小 信息处理定理的证明思想 注意到X Z Y构成了马尔可夫链 简单地说 在已知Z的条件下 X与Y条件独立 根据这种马尔可夫链结构 可以证明I X Y I X Z 证略 2020 4 6 75 2 1 2 4诸概念直观理解 两个事件的非平均互信息量 互相肯定的程度 一个事件的非平均自信息量 令人震惊的程度 一个随机变量的平均自信息量 熵 不可预测的程度 一个随机变量X相对于另一个随机变量Y的条件熵 当Y的值确定时 X剩余的不可预测的程度 二维随机变量 XY 的联合熵 联合不可预测的程度 两个随机变量X与Y的平均互信息量 互相依赖的程度 当Y的值确定时 X的可预测的程度 当Y的值确定时 所能够给出的X的信息量 当X的值确定时 Y的可预测的程度 当X的值确定时 所能够给出的Y的信息量 事件X x与随机变量Y的半平均互信息量 当X x时 所能够给出的Y的信息量 2020 4 6 76 2 2和 2 4中的若干公式 2020 4 6 77 2 5连续型随机变量的平均互信息量和微分熵 2020 4 6 78 事件互信息量 定义2 5 1给定二维连续型随机变量 X Y p X Y x y 因此就给定了两个连续型随机变量 X pX x 和 Y pY y 事件x X与事件y Y的互信息量定义为 2020 4 6 79 平均互信息量 定义2 5 2给定二维连续型随机变量 X Y p X Y x y 因此就给定了两个连续型随机变量 X pX x 和 Y pY y X与Y的平均互信息量定义为 2020 4 6 80 平均互信息量性质 平均互信息量的性质1 I X Y 0 2 对称性 I X Y I Y X 3 信息处理定理 对于如下的系统串联有I X Y I X Z 4 2020 4 6 81 微分熵 相对熵 连续型随机变量为什么不能类似地定义平均自信息量 熵 这是因为 连续型随机变量的事件有无穷多个 每个事件发生的概率无穷小 如果类似地定义熵 则熵是无穷大 因此只能定义所谓 微分熵 而 微分熵 的直观合理性大打折扣 比如 微分熵 可以是负的 微分熵的定义给定连续型随机变量 X pX x X的微分熵 又称为相对熵 定义为 2020 4 6 82 联合微分熵 联合的微分熵的定义给定二维连续型随机变量 X Y p X Y x y X Y 的联合的微分熵定义为 2020 4 6 83 例题 例2 5 1设 XY 是连续型的二维随机变量 其联合分布密度函数pXY xy 为二维高斯概率密度函数 二元正态密度函数 2020 4 6 84 例题 2020 4 6 85 例题 例2 5 2设X U a b 求X的微分熵 相对熵 我们将发现 X的相对熵未必非负 2020 4 6 86 例题 例2 5 3设X N m 2 求X的微分熵 相对熵 我们将发现 X的相对熵未必非负 2020 4 6 87 例题 熵功率 2020 4 6 88 微分熵的极大化 已知 当离散型随机变量X的事件有K个时 H X logaK 只有当X服从等概分布时才有H X logaK 1 峰值功率受限均匀分布相对熵最大定理2 5 1若连续型随机变量X的取值范围在区间 M M 之内 即当x不在区间 M M 时 fX x 0 则Hc X loga2M 只有当X服从U M M 分布时才有Hc X loga2M 2020 4 6 89 微分熵的极大化 2 平均功率受限高斯分布相对熵最大定理2 5 2若连续型随机变量X的方差等于 2 则Hc X 1 2 loga 2 e 2 只有当X服从N m 2 分布时才有Hc X 1 2 loga 2 e 2 3 平均功率大于等于熵功率 2020 4 6 90 2 6凸函数与 离散型随机变量的 平均互信息量的凸性 2020 4 6 91 凸函数 凸集R a b属于R qa 1 q b也属于R 其中0 q 1概率矢量矢量a的所有分量和为1上凸函数 2020 4 6 92 凸函数的性质 f a 是上凸的 f a 是下凸的f1 a fL a

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论