互信息和信息熵_第1页
互信息和信息熵_第2页
互信息和信息熵_第3页
互信息和信息熵_第4页
互信息和信息熵_第5页
已阅读5页,还剩65页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

信息论与编码原理InformationTheoryandEncoding 主讲 肖竹老师 通信工程本科专业课程 互信息信息熵 第二讲PartII 复习xi的自信息量非负单调减可加不确定性 提供的信息量 收到某消息获得的信息量 即收到某消息后获得关于某事件发生的信息量 不确定性减少的量 收到此消息前关于某事件发生的不确定性 收到此消息后关于某事件发生的不确定性 条件自信息量联合自信量I x 是概率空间 X P 上的一个随机变量 互信息量 结合图示讲解通信模型 信源发出消息xi的概率p xi 称为先验概率 信宿收到yi 利用收到yi推测信源发出xi的概率称为后验概率 有时也称条件概率 思考 事件xi是否发生具有不确定性 可用自信息I xi 度量 在收到符号后 事件是否仍具有一定的不确定性 用条件信息量I yi xi 度量 相当于进行了通信 问题 观察事件 通信 前后 通信过程中所获得的信息量是什么 定义 后验概率与先验概率比值的对数为yi对xi的互信息量 互信息量和条件互信息量 互信息量等于自信息量减去条件自信息量 互信息量 条件概率 先验概率 互信息其他表达方式 互信息量 概率互换公式 通信之前X和Y统计独立 有 不确定性但通信过程中存在信道转移概率 符号xi与yj有了某种关联 此时联合概率 发xi收yi的不确定性 信道转移概率 从信源的角度来观察 上述两个事件之差就是观察者获得的信息量 互信息 发送符号xi 信宿是否收到yj仍具有不确定性 条件信息 信源发送之前 信宿收到yj的概率 自信息 信宿收到yj的概率 条件互信息量三维XYZ联合集 给定条件下 与之间的互信息量 其定义式 互信息的性质对称性 互易性当X和Y相互独立时 互信息为0互信息量可为正值或负值 反映两个事件之间的肯定作用若为正值 通过接收yj判断是否发送xi的不确定性变小 能够正常通信若互信息为负值 意味着传输中的问题 如信道噪声 干扰等 收到yj判断是否发送xi的不确定性更大两个事件的互信息量不大于单个事件的自信息量 离散信息源的信息熵 对一个信源发出不同的消息所含有的信息量也不同 所以自信息I xi 是一个随机变量 不能用它来作为整个信源的信息测度定义自信息的数学期望为平均自信息量Hr X 称为信源的信息熵 也叫信源熵或香农熵 简称熵 熵函数的自变量是X表示信源整体 实质上是离散无记忆信源平均不确定度的度量 各消息自信息量的概率加权平均 统计平均 值 由于这个表达式和统计物理学中热熵的表达式相似 且在概念上也有相似之处 因此借用 熵 这个词 把H X 称为信息 熵 信息熵的单位由自信息量的单位决定 即取决于对数的底 H X 的单位 r进制单位 符号 r 1 电视屏上约有500 600 3 105个格点 按每格点有10个不同的灰度等级考虑 则共能组成个不同的画面 按等概率计算 平均每个画面可提供的信息量为 3 105 3 32bit 信源熵例题 有一篇千字文章 假定每字可从万字表中任选 则共有不同的千字文N 100001000 104000篇仍按等概率1 100001000计算 平均每篇千字文可提供的信息量为H X log2N 4 103 3 32 1 3 104bit 一个电视画面 平均提供的信息量远远超过 一篇千字文 提供的信息量 信源熵例题 假设一条电线上串联了8个灯泡x1 x2 x8如图1所示 这8个灯泡损坏的可能性是等概率的 现假设这8个灯泡中有一个也只有一个灯泡已损坏 致使串联灯泡都不能点亮 在未检查之间 我们不知道哪个灯泡xi已损坏 是不知的 不确定的 我们只有通过检查 用万用表去测量电路有否断电路 获得足够的信息量 才能获知和确定哪个灯泡xi已损坏 利用熵的概念分析 图中8个灯泡构成一信源X 每个灯泡损坏的概率都相等 这个信源为 其中ai i 1 2 8 表示第i个灯泡已损坏的事件 信源X共有8种等可能发生事件 可计算得此信源的信息熵 这H X 正好表示在获知哪个灯泡已损坏的情况前 关于哪个灯泡已损坏的平均不确定性 因此 只有获得3比特的信息量 才能完全消除平均不确定性 才能确定是哪个灯泡坏了 熵的计算 有一布袋内放l00个球 其中80个球是红色的 20个球是白色的 随便摸出一个球 猜测是什么颜色 那么其概率空间为 如果被告知摸出的是红球 那么获得的信息量是 I a1 logp a1 log0 8 0 32 比特 如被告知摸出来的是白球 所获得的信息量应为 I a2 logp a2 log0 2 2 32 比特 平均摸取一次所能获得的信息量为 H X p a1 I a1 p a2 I a2 0 72 比特 符号 熵的含义 熵是从整个集合的统计特性来考虑的 它从平均意义上来表征信源的总体特征 在信源输出后 信息熵H X 表示每个消息提供的平均信息量 在信源输出前 信息熵H X 表示信源的平均不确定性 信息熵H X 表征了变量X的随机性 例 有两信源X Y 其概率空间分别 计算其熵 得 H X 0 08 bit 符号 H Y 1 bit 符号 H Y H X 因此信源Y比信源X的平均不确定性要大 例 设甲地的天气预报为 晴 占4 8 阴 占2 8 大雨 占1 8 小雨 占1 8 又设乙地的天气预报为 晴 占7 8 小雨 占1 8 试求两地天气预报各自提供的平均信息量 若甲地天气预报为两极端情况 一种是晴出现概率为1而其余为0 另一种是晴 阴 小雨 大雨出现的概率都相等为1 4 试求这两极端情况所提供的平均信息量 又试求乙地出现这两极端情况所提供的平均信息量 两个信源 解 甲地天气预报构成的信源空间为 则其提供的平均信息量即信源的信息熵 乙地天气预报的信源空间为 结论 甲地天气预报提供的平均信息量大于乙地 因为乙地比甲地的平均不确定性小 甲地极端情况 极端情况1 晴天概率 1 结论 等概率分布时信源的不确定性最大 所以信息熵 平均信息量 最大 极端情况2 各种天气等概率分布 乙地极端情况 极端情况1 晴天概率 1 结论 在极端情况2下 甲地比乙地提供更多的信息量 因为 甲地可能出现的消息数比乙地可能出现的消息数多 极端情况2 各种天气等概率分布 例 一离散信源由0 1 2 3四个符号组成 它们出现的概率分别为3 8 1 4 1 4 1 8 且每个符号的出现都是独立的 试求某消息201020130213001203210100321010023102002010312032100120210的信息量和平均信息量 解 此消息中 0出现23次 1出现14次 2出现13次 3出现7次 共有57个符号 故该消息的信息量为 每个符号的算术平均信息量为 若用熵的概念来计算 两种算法的结果有一定误差 但当消息很长时 用熵的概念来计算比较方便 随着消息序列长度的增加 两种计算误差将趋于零 条件熵是在联合符号集合XY上的条件自信息量的数学期望 在已知随机变量Y的条件下 随机变量X的条件熵定义为 要用联合概率加权 条件熵 条件熵是一个确定值 是指 信宿在收到Y后 信源X仍然存在的平均不确定度 这是传输失真所造成的 有时称H X Y 为信道疑义度 也称损失熵 称条件熵H Y X 为噪声熵 是指 发出X后 由于信道干扰使得Y存在平均不确定性 H X Y 联合离散符号集合XY上的每个元素对的联合自信息量的数学期望 公式 联合熵 H XY 熵 条件熵 联合熵之间的关系 一个二进信源X发出符号集 0 1 经过离散无记忆信道传输 信道输出用Y表示 由于信道中存在噪声 接收端除收到0和1的符号外 还有不确定符号 2 已知X的先验概率 p x0 2 3 p x1 1 3 符号转移概率 p y0 x0 3 4 p y2 x0 1 4p y1 x1 1 2 p y2 x1 1 2 X Y 0 1 0 1 2 3 4 1 2 1 2 1 4 信源熵H X 例题 p x0y0 p x0 p y0 x0 2 3 3 4 1 2p x0y1 p x0 p y1 x0 0p x0y2 p x0 p y2 x0 2 3 1 4 1 6p x1y0 p x1 p y0 x1 0p x1y1 p x1 p y1 x1 1 3 1 2 1 6p x1y2 p x1 p y2 x1 1 3 1 2 1 6 由得联合概率 例题 条件熵H Y X 联合熵H XY H XY H X H Y X 1 8bit 得p y0 p xiy0 p x0y0 p x1y0 1 2 0 1 2p y1 p xiy1 p x0y1 p x1y1 0 1 6 1 6p y2 p xiy2 p x0y2 p x1y2 1 6 1 6 1 3 由 例题 信源输出熵H Y 由 得 同理p x0 y1 0 p x1 y1 1p x0 y2 1 2 p x1 y2 1 2 条件熵H X Y 例题 或H X Y H XY H Y 1 8 1 47 0 33bit 信息熵是信源概率空间的一种特殊矩函数 这个矩函数的大小 与信源的符号数及其概率分布有关 我们用概率矢量P来表示概率分布P x 三 信息熵的基本性质 这样 信息熵H X 是概率矢量P或它的分量p1 p2 pq的q 1元函数 因各分量满足上述条件限制 所以独立变量只有q 1元 一般H X 可写成 熵函数 H P 是概率矢量P的函数 称为熵函数 我们用下述表示方法 用H x 表示以离散随机变量x描述的信源的信息熵 用H P 或H p1 p2 pq 表示概率矢量为P p1 p2 pq 的q个符号信源的信息熵 若当q 2时 因为p1 p2 1 所以将两个符号的熵函数写成H p1 或H p2 熵函数H P 是一种特殊函数 具有以下性质 1 对称性 H P 的取值与分量p1 p2 pq的顺序无关 说明 从数学角度 H P pi logpi中的和式满足交换率 从随机变量的角度 熵只与随机变量的总体统计特性有关 一个例子 2 确定性 H 1 0 H 1 0 0 H 1 0 0 0 0性质说明 从总体来看 信源虽然有不同的输出符号 但它只有一个符号几乎必然出现 而其它符号则是几乎不可能出现 那么 这个信源是一个确知信源 其熵等于零 3 非负性 H P 0说明 随机变量X的概率分布满足0 pi 1 当取对数的底大于1时 log pi 0 pilog pi 0 即得到的熵为正值 只有当随机变量是一确知量时熵才等于零 这种非负性合适于离散信源的熵 对连续信源来说这一性质并不存在 以后可看到在相对熵的概念下 可能出现负值 非负性体现信息是非负的 当信源的某一概率分量发生微小波动 而要求符号状态数保持不变时 其它分量必然发生相应的微小变化 形成另一个信源X 其信源空间为 其中信源X 的熵为 当微小波动趋于0时 有这说明熵函数为一个连续函数 4 连续性 5 扩展性 性质说明 信源的取值数增多时 若这些取值对应的概率很小 接近于零 则信源的熵不变 所以 上式成立 因为 6 可加性 统计独立信源X和Y的联合信源的熵等于信源X和Y各自的熵之和 H XY H X H Y 可加性是熵函数的一个重要特性 正因具有可加性 才使熵函数的形式是唯一的 例如 甲信源为 它们的联合信源是 可计算得联合信源的联合熵 H Z H XY log nm logm logn H X H Y 乙信源为 可加性证明 条件概率的性质 H XY H X H Y X 证明的另一种形式 H XY H X H Y X 条件概率的性质 7 递增性 若原信源X中有一个符号分割成了m个元素 符号 这m个元素的概率之和等于原元素的概率 而其他符号的概率不变 则新信源的熵增加 熵的增加量等于由分割而产生的不确定性量 证明可以从熵的定义或强可加性得出 递增性的推广 它表示n个元素的信源熵可以递推成 n 1 个二元信源的熵函数的加权和 这样 可使多元信源的熵函数的计算简化成计算若干个二元信源的熵函数 因此 熵函数的递增性又可称为递推性 8 极值性在离散信源情况下 信源各符号等概率分布时 熵值达到最大 性质表明等概率分布信源的平均不确定性为最大 这是一个很重要的结论 称为最大离散熵定理 证明 因为对数是 型凸函数 满足詹森不等式E logY logE Y 则有 小结熵函数的性质H p1 p2 pn 对称性非负性极值性连续性扩展性可加性递增性 该信源X输出符号只有两个 设为0和1输出符号发生的概率分别为p和q p q l 即信源的概率空间为 则二元信源熵为H X plogp qlogq plogp 1 p log 1 p H p 二进制信源是离散信源的一个特例 00 20 40 60 81 H p plogp 1 p log 1 p 引理1 一个常用不等式 lnxx 1 令f x lnx x 1 则 可见 f x 是x的上凸函数 且当x 1时 f x 有极大值 故 即lnx x 1 f x lnx x 1 0 图形表示 证明 引理2 香农辅助定理 给定空间中各事件的自信息的均值小于以此空间的概率矢量作为权系数对同维空间中各事件的自信息量进行加权平均的值 令 即可得到最大熵为 证明 定理 1 H Y X H Y 条件熵不大于无条件熵 H X Y H X 条件化使得不确定性降低 从而熵减少 证明 定理2 联合熵大于等于独立事件的熵 小于等于两独立事件熵之和H X H XY H Y H XY H XY H X H Y 熵之间的相互关系H XY H X H Y X H XY H Y H X Y H X H X Y H Y H Y X H XY H X H Y 熵的意义 对通信系统 H X 表示信源中每个符号的平均信息量 信源熵 H Y 表示信宿中每个符号的平均信息量 信宿熵 H X Y 表示在输出端接收到Y的全部符号后 发送端X尚存的平均不确定性 这个对X尚存的不确定性是由于干扰引起的 信道疑义度 损失熵 含糊度 H Y X 表示在已知X的全部符号后 对于输出Y尚存的平均不确定性 信道散布度 噪声熵 H XY 表示整个信息传输系统的平均不确定性 联合熵 解 信源X的熵为 例 有两个同时输出的信源X和Y 其中X的信源符号为 A B C Y的信源符号为 D E F G 已知P X 和P Y X 求联合信源的联合熵和条件熵 联合熵最大值 信源XY输出每一对消息的联合概率为 P XY P Y X P X 结果如下表 联合信源的联合熵 信源Y的条件熵 信道散布度 噪声熵 从上述结果可得 H XY H X H Y X 1 461 1 956 3 417 bit 每对符号 当两个信源统计独立时 H XY H X H Y 为最大 对第二个信源Y 其熵H Y 的计算 由全概率公式 因此 联合熵的最大值为 由于信源相关 使联合熵减小 其减小量为 定义互信息量是定量地研究信息传递问题的重要基础 但它只能定量地描述输入随机变量发出某个具体消息 输出变量出现某一个具体消息时 流经信道的信息量 此外还是随和变化而变化的随机变量 互信息量不能从整体上作为信道中信息传递的测度 这种测度应该是从整体的角度出发 在平均意义上度量每通过一个符号流经信道的平均信息量 定义互信息量在联合概率空间中的统计平均值为Y对X的平均互信息量 简称平均互信息 也称平均交互信息量或交互熵 平均互信息量 平均互信息克服了互信息量的随机性 可作为信道中流通信息量的整体测度 三种表达方式 平均互信息的物理意义从三种不同角度说明从一个事件获得另一个事件的平均互信息需要消除不确定度 一旦消除了不确定度 就获得了信息 此即 信息就是负熵 平均互信息量的性质对称性 非负性 极值性 凸性平均互信息量是输入信源概率分布的上凸函数 研究信道容量的理论基础 平均互信息量是输道转移概率的下凸函数 研究信源的信息率失真函数的理论基础 平均互信息量的凸性 平均互信息量为先验概率q xi 和信道转移概率p yj xi 的函数 可以记为 I X Y I Q X P Y X 当信道一定时 平均互信息是信源先验概率的上凸函数 对于一定的信道转移概率分布 总可以找到一个先验概率分布为Qm X 的信源X 使平均互信息达到相应的最大值Imax 这时称这个信源为该信道的匹配信源 不同的信道转移概率对应不同的Imax 或者说Imax是P Y X 的函数 例 设二元对称信道 BSC 的信源空间为 X 0 1 Q X 1 01 p0pp 11 p1 平均交互信息量为 I X Y H Y H Y X 因为已知转移概率 所以利用这一个公式 H Y X q xi p yj xi logp yj xi q xi plogp 1 p log 1 p H p 其中 H p plogp 1 p log 1 p 另外 为了求H Y 利用w yj q xi p yj xi 可得 w y 0 1 p 1 pw y 1 p 1 1 p 所以 H Y 1 p 1 p log 1 p 1 p p 1 1 p log p 1 1 p H 1 p 1 p 可得平均交互信息量为 I X Y H 1 p 1 p H p 求平均互信息I X Y 解 根据这个关系 当p值一定 即固定信道 可知I X Y 是 的上凸函数 其曲线如图 I X Y 1 H p 01 21 从图中可知 当BSC信道的信道矩阵固定后 若输入符号集X的概率分布不同 在接收端平均每个符号获得的信息量就不同 只有当输入为等概分布时 p 0 p 1 1 2时 接收端的信息量才为最大值 1 H p 这就是平均互信息的上凸函数性质 I X Y H 1 p 1 p H p 当信源一定时 平均互信息是信道转移概率的下凸函数对于一个已知先验概率为Q X 的离散信源 总可以找到一个转移概率分布为Pm Y X 的信道 使平均互信息达到相应的最小值Imin 可以说不同的信源先验概率对应不同的Imin 或者说Imin是P X 的函数 即平均交互信息量的最小值是由体现了信源本身的特性 例 在上例中 I X Y H 1 p 1 p H p 当固定信源先验概率分布 时 I X Y 是信道转移概率p的下凸函数 如图所示 01 21p从图中可知 当信源固定后 存在一种BSC信道 p 1 p 1 2 使在信道输出端获得信息量最小 即等于0 也就是说 信源的信息全部损失在信道中了 这是最差的信道 这个性质说明 每

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论