




已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章信息的度量 徐娟副教授Email xujuan8575 生物信息教研室106办公室 信息的概念 信息是信息论中最基本 最重要的概念 它是一个既存在广泛又抽象的概念 广泛性客观世界充满信息人类离不开信息知识 书本是有用信息的积累抽象性信息不等同与 消息 信号 情报 知识 和 数据 等 小结 理解信息的概念 信息 事物运动状态或存在方式的不确定性的描述 狭义信息论 又称香农信息论 主要通过数学描述与定理分析 研究通信系统从信源到信宿的全过程信息的度量信道容量信源和信道编码理论等问题 通信系统模型 香农将各种通信系统概括成通信系统模型 通信系统中形式上传输的是消息 但实质上传输的是信息 通信的结果是消除或部分消除不确定性 从而获得信息 信源 信源 信息的来源 是产生消息或消息序列的源泉按照消息的取值集合的离散性和连续性离散信源 输出的消息是有限的 可数的 可以用一维离散型随机变量来描述 如筛子的点数 碱基种类 氨基酸的种类 选修课成绩连续信源 信源符号集的取值是连续的 可以用一维连续型随机变量来描述 如 说话的内容是离散的 说话的分贝是连续的 由于计算机是离散的 我们重点讨论离散信源某时刻 信源发出的消息 事件 具有不确定性 概率知识回顾 在一定条件下可能出现也可能不出现的现象称为随机现象 随机现象揭示了条件和结果之间的不确定性 其数量关系无法用函数加以描述 在一次观察中出现什么结果具有偶然性 但是通过大量试验 结果具有一定的统计规律性 掷骰子 随机现象是通过随机试验来研究的 概率知识回顾 随机试验 通常用E表示 对自然现象的观察和进行一次科学实验 在相同条件下可重复进行试验的结果不止一个 每次试验总是恰好出现这些可能结果中的一个 但在一次试验之前其结果无法确知在大量重复试验或观察中呈现出某种统计规律性的现象例如 重复摸球试验 掷骰子 参加一次英语考试的试验 概率知识回顾 基本事件 常用e 来表示对一个试验来说 我们把其最简单的不能再分的事件称为该事件的基本事件样本空间 用 表示 一个试验所有基本事件组成的集合 称为该试验的样本空间随机事件 随机试验的每个可能的结果是基本事件集的子集 简称事件概率测度 概率 用P表示 刻画事件发生可能性大小的数量指标非负性 P X 0 完备性 P 1 2 1自信息和互信息 2 1 1自信息 自信息 量 一个消息xi 事件 本身所包含的信息量 由事件的不确定性决定 记为I xi 某事件xi发生所提供的信息量I xi 应该是该事件发生的先验概率p xi 的函数 I x f p x 2 当p x 1时 I x 0 极限情况下 当p x 0时 I x 应满足以下公理化条件 1 I x 是p x 的单调递减函数 若p x1 I x2 3 信息量满足可加性 对于两个独立事件 其信息量等于各自信息量之和 若p x1x2 p x1 p x2 I x1x2 I x1 I x2 2 1 1自信息 某消息xi的自信息 可用该消息出现的概率的对数的负值来表示 p xi 为消息的先验概率底数为2时 常把2省略自信息量的单位 若这里的对数底取2 则单位为比特 bit binaryunit P x 1 2时 I x 1bit 即概率为1 2的事件具有1bit信息量由于在计算机上是二进制 binarydigit 我们一般都采用比特 计算自信息量的例子 例3 信源消息X A T G C 的概率模型如下 则该信源各消息的自信息量分别为 单位 比特 自信息I xi 的含义 在事件发生以前 等于事件xi发生的不确定性的大小 在事件发生以后 表示事件xi所含有或最大能给收信者提供的信息量 通过无噪信道传输后 收信者 信宿 对事件xi消除的不确定性的大小 即获得的信息量的大小 收到某消息获得的信息量 不确定性的减少量 例题4 1 假设英文字母中 a 出现的概率为0 064 c 出现的概率为0 022 分别计算他们的自信息量 2 假定前后字母出现是互相独立的 计算消息 ac 的自信息 3 假定前后字母出现不是互相独立的 当 a 出现以后 c 出现的概率为0 04 计算 a 出现以后 c 出现的自信息量 1 英文字母中 a 出现的概率为0 064 c 出现的概率为0 022 分别计算他们的自信息量 解 1 2 假定前后字母出现是互相独立的 计算消息 ac 的自信息 解 由于前后字母出现是互相独立的 ac 出现的概率为0 064 0 022 所以信息量满足可加性 3 假定前后字母出现不是互相独立的 当 a 出现以后 c 出现的概率为0 04 计算 a 出现以后 c 出现的自信息量 解 a 出现的条件下 c 出现的频率变大 它的不确定性变小 消除了一定的不确定性 所提供的信息量就减少 2 1 2互信息 互信息一个事件所给出关于另一个事件的信息定义为互信息 用表示 是已知事件后所消除的关于事件的不确定性 事件本身的不确定性减去已知事件后对仍然存在的不确定性 例5某地二月份天气出现的频率分别为晴1 2 阴1 4 雨1 8 雪1 8 某一天有人告诉你 今天不是晴天 他这句话作为收到的消息y1 求收到y1后 y1与各种天气的互信息量 解 把各种天气记作x1 晴 x2 阴 x3 雨 x4 雪 收到消息y1后各种天气发生的概率变成了后验概率 条件概率公式 根据互信息的定义 可以算出y1与各种天气之间的互信息 利用通信系统模型理解互信息 设X为信源发出的离散消息集合 Y为信宿收到的离散消息集合 信源发出的消息 经过有噪声的信道传递到信宿 X Y X Y xi xi 无噪 I xi p xi p xi yj I xi yj xi 表示事件出现前和出现后关于事件的不确定性被消除的部分 表示事件出现以后信宿获得的关于事件的信息量 观察者站在输出端 对yj一无所知的情况下xi存在的不确定度 收到yj后xi仍然存在的不确定度 损失的信息 小结 信息量 收到某消息获得的信息量 不确定性的减少量 收到此消息前关于某事件发生的不确定性 收到此消息后关于某事件发生的不确定 互信息的其他计算公式 是已知事件后所消除的关于事件的不确定性 概率的乘法公式 互信息的其他计算公式 事件本身的不确定性和事件本身的不确定性加和 减去事件的不确定性 概率乘法公式 通信前 X和Y之间没有任何关系 即X Y统计独立 p xiyj p xi p yj 先验不确定度通信后 p xiyj p xi p yj xi p yj p xi yj 后验不确定度 互信息量的性质 一 对称性 I x y I y x 其通信意义表示发出x收到y所能提供给我们的信息量的大小 二 当x与y统计独立时 I x y I y x 0 表示这样一次通信不能为我们提供任何信息 三 互信息可取正值也可取负值 也可取值0 单位也是比特 上述两条性质与我们实际情况非常吻合 思考题 例题4 1 英文字母中 a 出现的概率为0 064 c 出现的概率为0 022 分别计算他们的自信息量 2 假定前后字母出现是互相独立的 计算 ac 的自信息 3 假定前后字母出现不是互相独立的 当 a 出现以后 c 出现的概率为0 04 计算 a 出现以后 c 出现的自信息量 4 求在 2 和 3 两种情形下 消息 a 和消息 c 的互信息各为多少 2 2平均自信息 概率知识回顾 随机变量 将样本空间 随机事件 数量化 即用数值来表示随机试验的结果常用大写的英文字母X Y Z 或希腊字母 来表示有些随机试验的结果可直接用数值来表示 例如 在掷骰子试验中 结果可用1 2 3 4 5 6来表示不妨用 表示所有的样本点 随机变量 有些随机试验的结果不是用数量来表示 但可数量化例1 掷硬币试验 其结果用汉字 出现正面 和 出现反面 来表示 例2 基因型的表示 012 可数量化 用1表示 出现正面 用0表示 出现反面 随机变量 设立随机变量的目的 用随机变量的取值来描述随机事件和事件发生的概率其和普通函数的差别是 不一定定义在实数轴上 是定义在样本空间上概率空间 X P X 一个随机变量的所有可能取值和这些取值对应的概率 例如 在掷骰子试验中 X 1 2 3 4 5 6 样本空间 P X P X 1 1 6 P X 2 1 6 P X 6 1 6 XP X 123456 P X 1 61 61 61 61 61 6 概率空间 离散信源的数学定义 一维离散信源 输出的消息是有限的 可数的 且两两信息之间互不相容 可以用一维离散型随机变量来描述信源可以用概率空间来表示假设随机变量X有个可能的取值 各种取值出现的概率为 它的概率空间表示为同样满足概率空间的基本特性 非负性 完备性 信息熵 自信息是一个随机变量 自信息是指信源发出的某一消息所含有的信息量 不同的消息 它们所含有的信息量也就不同 平均自信息 信息熵 信源熵 香农熵 无条件熵 熵函数 熵 可表示整个信源的 平均 不确定性随机变量X的每一个可能取值的自信息的数学期望定义为随机变量X的平均自信息量 单位 比特 符号 奈特 符号 哈特莱 符号 信息熵的意义 1 对于某特定的信源 概率空间给定 其信息熵只有一个 2 不同的信源因统计特性不同 其信息熵也不同 例子 比如某地四月和七月天气的变换程度两个或多个物种 碱基的组成偏向程度 信息熵的意义 3 信源的信息熵是从整个信源的统计特性来考虑的 也就是从平均意义上来表征信源的总体特性的 例1 一个布袋内放100个球 其中80个球是红色的 20个球是白色的 若随意取一球 猜测是什么颜色 求平均摸取一次所能获得的信息量 例1 一个布袋内放100个球 其中80个球是红色的 20个球是白色的 若随意取一球 猜测是什么颜色 求平均摸取一次所能获得的信息量 解 该信源对应的概率空间为其中 a1表示摸出的是红球 a2则表示白球 若取出的是红球 获得的信息量是若取出的是白球 获得的信息量是 例1 若有放回的取球 那么取球n次中 红球出现的次数约为 白球出现的次数约为则摸取n次后总共所获取的信息量为这样 平均取球一次所获
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中高频炉工5S管理考核试卷及答案
- 2025年风电叶片碳纤维行业研究报告及未来行业发展趋势预测
- 2025年道路照明行业研究报告及未来行业发展趋势预测
- 熟料烧结工知识考核试卷及答案
- 石油产品精制工主管竞选考核试卷及答案
- 微波铁氧体元器件制造工作业指导书
- 兽药检验员理念考核试卷及答案
- 阴阳极制作工岗位操作规程考核试卷及答案
- 人工智能物理课件
- 电解精炼工职业考核试卷及答案
- 2025年9月六年级上册数学教学计划
- 多模态大语言模型领域进展分享
- 部编版一年级语文上册教学设计(全册)
- 超龄员工用工免责协议书
- 考点巩固卷02世界地理(原卷版)
- 人教版英语七年级上册阅读理解专项训练16篇(含答案)
- 高效压缩空气系统供应规范(TCECA-G 0225-2023)
- 部编版三年级上册道德与法治全册一课一练(含答案)+期中、期末试卷
- 机械基础第二版全书教案教学设计
- 术后口腔护理宣教
- 2025年湖南省长沙市长郡教育集团初三下学期期中数学试题文试题含解析
评论
0/150
提交评论