《信息的度量》PPT课件.ppt_第1页
《信息的度量》PPT课件.ppt_第2页
《信息的度量》PPT课件.ppt_第3页
《信息的度量》PPT课件.ppt_第4页
《信息的度量》PPT课件.ppt_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章信息的度量,徐娟 副教授 Email: 生物信息教研室 106办公室,信息的概念,信息是信息论中最基本、最重要的概念,它是一个既存在广泛又抽象的概念; 广泛性 客观世界充满信息 人类离不开信息 知识、书本是有用信息的积累 抽象性 信息不等同与“消息”、“信号”、“情报”、“知识”和“数据”等,小结-理解信息的概念,信息-事物运动状态或存在方式的不确定性的描述。 狭义信息论:又称香农信息论。主要通过数学描述与定理分析,研究通信系统从信源到信宿的全过程 信息的度量 信道容量 信源和信道编码理论等问题,通信系统模型,香农将各种通信系统概括成通信系统模型,通信系统中形式上传输的是消息,但实质上传

2、输的是信息。 通信的结果是消除或部分消除不确定性,从而获得信息,信源,信源-信息的来源,是产生消息或消息序列的源泉 按照消息的取值集合的离散性和连续性 离散信源-输出的消息是有限的,可数的,可以用一维离散型随机变量来描述。 如筛子的点数、碱基种类、氨基酸的种类、选修课成绩 连续信源-信源符号集的取值是连续的,可以用一维连续型随机变量来描述。 如:说话的内容是离散的,说话的分贝是连续的. 由于计算机是离散的,我们重点讨论离散信源 某时刻,信源发出的消息(事件)具有不确定性,概率知识回顾,在一定条件下可能出现也可能不出现的现象 称为随机现象. 随机现象揭示了条件和结果之间的不确定性,其数量关系无法

3、用函数加以描述, 在一次观察中出现什么结果具有偶然性,但是通过大量试验,结果具有一定的统计规律性 。 (掷骰子) 随机现象是通过随机试验来研究的,概率知识回顾,随机试验,通常用 E 表示,对自然现象的观察和进行一次科学实验。在相同条件下 可重复进行 试验的结果不止一个,每次试验总是恰好出现这些可能结果中的一个,但在一次试验之前其结果无法确知 在大量重复试验或观察中呈现出某种统计规律性的现象 例如:重复摸球试验、掷骰子、参加一次英语考试的试验,概率知识回顾,基本事件,常用e, 来表示 对一个试验来说,我们把其最简单的不能再分的事件称为该事件的基本事件 样本空间-用表示,一个试验所有基本事件组成的

4、集合,称为该试验的样本空间 随机事件-随机试验的每个可能的结果 是基本事件集的子集,简称事件 概率测度(概率),用P表示,刻画事件发生可能性大小的数量指标 非负性(P(X)=0)、完备性(P()=1,2.1自信息和互信息,2.1.1自信息,自信息(量):一个消息xi (事件)本身所包含的信息量,由事件的不确定性决定,记为I(xi)。 某事件xi发生所提供的信息量I(xi)应该是该事件发生的先验概率p(xi)的函数,I(x)=f(p(x,2)当p(x)=1时,I(x)=0; 极限情况下,当p(x)=0时,I(x),应满足以下公理化条件,1)I(x)是p(x)的单调递减函数;若p(x1)I(x2,

5、3)信息量满足可加性:对于两个独立事件,其信息量等于各自信息量之和。若p(x1x2)=p(x1)p(x2),I(x1x2)=I(x1)+I(x2,2.1.1 自信息,某消息xi的自信息,可用该消息出现的概率的对数的负值来表示: p(xi)为消息的先验概率 底数为2时,常把2省略 自信息量的单位:若这里的对数底取2,则单位为比特(bit,binary unit) P(x)=1/2时,I(x)=1bit。即概率为1/2的事件具有1bit信息量 由于在计算机上是二进制(binary digit),我们一般都采用比特,计算自信息量的例子,例3:信源消息X=A,T,G,C 的概率模型如下,则该信源各消息

6、的自信息量分别为,单位:比特,自信息I(xi)的含义,在事件发生以前,等于事件xi发生的不确定性的大小; 在事件发生以后,表示事件xi所含有或最大能给收信者提供的信息量。 通过无噪信道传输后,收信者(信宿)对事件xi消除的不确定性的大小,即获得的信息量的大小,收到某消息获得的信息量=不确定性的减少量,例题4 (1)假设英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022,分别计算他们的自信息量。 (2)假定前后字母出现是互相独立的,计算消息“ac”的自信息。 (3)假定前后字母出现不是互相独立的,当“a”出现以后, “c”出现的概率为0.04,计算“a”出现以后, “c”出现的

7、自信息量,1)英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022,分别计算他们的自信息量。 解: (1,2)假定前后字母出现是互相独立的,计算消息“ac”的自信息。 解:由于前后字母出现是互相独立的,“ac”出现的概率为0.064*0.022,所以 信息量满足可加性,3)假定前后字母出现不是互相独立的,当“a”出现以后, “c”出现的概率为0.04, 计算“a”出现以后, “c”出现的自信息量。 解: “a”出现的条件下,“c”出现的频率变大,它的不确定性变小,消除了一定的不确定性,所提供的信息量就减少,2.1.2互信息,互信息 一个事件 所给出关于另一个事件 的信息定义为互

8、信息,用 表示。 是已知事件 后所消除的关于事件 的不确定性。 事件 本身的不确定性 减去已知事件 后对 仍然存在的不确定性,例5 某地二月份天气出现的频率分别为 晴1/2,阴1/4,雨1/8,雪1/8. 某一天有人告诉你:“今天不是晴天”,他这句话作为收到的消息y1,求收到y1后,y1与各种天气的互信息量。 解:把各种天气记作x1(晴),x2(阴), x3(雨),x4(雪)。收到消息y1后各种天气发生的概率变成了后验概率,条件概率公式,根据互信息的定义,可以算出y1与各种天气之间的互信息,利用通信系统模型理解互信息,设X为信源发出的离散消息集合;Y为信宿收到的离散消息集合; 信源发出的消息,

9、经过有噪声的信道传递到信宿,X,Y,X,Y,xi,xi,无噪,I(xi,p(xi,p(xi|yj,I(xi,yj,xi,表示事件 出现前和出现后关于事件 的不确定性被消除的部分; 表示事件 出现以后信宿获得的关于事件 的信息量,观察者站在输出端 :对 yj 一无所知的情况下 xi 存在的不确定度; :收到 yj 后 xi 仍然存在的不确定度,损失的信息,小结-信息量,收到某消息获得的信息量 =不确定性的减少量 =(收到此消息前关于某事件发生的不确定性)-(收到此消息后关于某事件发生的不确定,互信息的其他计算公式,是已知事件 后所消除的关于事件 的不确定性 。 概率的乘法公式,互信息的其他计算公

10、式,事件 本身的不确定性 和事件 本身的不确定性 加和,减去事件 的不确定性,概率乘法公式,通信前:X和Y之间没有任何关系,即X、Y统计独立, p(xi yj)=p(xi)p(yj),先验不确定度 通信后:p(xi yj)=p(xi)p(yj |xi )= p(yj)p(xi |yj),后验不确定度,互信息量的性质,一、对称性:I(x;y)=I(y;x),其通信意义表示发出x收到y所能提供给我们的信息量的大小,二、当x与y统计独立时,I(x;y)=I(y;x)=0,表示这样一次通信不能为我们提供任何信息. 三、互信息可取正值也可取负值,也可取值0,单位也是比特,上述两条性质与我们实际情况非常吻

11、合,思考题,例题4 (1)英文字母中“a”出现的概率为0.064,“c”出现的概率为0.022,分别计算他们的自信息量。 (2)假定前后字母出现是互相独立的,计算“ac”的自信息。 (3)假定前后字母出现不是互相独立的,当“a”出现以后, “c”出现的概率为0.04,计算“a”出现以后, “c”出现的自信息量。 (4)求在(2)和(3)两种情形下,消息“a”和消息“c”的互信息各为多少,2.2平均自信息,概率知识回顾,随机变量-将样本空间(随机事件)数量化,即用数值来表示随机试验的结果 常用大写的英文字母X,Y,Z,或希腊字母,来表示 有些随机试验的结果可直接用数值来表示. 例如: 在掷骰子试

12、验中, 结果可用1,2,3,4,5,6来表示 不妨用表示所有的样本点,随机变量,有些随机试验的结果不是用数量来表示,但可数量化 例1: 掷硬币试验,其结果用汉字“出现正面”和“出现反面”来表示. 例2:基因型的表示:0 1 2,可数量化: 用 1表示 “出现正面” ; 用 0 表示“出现反面,随机变量,设立随机变量的目的-用随机变量的取值来描述随机事件和事件发生的概率 其和普通函数的差别是,不一定定义在实数轴上,是定义在样本空间上 概率空间X,P(X) 一个随机变量的所有可能取值和这些取值对应的概率,例如: 在掷骰子试验中,X:1,2,3,4,5,6 样本空间,P(X):P(X=1)=1/6,

13、P(X=2)=1/6, P(X=6)= 1/6,X P,X: 1 2 3 4 5 6,P(X): 1/6 1/6 1/6 1/6 1/6 1/6,概率空间,离散信源的数学定义,一维离散信源-输出的消息是有限的,可数的,且两两信息之间互不相容,可以用一维离散型随机变量来描述 信源可以用概率空间来表示 假设随机变量X有 个可能的取值 , 各种取值出现的概率为 , 它的概率空间表示为 同样满足概率空间的基本特性:非负性、完备性,信息熵,自信息是一个随机变量: 自信息是指信源发出的某一消息所含有的信息量。 不同的消息,它们所含有的信息量也就不同。 平均自信息(信息熵/信源熵/香农熵/无条件熵/熵函数/

14、熵) 可表示整个信源的(平均)不确定性 随机变量X的每一个可能取值的自信息 的数学期望定义为随机变量X的平均自信息量。 单位:比特/符号、奈特/符号、哈特莱/符号,信息熵的意义,1)对于某特定的信源(概率空间给定),其信息熵只有一个。 2)不同的信源因统计特性不同,其信息熵也不同。例子: 比如某地四月和七月天气的变换程度 两个或多个物种,碱基的组成偏向程度,信息熵的意义,3)信源的信息熵是从整个信源的统计特性来考虑的,也就是从平均意义上来表征信源的总体特性的。 例1:一个布袋内放100个球,其中80个球是红色的,20个球是白色的。若随意取一球,猜测是什么颜色,求平均摸取一次所能获得的信息量,例1,一个布袋内放100个球,其中80个球是红色的,20个球是白色的。若随意取一球,猜测是什么颜色,求平均摸取一次所能获得的信息量? 解:该信源对应的概率空间为 其中,a1表示摸出的是红球,a2则表示白球。 若取出的是红球,获得的信息量是 若取出的是白球,获得的信息量是,例1,若有放回的取球,那么取球n次中,红球出现的次数约为 ,白球出现的次数约为 则摸取n次后总共所获取的信息量为 这样,平均

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论