




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,第二章教育信息熵,熵的最早提出(1865年)与热力学熵在信息论中的地位,.,第一节熵的概述,一信息量的表示1信息的多少与信源的不确定性有关实例:5个学生(A、B、C、D、E)参加某项比赛,选拔出1人为冠军,.,2信息量的度量与信源的不确定性实例1:5个学生水平相差不多(接近等概率)实例2:5个学生水平相差大(不等概率),其中A的水平高超问:哪一组比赛悬念更大(获得的信息量多)?,.,3小结:信源输出的消息可以看作是随机事件事件出现的概率大,出现机会多,不确定程度小;事件出现的概率小,出现机会少,不确定程度大。即Pi大,f(Pi)小;Pi小,f(Pi)大。即f(Pi)应是Pi的单调减函数f(pi)=(1/pi),.,4信息量的可加性单调减函数可以有很多种,用来度量信息的函数f(Pi)究竟应当是哪一种呢?有了可加性即可解决。即P(x1,x2)=P(x1)*P(x2)联合概率(两个变量相互独立)而f(P1,P2)=f(P1)+f(P2)不确定性可见f(P)满足取对数的关系f(P)=log(1/p)=-logp它满足的两个关系:(1)不确定性与概率的关系;(2)可加性的要求。,.,二信息熵1平均信息量(信息熵)一般情况下状态空间:X:x1,x2xn概率分布:P(x):P(x1),P(x2)P(xn),且,这里假定各状态是相互独立的。,.,出现Xi的不确定性:log(1/P(xi)该信源每个状态的平均(加权平均)不确定性:,.,信息熵(平均信息量):,也可以简写为:,.,2两种不同的单位上面的定义式中,没有考虑对数的底a,当它取不同的底时(常取2或e),信息熵的单位为比特(bits)和奈特(nats)1比特=0.693奈特1奈特=1.443比特此外,还有一个单位叫哈特(以10为底),取自人名哈特莱(Hartley),他提出了熵定义式中的对数关系。且1哈特=3.32比特,.,3例某一系统具有四种状态(或四种事件)A1、A2、A3、A4,各自的概率为:p1=1/2,p2=1/4,p3=1/8,p4=1/8注意:概率和为1计算得熵:H=1.75(比特/状态),.,4连续信源如果概率空间为连续系统,其概率分布为:p(x),对应系统的熵为:,.,三熵的意义1熵的大小表示某概率系统的不确定程度实例1:某一概率系统的概率分布如下:(1,0,0,0)这是一个确定性系统,计算其信息熵H=0,即该系统不确定性为0。,.,实例2:某一概率系统的概率分布为等概率:(1/n,1/n,1/n),设该系统共有n个状态(事件)这是一个最不确定系统,计算其信息熵H为最大,即该系统不确定性最大。一般系统介于上述两种极端情况之间。,.,2熵的大小表示某系统中任一状态(事件)出现后产生的平均信息量实例1:某一概率系统的概率分布如下:(1,0,0,0)在这个系统中,只有第一个状态出现,当它出现之后,没有给我们带来任何信息量,计算其信息熵H=0。,.,实例2:某一概率系统的概率分布为等概率:(1/n,1/n,1/n),设该系统共有n个状态(事件)在这个系统中,任何一个状态都有均等的机会出现,当某一个状态出现之后,都给我们带来最大的信息量,计算其信息熵H为最大。一般系统介于上述两种极端情况之间。,.,四信息熵的基本性质1单峰性(极值性)任何一个随机系统,其信息熵都有一个极大值(单峰),即各状态出现为等概率时,熵为最大:H(p1,p2,pn)H(1/n,1/n,1/n)=logn实例:一个二事件系统,概率分别为p和1-p该系统的熵为:H=-plogp+(1-p)log(1-p)其HP图具有单峰性(图2.1),.,图2-1两个事件H-P图,.,2对称性H(p1,p2,p3)=H(p1,p3,p2)=H(p3,p2,p1)说明:1)这是由于加法满足交换率2)这也说明熵反映了该系统的整体特性,.,3渐化性(递增性)设某系统共有n个事件,现在第n个事件分裂成两个事件,概率分别为q、r(即pn=q+r),该系统的熵变为:,证明(利用熵函数的表达式):作为习题,.,4展开性(扩展性)H(p1,p2,pn)=H(p1,p2,pn,0)=H(p1,p2,pn,0,0)说明:某系统的事件数增加了,但这些事件的出现概率为0时,该系统的熵不变。,.,5确定性H(1,0)=H(0,1)=H(1,0,0)=H(0,0,0,1)=06非负性H(p1,p2,pn)0小结:熵是一种描述系统总体特性的统计量,.,第二节相对熵与冗余度,一最大熵任何一个随机系统(共有n个状态),各状态出现为等概率时,且各个状态无相关性,其信息熵都有一个最大值:Hmax=logn实例:英语用来传输信息,使用26个字母,加上一个空格。这样的系统,其最大熵为:Hmax=log274.76(比特/字母),.,二一般情况一般情况下,任何一个系统(共有n个状态),各状态出现一般为不等概率,且各个状态有相关性,其实际信息熵(H)都有小于最大值,即HHmax=logn实例:1)英语字母的使用并非是相互独立的,字母间存在相关性;2)英语字母并非等概率使用(表2.1:P33)故:英语字母的熵通常远小于4.76(有人计算1.4),.,三相对熵我们定义:h=H/Hmax为相对熵,它便于比较两个不同事件数目的系统的信息熵。,.,四冗余度定义:r=1-h=1-H/Hmax=(Hmax-H)/Hmax冗余度的含义:在传递信息时,不必要的冗长部分的比例,即为了表示某一定量的信息量,我们需要用更多的事件数。实例:(英语字母),为了表示某一内容的文章,我们需要用更多的字母。关于汉字的使用,.,五关于冗余度的讨论1冗余度使得信息传递的效率降低实例:英语字母使用中的冗余度达到70%-80%,所以英语是一种传递效率不高的语言。2冗余度可以提高信息传递中的抗干扰能力实例:传输“中华人民共和国”与传输“中国”,效果是一样的,因此有一定的冗余度。但前者在传输时,抗干扰能力更高。,.,第三节熵函数的展开,一联合熵1信源现有两个信源:X,YX:x1,x2xnY:y1,y2,ymP(x):P(x1),P(x2)P(xn)P(y):P(y1),P(y2)P(ym),.,联合空间:X.Y:x1y1,x1y2,x1ym.xny1,xny2,xnymP(x.y):P(x1,y1),P(x1,y2)P(x1,ym).P(xn,y1),P(xn,y2)P(xn,ym),.,其中P(xi,yj)为xi和yj的联合概率且P(xi,yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj)当:xi和yj相互独立时P(yj/xi)=P(yj)P(xi/yj)=P(xi),.,2二元联合信源的熵:H(X,Y)=-P(xi,yj)logP(xi,yj)当每个信源相互独立时:H(X,Y)=H(X)+H(Y)即联合熵等于每一个信源熵之和。但由于相关性的存在,会减少平均不确定性故H(X,Y)=H(X)+H(Y),.,3例考虑m=2的情况,且假定联合概率分布如下:,1/2,1/2,2/5,2/5,1/5,.,(1)先求出Px(x1)=1/2Px(x2)=1/2Py(y1)=2/5Py(y2)=2/5Py(y3)=1/5(2)求出H(X)=-(1/2)log(1/2)+(1/2)log(1/2)=1同理H(Y)=1.522而H(X)+H(Y)=2.522(比特/事件),.,(3)H(X,Y)=-P(x1,y1)logP(x1,y1)+P(x1,y2)logP(x1,y2)+P(x1,y3)logP(x1,y3)+P(x2,y1)logP(x2,y1)+P(x2,y2)logP(x2,y2)+P(x2,y3)logP(x2,y3)=-(1/20)log(1/20)+(7/20)log(7/20)+(1/10)log(1/10)+(7/20)log(7/20)+(1/20)log(1/20)+(1/10)log(1/10)=2.157,.,显然H(X,Y)=H(X)+H(Y)21572.522,.,二条件熵1概率关系把联合概率P(xi,yj)=P(xi)*P(yj/xi)代入H(X,Y)=-P(xi,yj)logP(xi)*P(yj/xi)=-P(xi,yj)logP(xi)-P(xi,yj)logP(yj/xi)=-P(xi)logP(xi)-P(xi,yj)logP(yj/xi)=H(X)+H(Y/X),.,2条件熵上式中的H(Y/X)=-P(xi,yj)logP(yj/xi)叫做给定X时关于Y的条件熵它表示:已知X时关于Y还保留的平均不确定性,.,3讨论:(1)联合熵表示将XY作为一个整体看待时,总的平均不确定性H(X,Y)等于X的不确定性与已知X后关于Y的不确定性H(Y/X)的和(2)如果X和Y独立,则H(Y/X)=H(Y)这时H(X,Y)=H(X)+H(Y),.,(3)反之,若Y完全由X决定,因而已知X即可确定Y,不再有任何不确定性,即H(Y/X)=0这时H(X,Y)=H(X)(4)一般情况下:0=H(Y/X)=H(Y)即条件熵永远小于或等于无条件熵(5)由于X与Y之间存在的对称性,可得H(X,Y)=H(Y)+H(X/Y),.,4互信息定义:I(X,Y)=H(X)+H(Y)-H(X,Y)为信源X和信源Y的互信息。通过变换,可得:I(X,Y)=H(X,Y)-H(X|Y)-H(Y|X),.,5关于几个熵的关系:H(X),H(Y),H(X,Y),H(Y/X),H(X/Y),I(X;Y)三Kullback信息量(略)第四节熵模型(略),.,第五节测试问题信息量,一测试问题信息熵的计算1多重选择题(设有5个备选答案)几种应答分布:1)(1,0,0,0,0),应答信息熵:H=02)(1/2,1/8,1/8,1/8,1/8),应答信息熵:H=23)(1/2,1/2,0,0,0),应答信息熵:H=14)(1/5,1/5,1/5,1/5,1/5)应答信息熵:H=log5通过信息熵的计算,我们能够得到这些测试问题的难易程度和学生的学习能力倾向,可以作为测试问题的评价及其指标。,.,二等价预选项数题目分析:难度,区分度这里主要讨论选择题:除了难度与区分度,还有一个问题:就是对题目各备选项的有效性作出评价,.,1等价预选项数令i=1,2,3m为选择题的一个选项,Pi为考生选择第i项的概率,则该选择题的熵:H=-PilogPi讨论:某一个Pi=1,其它选项无人选,此时:H=0,分散程度最小每一个Pi=1/m,每个选项均匀分布,此时:H=logm(最大)分散程度最大。如图所示,.,图2-8等价预选项目的数据,.,由于H是熵(平均信息量)设H与回答均匀地分布于K个(不是m个,而是小于或等于m个)选项时的信息量相等(原来是m个答案非均匀的分布)H=-(1/K)log(1/K)=logK可得K=2H这就是等价预选项数(佐藤隆博定义),.,例某题有5个选项,根据回答先求出H,再计算KH约为1.531,计算出K=2.89这意味着:虽然有5个选项,但结果等价于均匀地分布在大约3个选项上。把熵表达式代入等价选预项数公式:得K=2-PilogPi=Pi-Pi改错:(2-29):P45,.,这里,我们不用求熵,就可以直接求出等价预选项数K,而且K与logPi中的底无关。当各选项等概时,H和K取最大值:即:Hmax=logmKmax=m,.,选项项数的范围,Pr,在图中r:为选择题的正确选项,Pr:考生选择正确选项的概率,图中三条曲线包围的面积属于K的合理范围,超过此范围时,要对题目进行检查。注意:K与Pr有关,.,三条曲线:Kmax:当选择正确答案的概率为Pr时,选择另外的m-1个选项(诱惑项)的选答概率相等=(1-Pr)/(m-1)时,K取极大值;Kmin:当选择正确答案的概率为Pr时,只有某一个诱惑项有人选,概率为(1-Pr)时,K取极小值;K=1/Pr:要求Pr1/K,即选择正确答案概率高于平均值所得。,.,计算例:m=5Pr=0时,Kmax=4,Kmin=1Pr=1/5时,Kmax=5,Kmin=1.6Pr=1/2时,Kmax=4,Kmin=2Pr=1时,Kmax=1,Kmin=1总结:理想的题目分布模式是,在保证一定的答对率的条件下,对疑惑项的选择人数应接近于均匀分布,也就是说,K的取值应接近于上图中的Kmax。,.,三对不确定程度的判断1问题:12个外观相同的小球,仅有一个重量不同(可能轻、重)请使用天平,能否在三次以内找出该问题球?,.,2求解方法:某事件系统产生的信息熵=消除的不确定性(1)设问题球出现的概率为1/12;设问题球比正常球轻(重)的概率为1/2;(2)要发现问题球并知其轻(重)所需要的信息量:-log(1/12)-log(1/2)=log12+log2=log24=4.585,.,(3)天平称一次,能确定左边轻、右边轻、或者平衡,获得的信息量(消除的不确定性)=log3=1.585而4.585/1.5852.9(4)故至少需要3次使用天平,才可以找出问题球注意:这里并没有研究具体的策略和方法,.,第六节教学过程的信息量分析,一分类系统教学过程中的语言行为分类;VICS:VerbalInteractionCategorySystem(语言交互分类系统)微格教学的语言行为分类:(如表所示:),.,.,各类行为的频度分布:图2.9即:1:24;2:16;3:9;4:155:16;6:3;7:16;8:3;9:8计算出信息熵H=2.939(比特/行为状态),.,二类别总数与熵继续上面的例子(49个教师、学生进行微格教学的数据)(如表所示)共分为6个组,每一组的数据都是基于教师、学生的语言行为进行分类的,再统计出各类别数据的频度分布,根据这些频度分布计算出每一节课的信息熵。,.,各组的数据类别总数与熵的关系:(如图2.10所示)1)类别总数与熵呈正相关(第五组例外);2)不同的组,类别总数多的教学,不一定熵就大,.,三不同学科类别频度分布的比较上面的表述,只是根据类别总数计算出了熵,并没有确定哪些类别是多少?不能根据学科的特色进行分析和指导图2.11:P50(给出了6个组的各类行为的相对频度分布),.,第七节教育中质的信息量分析(略),通过互信息的计算,研究数据的相关程度补充另一部分内容(见后),.,第八节CAI课件中的信息量,一多重选择问题的信息熵1CAI课件一般是面向问题的CAI课件中的问题:、判断题、多重选择题、填空题、匹配题2若干种多重选择问题的应答分布的信息熵计算:,.,3小结:学生应答均匀分布时,信息熵H最大;H的大小不仅与应答分布有关,还与预选答案数有关,引入相对信息熵,可以避免这种不可比较性。,.,二课件评价也是通过计算各个问题的信息熵来进行三学习状态的描述学习开始阶段:学生学习不稳定。应答随机性较大,相应地信息熵也较大;学习正常阶段:学生学习趋于稳定。应答随机性较小,相应地信息熵也较小。图2.15:P58(a)表示学习开始,学习不稳定;(b)表示学习迅速趋于稳定。,.,补充:利用互信息量的计算确定学习效果(互信息在标准化试卷评分中的应用)标准化试卷,便于计算机处理,一般是是非判断题,多重选择题,但学生可能猜对,例如是非判断题,学生猜对的概率可达1/2。引入:考试过程可以看着信息传输过程,试卷为信息源,考生的思维为信道,学生的答卷为老师接收到的信息,因此可以用互信息作为平分标准,每道题的互信息之和为试卷总分。,.,一是非题判断题信息传输分析设有n道题,其中正确答案为“对”和“错”的各占一半(1/2)考生回答正确的概率为P,如图:,Y,.,可知:P(T)=P(F)=1/2P(T/T)=P(F/F)=PP(F/T)=P(T/F)=1-P联合概率:P(T,T)=P(T)P(T/T)=P/2P(T,F)=P(T)P(F/T)=(1-P)/2P(F,T)=P(F)P(T/F)=(1-P)/2P(F,F)=P(F)P(F/F)=P/2,.,计算如下:信源熵H(X)=1只有两种状态(且是均匀分布)疑义度:H(X/Y)=-P(xi,yj)logP(xi/yj)=-P(T,T)logP(T/T)+P(T,F)logP(T/F)+P(F,T)logP(F/T)+P(F,F)logP(F/F)=-PlogP+(1-P)log(1-P)互信息:I(X;Y)=H(X)-H(X/Y)=1+PlogP+(1-P)log(1-P),.,这里要求:P大于等于(1/2),否则全部是猜对的,比如某生全部打“错”就对了一半,但他实际上什么也不会。试卷成绩:=n*I(X;Y)=n*H(X)-H(X/Y)=n*1+PlogP+(1-P)log(1-P)当P=1/2时,1+PlogP+(1-P)log(1-P)=0故试卷成绩=0得分分布图:如下所示,.,.,二多
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 湿地公园水生植物种植及生态景观设计施工协议
- 高端工业模具技术改造质量跟踪及服务合同
- 土地储备项目补偿款支付及延期协议
- 影视作品兼职配音员合作协议
- 商务办公租赁收益分配合同
- 电视剧组武术替身人员酬劳结算合同
- 儿童抚养费用与父母收入比例调整合同
- 家庭经济状况联动子女抚养费用调整合同
- 海外房产投资风险评估与风险控制咨询协议
- 苏科版2025年中考数学三轮冲刺专题-数学思维及能力含答案
- 2022年江苏泰州市第四人民医院招考聘用高层次人才11人(必考题)模拟卷及答案
- 新加坡sm214th面经44踏水行歌
- 产科输血-ppt课件
- 国家职业技能标准 (2021年版) 公共营养师
- 森林防火PPT课件
- 多合规政策及流程变化对照版
- 钢箱梁的制作及安装方案
- 工程测量毕业设计毕业论文
- 一元二次方程四种解法知识点与练习题(包括十字相乘法)
- 水平四篮球行进间运球教学设计
- 雨露计划职业教育补助学籍证明四川
评论
0/150
提交评论