第二章教育信息熵ppt课件_第1页
第二章教育信息熵ppt课件_第2页
第二章教育信息熵ppt课件_第3页
第二章教育信息熵ppt课件_第4页
第二章教育信息熵ppt课件_第5页
已阅读5页,还剩75页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第二章 教育信息熵,熵的最早提出(1865年)与热力学 熵在信息论中的地位,精选,第一节 熵的概述,一 信息量的表示 1 信息的多少与信源的不确定性有关 实例:5个学生(A、B、C、D、E)参加某项比赛, 选拔出1人为冠军,精选,2 信息量的度量与信源的不确定性 实例1:5个学生水平相差不多(接近等概率) 实例2:5个学生水平相差大(不等概率), 其中A的水平高超 问:哪一组比赛悬念更大(获得的信息量多)?,精选,3 小结:信源输出的消息可以看作是随机事件 事件出现的概率大,出现机会多,不确定程度小; 事件出现的概率小,出现机会少,不确定程度大。 即 Pi大, f(Pi)小; Pi小, f(P

2、i)大。 即 f(Pi)应是Pi的单调减函数 f(pi)=(1/pi),精选,4 信息量的可加性 单调减函数可以有很多种,用来度量信息的函数f(Pi)究竟应当是哪一种呢?有了可加性即可解决。 即 P(x1,x2)=P(x1)*P(x2) 联合概率(两个变量相互独立) 而f(P1,P2)=f(P1)+f(P2) 不确定性 可见 f(P)满足取对数的关系 f(P)=log(1/p) = -log p 它满足的两个关系: (1) 不确定性与概率的关系; (2) 可加性的要求。,精选,二 信息熵 1 平均信息量(信息熵) 一般情况下 状态空间: X: x1 , x2 xn 概率分布:P(x):P(x1

3、),P(x2) P(xn) ,且,这里假定各状态是相互独立的。,精选,出现Xi的不确定性: log(1/P(xi) 该信源每个状态的平均(加权平均)不确定性:,精选,信息熵(平均信息量):,也可以简写为:,精选,2 两种不同的单位 上面的定义式中,没有考虑对数的底a,当它取不同的底时(常取2或e),信息熵的单位为比特(bits)和奈特(nats) 1比特=0.693奈特 1奈特=1.443比特 此外,还有一个单位叫哈特(以10为底),取自人名哈特莱(Hartley),他提出了熵定义式中的对数关系。 且 1哈特=3.32比特,精选,3 例 某一系统具有四种状态(或四种事件)A1、A2、A3、A4

4、,各自的概率为: p1=1/2 ,p2=1/4 ,p3=1/8 ,p4=1/8 注意:概率和为1 计算得熵: H=1.75 (比特/状态),精选,4 连续信源 如果概率空间为连续系统,其概率分布为:p(x),对应系统的熵为:,精选,三 熵的意义 1 熵的大小表示某概率系统的不确定程度 实例1:某一概率系统的概率分布如下: (1,0,0,0) 这是一个确定性系统,计算其信息熵H=0,即该系统不确定性为0。,精选,实例2:某一概率系统的概率分布为等概率: (1/n,1/n,1/n),设该系统共有n个状态(事件) 这是一个最不确定系统,计算其信息熵H为最大,即该系统不确定性最大。 一般系统介于上述两

5、种极端情况之间。,精选,2 熵的大小表示某系统中任一状态(事件)出现后产生的平均信息量 实例1:某一概率系统的概率分布如下: (1,0,0,0) 在这个系统中,只有第一个状态出现,当它出现之后,没有给我们带来任何信息量,计算其信息熵H=0。,精选,实例2:某一概率系统的概率分布为等概率: (1/n,1/n,1/n) , 设该系统共有n个状态(事件) 在这个系统中,任何一个状态都有均等的机会出现,当某一个状态出现之后,都给我们带来最大的信息量,计算其信息熵H为最大。 一般系统介于上述两种极端情况之间。,精选,四 信息熵的基本性质 1 单峰性(极值性) 任何一个随机系统,其信息熵都有一个极大值(单

6、峰),即各状态出现为等概率时,熵为最大: H(p1,p2,pn)H(1/n,1/n,1/n) = log n 实例:一个二事件系统,概率分别为p和1-p 该系统的熵为: H=-plogp+(1-p) log(1-p) 其HP图具有单峰性(图2.1),精选,图2-1 两个事件H-P图,精选,2 对称性 H(p1,p2,p3) = H(p1,p3,p2) = H(p3,p2,p1) 说明: 1)这是由于加法满足交换率 2)这也说明熵反映了该系统的整体特性,精选,3 渐化性(递增性) 设某系统共有n个事件,现在第n个事件分裂成两个事件,概率分别为q、r (即pn = q+r),该系统的熵变为:,证明

7、(利用熵函数的表达式):作为习题,精选,4 展开性(扩展性) H(p1,p2,pn) = H(p1,p2,pn,0) = H (p1,p2,pn,0,0) 说明:某系统的事件数增加了,但这些事件的出现概率为0时,该系统的熵不变。,精选,5 确定性 H(1,0) = H(0,1)=H(1,0,0) = H(0,0,0,1) =0 6 非负性 H(p1,p2,pn) 0 小结:熵是一种描述系统总体特性的统计量,精选,第二节 相对熵与冗余度,一 最大熵 任何一个随机系统(共有n个状态),各状态出现为等概率时,且各个状态无相关性,其信息熵都有一个最大值: Hmax = log n 实例:英语用来传输信

8、息,使用26个字母,加上一个空格。 这样的系统,其最大熵为: Hmax=log 27 4.76 (比特/字母),精选,二 一般情况 一般情况下,任何一个系统(共有n个状态),各状态出现一般为不等概率,且各个状态有相关性,其实际信息熵(H)都有小于最大值,即 H Hmax = log n 实例: 1)英语字母的使用并非是相互独立的,字母间存在相关性; 2)英语字母并非等概率使用(表2.1:P33) 故:英语字母的熵通常远小于4.76(有人计算1.4),精选,三 相对熵 我们定义:h= H / Hmax 为相对熵,它便于比较两个不同事件数目的系统的信息熵。,精选,四 冗余度 定义:r=1-h=1-

9、H/Hmax= (Hmax -H)/Hmax 冗余度的含义:在传递信息时,不必要的冗长部分的比例,即为了表示某一定量的信息量,我们需要用更多的事件数。 实例:(英语字母),为了表示某一内容的文章,我们需要用更多的字母。 关于汉字的使用,精选,五 关于冗余度的讨论 1 冗余度使得信息传递的效率降低 实例:英语字母使用中的冗余度达到70%-80%, 所以英语是一种传递效率不高的语言。 2 冗余度可以提高信息传递中的抗干扰能力 实例:传输“中华人民共和国”与传输“中国”,效果是一样的,因此有一定的冗余度。 但前者在传输时,抗干扰能力更高。,精选,第三节 熵函数的展开,一 联合熵 1 信源 现有两个信

10、源:X,Y X:x1 , x2 xn Y: y1 , y2, ym P(x):P(x1),P(x2) P(xn) P(y):P(y1),P(y2) P(ym),精选,联合空间: X.Y: x1y1, x1y2, x1ym . xny1, xny2, xnym P(x.y):P(x1,y1),P(x1,y2)P(x1,ym) . P(xn,y1),P(xn,y2) P(xn,ym),精选,其中P(xi,yj)为xi和yj的联合概率 且P(xi,yj)=P(xi)*P(yj/xi)=P(yj)*P(xi/yj) 当:xi和yj相互独立时 P(yj/ xi)= P(yj) P(xi/ yj)= P(

11、xi),精选,2 二元联合信源的熵: H(X,Y)= -P(xi,yj) log P(xi,yj) 当每个信源相互独立时: H(X,Y)=H(X)+H(Y) 即联合熵等于每一个信源熵之和。 但由于相关性的存在,会减少平均不确定性 故 H(X,Y) = H(X)+H(Y),精选,3 例 考虑m=2的情况,且假定联合概率分布如下:,1/2,1/2,2/5,2/5,1/5,精选,(1) 先求出 Px(x1)=1/2 Px(x2)=1/2 Py(y1)=2/5 Py(y2)=2/5 Py(y3)=1/5 (2) 求出 H(X)= -(1/2)log(1/2)+ (1/2)log(1/2) = 1 同理

12、 H(Y)=1.522 而 H(X)+H(Y)=2.522 (比特/事件),精选,(3) H(X,Y) = -P(x1,y1)logP(x1,y1)+ P(x1,y2)logP(x1,y2) +P(x1,y3)logP(x1,y3) +P(x2,y1)logP(x2,y1) +P(x2,y2)logP(x2,y2) +P(x2,y3)logP(x2,y3) = -(1/20)log(1/20)+(7/20)log(7/20) +(1/10)log(1/10)+(7/20)log(7/20) +(1/20)log(1/20)+(1/10)log(1/10) = 2.157,精选,显然 H(X,Y

13、)= H(X)+H(Y) 2157 2.522,精选,二 条件熵 1 概率关系 把联合概率P(xi,yj)=P(xi)*P(yj/xi)代入 H(X,Y)= - P(xi,yj)logP(xi)*P(yj/xi) = - P(xi,yj)logP(xi) - P(xi,yj)logP(yj/xi) = - P(xi)logP(xi) - P(xi,yj)logP(yj/xi) = H(X)+ H(Y/X),精选,2 条件熵 上式中的 H(Y/X)= - P(xi,yj)logP(yj/xi) 叫做给定X时关于Y的条件熵 它表示:已知X时关于Y还保留的平均不确定性,精选,3 讨论: (1)联合熵

14、表示将XY作为一个整体看待时,总的平均不确定性H(X,Y)等于X的不确定性与已知X后关于Y的不确定性H(Y/X)的和 (2)如果X和Y独立,则 H(Y/X)=H(Y) 这时H(X,Y)= H(X)+ H(Y),精选,(3)反之,若Y完全由X决定,因而已知X即可确定Y,不再有任何不确定性, 即 H(Y/X)=0 这时H(X,Y)= H(X) (4) 一般情况下: 0= H(Y/X)= H(Y) 即条件熵永远小于或等于无条件熵 (5) 由于X与Y之间存在的对称性 ,可得 H(X,Y)= H(Y)+ H(X/Y),精选,4 互信息 定义: I(X,Y)=H(X)+ H(Y)- H(X,Y) 为信源X

15、和信源Y的互信息。 通过变换,可得: I(X,Y)=H(X,Y)- H(X|Y)- H(Y|X),精选,5 关于几个熵的关系: H(X),H(Y),H(X,Y),H(Y/X),H(X/Y),I(X;Y) 三 Kullback信息量(略) 第四节 熵模型 (略),精选,第五节 测试问题信息量,一 测试问题信息熵的计算 1 多重选择题(设有5个备选答案) 几种应答分布: 1)(1,0,0,0,0), 应答信息熵:H=0 2)(1/2,1/8,1/8,1/8,1/8),应答信息熵:H=2 3)(1/2,1/2,0,0,0), 应答信息熵:H=1 4)(1/5,1/5,1/5,1/5,1/5) 应答信

16、息熵:H=log5 通过信息熵的计算,我们能够得到这些测试问题的难易程度和学生的学习能力倾向,可以作为测试问题的评价及其指标。,精选,二 等价预选项数 题目分析:难度,区分度 这里主要讨论选择题:除了难度与区分度,还有一个问题:就是对题目各备选项的有效性作出评价,精选,1 等价预选项数 令i=1,2,3m为选择题的一个选项,Pi为考生选择第i项的概率,则该选择题的熵: H = - Pi logPi 讨论:某一个Pi=1,其它选项无人选,此时:H=0,分散程度最小 每一个Pi=1/m,每个选项均匀分布,此时:H=log m(最大)分散程度最大。 如图所示,精选,图2-8 等价预选项目的数据,精选

17、,由于H是熵(平均信息量) 设H与回答均匀地分布于K个(不是m个,而是小于或等于m个)选项时的信息量相等(原来是m个答案非均匀的分布) H= -(1/K)log (1/K) = log K 可得 K= 2H 这就是等价预选项数(佐藤隆博定义),精选,例 某题有5个选项,根据回答先求出H,再计算K H约为1.531, 计算出K=2.89 这意味着:虽然有5个选项,但结果等价于均匀地分布在大约3个选项上。 把熵表达式代入等价选预项数公式: 得 K = 2- Pi logPi = Pi-Pi 改错:(2-29):P45,精选,这里,我们不用求熵,就可以直接求出等价预选项数K,而且K与log Pi中的

18、底无关。 当各选项等概时,H和K取最大值: 即:Hmax = log m Kmax = m,精选,选项项数的范围,Pr,在图中r:为选择题的正确选项,Pr:考生选择正确选项的概率,图中三条曲线包围的面积属于K的合理范围,超过此范围时,要对题目进行检查。 注意:K与Pr有关,精选,三条曲线: Kmax:当选择正确答案的概率为Pr时,选择另外的m-1个选项(诱惑项)的选答概率相等=(1-Pr)/(m-1)时,K取极大值; Kmin: 当选择正确答案的概率为Pr时,只有某一个诱惑项有人选,概率为(1-Pr)时,K取极小值; K=1/Pr:要求Pr1/K,即选择正确答案概率高于平均值所得。,精选,计算

19、例:m=5 Pr=0时, Kmax=4 , Kmin=1 Pr=1/5时,Kmax=5 , Kmin=1.6 Pr=1/2时,Kmax=4 , Kmin=2 Pr=1时, Kmax=1 , Kmin=1 总结:理想的题目分布模式是,在保证一定的答对率的条件下,对疑惑项的选择人数应接近于均匀分布,也就是说,K的取值应接近于上图中的Kmax。,精选,三 对不确定程度的判断 1 问题:12个外观相同的小球,仅有一个重量不同(可能轻、重) 请使用天平,能否在三次以内找出该问题球?,精选,2 求解方法: 某事件系统产生的信息熵 = 消除的不确定性 (1)设问题球出现的概率为1/12; 设问题球比正常球轻

20、(重)的概率为1/2; (2)要发现问题球并知其轻(重)所需要的信息量: -log(1/12)-log(1/2) = log12 + log2 = log 24 = 4.585,精选,(3)天平称一次,能确定左边轻、右边轻、或者平衡, 获得的信息量(消除的不确定性) =log 3 =1.585 而4.585/1.585 2.9 (4) 故至少需要3次使用天平,才可以找出问题球 注意:这里并没有研究具体的策略和方法,精选,第六节教学过程的信息量分析,一 分类系统 教学过程中的语言行为分类; VICS:Verbal Interaction Category System(语言交互分类系统) 微格教

21、学的语言行为分类: (如表所示:),精选,精选,各类行为的频度分布: 图2.9 即: 1:24; 2:16; 3:9; 4:15 5:16; 6:3; 7:16;8:3; 9:8 计算出信息熵 H =2.939 (比特/行为状态),精选,二 类别总数与熵 继续上面的例子(49个教师、学生进行微格教学的数据)(如表所示) 共分为6个组,每一组的数据都是基于教师、学生的语言行为进行分类的,再统计出各类别数据的频度分布,根据这些频度分布计算出每一节课的信息熵。,精选,各组的数据类别总数与熵的关系: (如图2.10所示) 1)类别总数与熵呈正相关(第五组例外); 2)不同的组,类别总数多的教学,不一定

22、熵就大,精选,三 不同学科类别频度分布的比较 上面的表述,只是根据类别总数计算出了熵,并没有确定哪些类别是多少?不能根据学科的特色进行分析和指导 图2.11:P50(给出了6个组的各类行为的相对频度分布),精选,第七节 教育中质的信息量分析(略),通过互信息的计算,研究数据的相关程度 补充另一部分内容(见后),精选,第八节 CAI课件中的信息量,一 多重选择问题的信息熵 1 CAI课件一般是面向问题的 CAI课件中的问题:、判断题、多重选择题、填空题、匹配题 2 若干种多重选择问题的应答分布的信息熵计算:,精选,3 小结:学生应答均匀分布时,信息熵H最大; H的大小不仅与应答分布有关,还与预选

23、答案数有关, 引入相对信息熵,可以避免这种不可比较性。,精选,二 课件评价 也是通过计算各个问题的信息熵来进行 三 学习状态的描述 学习开始阶段:学生学习不稳定。应答随机性较大,相应地信息熵也较大; 学习正常阶段:学生学习趋于稳定。应答随机性较小,相应地信息熵也较小。 图2.15:P58 (a)表示学习开始,学习不稳定; (b)表示学习迅速趋于稳定。,精选,补充:利用互信息量的计算确定学习效果 (互信息在标准化试卷评分中的应用) 标准化试卷,便于计算机处理,一般是是非判断题,多重选择题,但学生可能猜对,例如是非判断题,学生猜对的概率可达1/2。 引入:考试过程可以看着信息传输过程,试卷为信息源

24、,考生的思维为信道,学生的答卷为老师接收到的信息,因此可以用互信息作为平分标准,每道题的互信息之和为试卷总分。,精选,一 是非题判断题信息传输分析 设有n道题,其中正确答案为“对”和“错”的各占一半(1/2) 考生回答正确的概率为P,如图:,Y,精选,可知:P(T)=P(F)=1/2 P(T/T)=P(F/F)=P P(F/T)=P(T/F)=1-P 联合概率:P(T,T)=P(T)P(T/T)=P/2 P(T,F)=P(T)P(F/T)=(1-P)/2 P(F,T)=P(F)P(T/F)=(1-P)/2 P(F,F)=P(F)P(F/F)=P/2,精选,计算如下: 信源熵H(X)=1 只有两

25、种状态(且是均匀分布) 疑义度:H(X/Y)=-P(xi,yj)logP(xi/yj) = - P(T,T)logP(T/T) + P(T,F)logP(T/F) + P(F,T)logP(F/T) + P(F,F)logP(F/F) = - P log P+(1- P)log(1-P) 互信息:I(X;Y)=H(X)-H(X/Y) = 1+ P log P+(1- P)log(1-P),精选,这里要求:P大于等于(1/2),否则全部是猜对的,比如某生全部打“错”就对了一半,但他实际上什么也不会。 试卷成绩: = n * I(X;Y)= n*H(X)-H(X/Y) = n * 1+ P log P+(1- P)log(1-P) 当P=1/2时,1+PlogP +(1-P)log(1-P)=0故试卷成绩=0 得分分布图:如下所示,精选,精选,二 多项选择题信息

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论