《教育信息处理》PPT课件.ppt_第1页
《教育信息处理》PPT课件.ppt_第2页
《教育信息处理》PPT课件.ppt_第3页
《教育信息处理》PPT课件.ppt_第4页
《教育信息处理》PPT课件.ppt_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,第二章 教育信息熵,第一节 基础知识,第二节 熵的概述,第三节 信息熵的实际应用,一、随机事件的概念,(一)随机现象 1.随机现象 带有随机性、偶然性的现象。 当人们在一定的条件下对它加以观察或进行试验时,观察或试验的结果是多个可能结果中的某一个. 而且在每次试验或观察前都无法确知其结果,即呈现出偶然性. 或者说,出现哪个结果“凭机会而定”。,2.随机现象的统计规律性 在一定条件下对随机现象进行大量观测会发现某种规律性。,举例: 一门火炮在一定条件下进行射击,个别炮弹的弹着点可能偏离目标而有随机性的误差,但大量炮弹的弹着点则表现出一定的规律性,如一定的命中率,一定的分布规律等等。 测量一物体

2、的长度,由于仪器及观察受到的环境的影响,每次测量的结果可能是有差异的. 但多次测量结果的平均值随着测量次数的增加逐渐稳定于一常数,并且诸测量值大多落在此常数的附近,越远则越少,因而其分布状况呈现“两头小,中间大,左右基本对称”。,“天有不测风云”和“天气可以预报”有矛盾吗?,“天有不测风云”指的是随机现象一次实现的偶然性. “天气可以预报”指的是研究者从大量的气象资料来探索这些偶然现象的规律性.,3.研究随机事件统计规律的意义 了解发生意外人身事故的可能性大小,确定保险金额。 了解来商场购物的顾客人数的各种可能性大小,合理配置服务人员。 了解每年最大洪水超警戒线可能性大小,合理确定堤坝高度。,

3、(二)随机试验 如果每次试验的可能结果不止一个,且事先不能肯定会出现哪一个结果,这样的试验称为随机试验。 寿命试验 测试在同一工艺条件下生产出的灯泡的寿命。,(三)随机事件 1.定义 在一次试验中可能发生也可能不发生的事件称为随机事件,简称事件。 随机事件的发生具有偶然性,在大量重复试验中,随机事件的发生又具有某种规律性。,基本事件 (相对于观察目的不可再分解的事件) 复合事件 (两个或一些基本事件并在一起,就构成一个复合事件),如在掷骰子试验中,观察掷出的点数,事件 Ai =掷出i点 i =1,2,3,4,5,6,事件 B=掷出奇数点,事 件,2.两个特殊的事件 必然事件 即在试验中必定发生

4、的事件。 不可能事件 即在一次试验中不可能发生的事件。 举例:在掷骰子试验中, “掷出点数小于7”是必然事件; “掷出点数8”则是不可能事件。,3.样本空间 把随机试验的每个基本结果称为样本点,记作e 或。全体样本点的集合称为样本空间。样本空间用S或表示。,样本点e,如果试验是将一枚硬币抛掷两次,则样本空间由如下四个样本点组成:,S=(H,H), (H,T), (T,H), (T,T),样本空间在如下意义上提供了一个理想试验的模型:,在每次试验中必有一个样本点出现且仅有一个样本点出现。,如果试验是测试某灯泡的寿命:,则样本点是一非负数,由于不能确知寿命的上界,所以可以认为任一非负实数都是一个可

5、能结果,故样本空间,S = t :t 0,引入样本空间后,事件便可以表示为样本空间的子集。,例如,掷一颗骰子,观察出现的点数,S = i :i=1,2,3,4,5,6,样本空间:,事件B就是S的一个子集,B = 1,3,5,B发生当且仅当B中的样本点1,3,5中的某一个出现.,二、事件的概率,在充分多次试验中,事件的频率总在一个定值附近摆动,试验次数越多,一般来说摆动越小。这个性质叫做频率的稳定性。 这个定值称为事件的概率,记为P(A)。 例如,在抛掷一枚硬币的实验中,出现正面的概率P(A)=1/2。,例如,若我们希望知道某射手中靶的概率,应对这个射手在同样条件下大量射击情况进行观察记录.,若

6、他射击n发,中靶 m发,当n很大时,可用频率m/n作为他中靶概率的估计.,医生在检查完病人的时候摇摇头“你的病很重,在十个得这种病的人中只有一个能救活. ”当病人被这个消息吓得够呛时,医生继续说“但你是幸运的.因为你找到了我,我已经看过九个病人了,他们都死于此病.”,医生的说法对吗?,返回,什么是熵?没有什么问题在科学史的进程中曾被更为频繁地讨论过。 普利高津 熵理论对于整个科学来说是第一法则。 爱因斯坦,一、信息量的表示,熵是1865年作为热力学的一个重要概念引入的。信息理论中的熵是从不同的观点引入的,两者间虽有相同的数学形式,但它们并没有什么直接的联系。 我们大_都喜_使_计_机。 我_大

7、_使_机。,教育中人们接受信息典型事例 例1 现有A、B、C、D、E五名学生,以他们作为候选人需从中选出一名学生作为学生代表。 对于这种五选一的系统,设定每一名学生被选中的可能性是一样的,被选中的概率都是1/5。这是对五选一系统的一种不完全的知识,也是一种不确定的认识。 选拔的结果是A被选中。当我们得到了A被选中的消息后,我们对五选一系统的知识从不完全到完全,对五选一系统的认识从不确定到确定。它表明“A当选”的消息使我们的知识量增加了,即它具有一定的信息量。,若讨论的系统是n选一的系统,显然,n越大,选拔前的不确定性就越大,选拔结果公布后,它给予人们的知识量就越多,即人们从公布结果中所得到的信

8、息量就越大。这种信息量的多少与n的大小成比例的增加。为此,我们以 来定义信息量。这是一种以2为底的对数,其单位为字位(bit)。若对数是以e或10为底,H的单位为nit或bit。,例2 设某一系统中包含有n个事件,每一事件产生的概率都是 ,此时的信息量为: 这是一种等概率事件的系统。对该式予以扩展,设某一事件产生的概率为p,则信息量由下式定义: (2-2)式中的负号是由1/p所产生的,它使H的计算结果为正数。,二、信息熵,例1 设概率系统中有n个事件,每一事件产生的概率为: 当事件I产生后,给予我们的信息量为对于n个事件构成的概率系统,每一事件产生的平均信息量为: (2-3)H为信息熵。,例2

9、 设某一系统具有四种状态A1、A2、A3、A4,其产生的概率分别为:1/2、1/4 、1/8 、1/8 该系统中任一状态产生是所给予的平均信息量为:若概率系统为连续系统,其概率分布为p(x),该系统的熵由 (2-4)所表示。,三、熵的意义,熵的大小可用于表示概率系统的不确定程度。 例1 设某一概率系统中,每一事件产生的概率分布为:(1, 0,0)它表示,该系统中某一事件产生的概率为1,其他事件产生的概率为0,这是一个确定系统,不确定度为0。计算该系统的信息熵,有H=0。,例2 设某一概率系统中,其概率分布是均匀的,它表示系统中每一事件产生的概率相等。对于这样的系统,我们很难预测某一事件的产生,

10、这种系统的不确定性最大。该系统的信息熵具有最大值(在相同事件数的情况下)。以上讨论的是两种极端的情况,我们来考察两个中间状态。 例:两个中间状态 设概率系统A、B得分布为: P(A)=(0.5 ,0.5 ,0 ,0 ,0 ),P(B)=(0.5 ,0.125 ,0.125 ,0.125 ,0.125 ) 试比较它们哪一个系统的不确定程度大。分析 通过A、B系统信息熵的计算,有由此可以判定系统B的不确定程度是系统A的两倍。,四、信息熵的基本性质,1.单峰性 例设某一系统包含两个事件A、B,其产生的概率分别为p和1-p。该系统的熵为,当p为0时,H=0。这是一种A产生的概率为0,B产生的概率为1的

11、确定系统。同样,若p为1,H=0。这是一种A产生的概率为1,B产生的概率为0的确定系统。若 ,则 它表示A、B事件产生的概率相同,H具有极大值,这是一种不可预测的不确定系统。对这样的系统予以扩张,设系统中具有n个事件,其中某一事件产生的概率为1,其他事件产生的概率为0,该系统的熵H=0。若系统中每一事件产生的概率相同,均为1/n,这种系统的H为最大值。,2.对称性,3.渐化性,4.展开性,5.确定性,五、相对熵,英语这样的自然语言中,包括空格在内,总共使用了27种字符。若每个字符出现的概率相同,且都是1/27,这样的英语系统具有最大熵,其熵值为: 实际系统中,字符的使用并非相互独立地、等概率的

12、随机排列的,字符的使用受着各种规则,条件所制约。在这种英语系统中,每一种字符出现的概率是不同的,某一些字符出现的频度高,例如空格和E;某一些字符出现的平度低,例如Q和Z。,以相对信息熵h来表示熵减少的程度。 信息熵的计算与系统中事件数的多少有关,它不利于我们对不同系统的熵进行比较。相对信息熵的计算有利于我们对不同系统的信息熵进行比较。,六、冗余度,基于相对信息熵,我们称: 为冗余度。冗余度表示了由于每种字符出现的概率不同而使信息熵减少的程度。显然,由于信息熵的减少,为了表示相同的内容,相同的信息量,文章的字符数要多一点,这就是文章的冗余性。,返回,一、测试问题信息熵的计算,学习者对多重选择问题

13、的应答概率分布可能有多种不同的情况:(1)(0,0,0,0)计算相应的应答信息熵H: (2)(0.5,0.125,0.125,0.125,0.125)计算相应的应答信息熵:,(3)(0.5,0.5,0,0,0)计算相应的应答信息熵: (4)(0.2,0.2,0.2,0.2,0.2)计算相应的应答信息熵:,对于应答情况,学习者对预选答案1的选择概率为1,对其他预选答案的选择概率为0,表示学习者在选择应答时,一定是预选答案1,这是一种完全确定的选择应答,表明该问题过于简单,学习者可以毫不费劲地予以正确应答。 对于应答情况,学习者的应答选择分布是等概率的,它表明这种问题的应答选择是不确定的。学习者在

14、应答时,不能很容易地进行判断、选择,这是一种较难的问题。,二、等价预选项数,等价预选项数是指将实测的应答分布,换算成与之具有等熵的均匀分布的预选项数。,现有三个多重选择问题,每一个问题都有五个预选项,经测试,学习者对每一预选项选择应答的频度分布如图所示。图中,横轴表示预选项,纵轴表示频度。,图 (a)的概率分布为(0.5,0.5,0,0,0),它表示学习者的应答集中在两个预选项,且各为50%。这样的问题,虽有五个预选项,实际上可认为等价于两个预选项。同样,对于图 (b)、(c)的概率分布(0.5,0.125,0.125,0.125,0.125)、(0.4,0.3,0.2,0.1,0.0)也可引

15、入等价预选项的概念对预选项的有效性进行评价。,三、对不确定程度的判断,信息熵表示了像多重选择问题这类测试问题学习者应答的不确定程度。 给定的问题是:从外观上看,12个小球完全相同,在这12各小球中,仅有一个小球的重量与其他小球不一样。请使用天平,能否在三次以内找出这个重量不同的小球,并且指明该小球比其他小球是重还是轻。,四、教学过程的信息量分析,1.分类系统 教学过程是一种教师与学生间以语言进行信息传递的过程,教学过程可以通过教师与学生语言 序列的记录来表述。当我们对教学过程中,教师与学生的语言行为进行适当地分类,并以这种分类,可对教学过程进行客观地表现。若这种分类、表述着眼于分析的目的,我们

16、称之为相互作用分析,若这种分类,表述着眼于记述方法,我们称之为分类分析。,教师、学生语言行为的分类有多种不同的方法,至今已有一百多种,比较有影响的分类系统有Flanders分类系统(1968年)和VICS(Verbal Interaction CategorySystem)等。,信息熵H=2.939bit,2.类别总数与熵,类别总数中,最大的为334,最小为28,平均为131.9。由于分类系统是基于教师,学生的语言行为分类的,所以第二组体育教学的平均类别数少于其他各组的类别总数。利用教学中测试的分类数据序列,经统计可得到各种类别数据的频率分布,即教学过程中各类行为产生频度分布,由此可计算出每一

17、节课的信息熵。,各组的类别总数与熵的关系,数据所属的组别以相应的组别序号所表示。数据的分布范围由组别号(1),(2),(6)所指示的椭圆所圈定。各组数据基本位于该组数据的椭圆圈内。,可以清楚地看出第二组的体育数据与其他课程的分布完全不同。 各组数据表明类别总数与熵基本上具有正相关的关系,但第五组数学的数据是负相关。 第一组和第四组是社会科学的教学,由于指导教师的不同,数据及其分布具有很大的差异。第一组的熵值较大,类别总数较小。与之对应,第四组的类别总数较大,且分散,这表明教学指导较为灵活,自由度较大。,第六组理科教学的数据分布很广,其中,右上方的数据是指导教师教学的数据。该数据表明,教学的类别

18、总数较大,这与授课时间的长短有关,此外,一个重要特点是熵较大。这是由于指导老师教学中类别的多样性所致。,3.不同学科类别频度分布的比较,在教师行为中,按“1提示”,“5接受”,“2指示”,“4广义提问”,“3狭义提问”,“ 6拒否”这样的顺序排列。除“6拒否”仅占51%外,其他各种行为均有一定的频度。“4广义提问”在各组数据中,其频度的大小几乎都是一样的。在学生的行为中,几乎都是“7向教师的应答”。对教师的发言,向其他学生的反应等行这频度很小,这是因为本数据为微格教学的依据,实习教师都是一些没有教学经验的学生。,各种类别的频度中,“6教师的拒否”、“8学生向其他学生的反应”、“10学生向其他学

19、生的发言“等行为频度都不满1%。类别8、类别10的频度是由于微格教学的特点所造成的。我们比较各组的数据,发现组(2)(体育)与其他各组数据的频度分部不同,其频度几乎都集中在教师的提示和指示的行程为上。正如前面所提到的那样,本分类系统是基于语言行为的分类系统,对于体育教学中的某些行为没有列入。,除组(2)的频度分布外,其他各组的频度分布形状大体相同。所需注意的是,组(1)中,类别1,2的频度分布与其他各组正好相反,即教师的提示少于教师的指示,这是由于指导教师的原因,与之相同的组(4)就不是这样的频度分布。从提问来看,与组(5)的算术教学相比较,组(1)、(4)的社会教学中,狭义的提问较少,这种倾

20、向与课程的性质有关。,五、CAI课件中的信息量,1.多重选择问题的信息熵 (1) 设学习者对具有两种预选答案问题的应答分布为: (1/2,1/2)其信息熵为 (2) 设学习者对具有三种预选答案问题的应答分布为: (1/2,1/4,1/4)其信息熵为,(3)设学习者对具有四种预选答案问题的应答分布为: (1/2,1/4,1/8,1/8)其信息熵为 (4)设学习者对具有四种预选答案问题的应答分布为: (1/4,1/4,1/4,1/4)其信息熵为,(5)设学习者对具有五种预选答案问题的应答分布为: (2/5,1/5,1/5,1/10,1/10)其信息熵为H=2.12bit。 均匀分布的H最的(如1、4所示),但这是在相同答案数情况下的比较。,2. 课件评价 从问题、课件所具有的学习功能来看,问题的信息量越大,表示学习者应答分布的分散性越大,问题的信息量越小,表示学习者应答分布越集中。,设某一问题学习者的应答分布为: (1/5,1/5,1/5,1/5,1/5)这种分布具有最大信息熵。它表示学习者的应答选择十分分散。这样的问题具有较大的“迷惑性”,学习者在选择应答时,需要进行认真的思考才能予以选择。这样的问题促使学习者进行深入的思维。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论