



免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
实验一信息熵的表示和计算(实验估计时间:120 分钟)1.1.1 背景知识信息熵是美国贝尔实验室数学家仙侬(SHANNON)在1948年他的通讯数学理论那篇文章中首先提出的. 仙侬也因此获得了现代信息通讯技术之父的美称. 他对信息通讯的贡献可以说是对世纪进入信息时代奠定了最重要的基础理论. 要简单说信息熵(ENTROPY)的概念很不容易,不过你只要把它看做是信息的一种数量化的衡量尺度就八九不离十了. 就象世界原来并没有时间这个东西,但是处于测度生命和运动过程的需要,人们发明了时间的概念.同样,信息原本并没有测度标准,但是出于衡量信息传递量和速度的需要,仙侬先生发明了对于信息的一个度量方法,这就是信息熵,它的单位是BIT. 为什么用BIT? 因为在二次大战结束后,世界通讯领域发展很快,电报,电话,电传等普及了,而这些以电脉冲为信号载体的设备的最基本的结构就是只具有两种状态的开关(继电器). 所以二进制的通讯信号已经是最普及的信息通讯编码方式,以它作为信息的测度尺寸也是最自然的选择. 以英文为例看如何计算信息熵. 我们都知道英文使用26个字母,如果我们把字母在所传输信息中出现的频率看做是随机的,而且具有同样的概率. 那么要传输26个字母中的任何一个就至少需要4个多BIT才够(4位最大是16个,5位最大是32个,26个字母介于两者之间). 当然,每个字母在传输信息中出现的概率不可能一样,比如 A是1/16; 是1/13; .Z是1/126;(它们的和是1),那么通过计算可以得出英文的信息熵是4.03(根据参考文章介绍的数据). 2n = X; 其中 X 就是传输信息所需要的字符集的大小减去它的冗余度. 公式: H(信息熵) = - Pi log2(Pi); Pi:为每个字母在信息中出现的概率; 计算公式并不复杂. 取以2为底的对数的道理也很简单,因为如果: 2n = X 的话,那么logX = n; 所以可以看出所谓信息熵就二进制的字符集在去掉冗余度后的二进制编码位数.冗余度是通过统计每个字符出现概率获得的。 小知识冯志伟先生将仙侬的信息熵的计算用于非拼音的汉字字符集的信息熵的计算,这是一项工作量很大的任务.因为我们都知道,汉字的字符集很大,常用的有6-7000个,当然随着字符集的扩大,每个汉字出现的概率是不同的,有些罕用字的出现概率几乎是零.他们计算出的结果是9.3X. 这个测度的结论说明汉字在去掉冗余后,最短的信息传输字位需要9.3个BIT. 英文的信息熵是4.03,而计算机最初设计时的ASCII码是8位的,留有足够的空间. 那末如果当初是为汉字设计计算机的话,就至少需要留有18位,二个字节多. 这是一个什么成本概念? 在计算机研制的初期,总线宽度,内存大小可都是可以和黄金比的价格,更不要提设计的复杂程度的增加和早期集成度能否实现的问题了. 单是这一点就可以推论出使用汉字的人是不可能发明或创造计算机的. 现在再回到我们上面题目中的问题,信息熵的概念适用于汉字吗? 仙侬计算公式中的第一个假设就是字符在信息中出现的概率是随机的,而汉字在信息中出现频率是否是随机的呢? 这个问题就决定了汉字最后的计算结果. 因为我们通过上面的计算公式可以知道,如果每个汉字出现的频率不是随机的,比如说是均等的(一个极端情况),那么汉字的信息熵就会出现最大值并随着汉字的字数的增加而增加. 因为我们完全可以根据题目不同或作者的不同,而写出使用不同汉字字数的文章. 汉字的信息出现是随人的表达需求而变的,不是随机的,因为每一个汉字都它的意义. 26个英文字母在平均出现时的信息熵是4.7BIT,而去掉冗余度后的英文字母的信息熵是4.03BIT. 然而6000个汉字的平均出现时的信息熵是12.55BIT,当使用7000个平均出现的汉字是汉字的信息熵是12.77BIT,至于使用的汉字个数达到冯先生计算的12366个极限汉字时的信息熵是13.59,它们和使用概率计算的结果9.3相差太悬殊(和英文比起来).所以如何统计每个汉字的出现概率成了最后决定汉字信息熵的最大因素. 而每个汉字的出现概率又是如此的主观(或因人而异). 我对9.3的结果持某种怀疑。1.1.2 实验目的(1)掌握信息熵的基本概念。(2)以学生评教数据的分析为例,学会用信息熵的知识处理教育中的实际问题。1.1.3 工具/准备工作1. 学生评教数据分析思路。学生评教是教师教学评价的重要组成部分,很多学校为了使评价结果更科学、更能表现教师真实的教学水平,根据学校自身情况,选用更适合的测量参照标准,如目标参照标准(以某些具体目标作为评定标准);常模参照标准(以某一研究对象的集体平均水平作为评定的标准) ,自我参照标准(以研究对象自身在某一时期或状态的特征作为评定标准)。然而,无论教师教学评价采用哪种测量标准,反馈给教师的往往只是一个依据某个测量标准的评定分数,该分数不能将评价结果所隐含的更详细、更明确的信息表现出来,比如分数相同的两位教师的教学水平差异;教学哪个方面还存在问题,问题的具体原因所在等。请你自己设计方案,利用信息熵的单峰性,对称性,确定性等性质,深入分析学生评教的评价结果,目的是在为教师管理提供更科学、可靠依据的同时,帮助教师发现教学中的问题,剖析问题的具体原因,以便教师改进教学,提高教学水平。2. 准备足够的学生评教原始数据。1.1.4 实验内容与步骤1. 整理学生评教原始数据。(至少选择两位教师分别整理)2. 计算总分和各评价指标的单项总分。3. 分别计算总分值的概率、各分值出现的概率。4. 利用概率,分别计算相关信息熵,并与相应分数结合,比较两位教师的数据,分析得出结论。分析过程的参考理论知识:(1) 确定性。熵的大小表示了概率系统的不确定程度。信息熵越大,说明学生对教师在某个评价指标上的评价越分散,越不确定;相反,信息熵越小,说明学生对教师的评价越一致,信息越确定。(2) 单峰性与对称性。对于一个被评价教师来说,在每条评价指标的十个量度中,如果所有学生均选择了其中一个度量,无论选择的是哪个度量,说明选择某一度量的概率为1,而其他量度的概率为0,由熵的定义表达式可知,此时信息熵H = 0,表明学生对教师在该项指标上的评价是一致的。而当学生选择十个量度的概率相同时,信息熵(H = log2 10)为最大值,此时表明学生在对教师该项指标的评价上,分歧很大。此种情形,信息熵取得唯一的极值。另外,评价量度位置的互换并不会影响学生对教师的评价结果。信息熵的值仅与学生对教师评价量度的概率有关,由信息熵的定义表达式不难推知,信息熵具有对称性。(3) 可加性。由于0 pi 1,所以每一事件(量度)发生所传达的信息量: Hi = - log2 pi 0, 则信息熵H = - pi log2 pi 0。因此,信息熵具有可加性。信息熵之和,同样具有信息熵的各种性质。可以通过熵值分析向教师及管理者提供某些指导性信息。(4) 在应用信息熵分析学生评价结果时,必须以简单总分作参照。设参与每位教师评价的学生为n,学生评教量表总评价指标数为m,评价体系包括t个方面,一级评价指标下的二级指标条目分别为ct(m = c1 + c2 + + ct );学生i对二级评价指标j的评分记为Pij (1in, 1jm,);将学生所评价教师记为v 。所谓简单记分,是指学生对教师v的评价量度的相应简单记分的算术平均分,它包括三个层次: (1)总分简单记分(记为U) ,即学生对教师v评价总分的算术平均分为; (2)单方面简单记分(记为T) ,即学生就一级指标t对同一教师进行评价,将教师v在该一级指标下每个二级评价指标的算术平均分为,(此时,0jct )(3)单项指标简单记分(记为S) ,即全体学生在二级指标j上对教师v的评价等级的相应赋值分的算术平均分为。简单记分可以从直观上看出学生对某个教师的总体评价情况,在某种程度上可以反映被评价教师的教学水平,但简单记分也忽略了很多详细的反馈信息。各层次的简单记分及各种信息熵的功能不同,因此应用信息熵于学生评教结果分析时,也应从总信息熵,单方面信息熵,及单项指标信息熵入手对教
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 班组每月安全培训表内容课件
- 家庭类型分类课件
- 外卖店铺运营课件
- 气修技术技能测试题及答案
- 高级技术考试题库及答案
- 工商银行2025台州市秋招群面案例总结模板
- 农业银行2025景德镇市秋招群面案例总结模板
- 2025年3D打印技术的快速成型效率
- 交通银行2025锡林郭勒盟秋招无领导模拟题角色攻略
- 2025年3D打印技术的成本效益分析
- 2025四川蜀道建筑科技有限公司招聘16人考试模拟试题及答案解析
- 第1课 认识工具教学设计-2025-2026学年小学书法西泠版三年级上册-西泠版
- 第3课 中华文明的起源 课件( 内嵌视频)部编版七年级历史上册
- 体育模拟上课培训课件
- 2025年秋新人教版数学二年级上册全册教案
- 标准件供货协议合同范本
- 2025广东茂名信宜市总工会招聘社会化工会工作者4人笔试备考试题及答案解析
- 纳税申报流程课件
- 2025年在线少儿英语培训行业当前发展趋势与投资机遇洞察报告
- 石油管道保护施工方案
- 循环水泵设备安装方案详细指导
评论
0/150
提交评论