Shannon怎样测定英语字母的熵值

上传人：t*** IP属地：河南上传时间：2020-04-02 格式：DOCX 页数：6 大小：130.76KB 积分：15 举报 版权申诉

免费预览已结束，剩余1页可下载查看

下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

ShannonShannon 怎样测定英语字母的熵值怎样测定英语字母的熵值冯志伟早在 1928 年 L Hartley 哈特利就提出了如何测量信息量大小的问题他认为如果某个装置有 D 个可能的位置或物理状态那么两个这样的装置组合起来工作就会有 D2个状态三个这样的装置组合起来工作就会有 D3个状态随着装置数量的增加整个系统的可能的状态树木也相应地增加为了测定其信息能力要使 2D 个装置的能力恰恰为 D 个装置的能力的 2 倍因此 Hartley 把一个装置的信息能力定义为 logD 其中 D 是整个系统可以进入的不同的状态数目在信息论中 Shannon 采用了 Hartley 的这种办法来测定熵值 Shannon 提出如果我们做某一有 n 个可能的等概率结局的随机试验例如掷骰子 n 6 那么这个随机试验的熵就用 log2n 来度量这种度量熵的方法是合理的理由如下第一随机试验的可能结局 n 越大这个随机试验的不定度也就越大因而它的熵也就越大第二如果我们同时做包含两个随机试验的复合试验每一个随机试验有 n 个可能的结局例如同时掷两颗骰子那么这个复合试验有 n2个结局其熵等于即等于只掷一颗骰子时的二倍这与 Hartley 的看法完全一致第三如果我们同时做包含两个随机试验的复合试验一个随机试验有 m 个可能结局另一个随机试验有 n 个可能结局例如投硬币时 m 2 掷骰子时 n 6 那么这个复合试验有 m n 个可能的等概率结局也就是说这个复合试验的熵应该等于 log2mn 另一方面我们又可以认为这个复合试验结局的熵应该等于构成这个复合试验的两个随机试验结局的熵之和即等于 log2m log2n 但是我们知道可见复合试验结局的熵不论是把它看成一个统一的试验还是看成两个随即试验的总和都是相等的这些事实都说明了我们用 log2n 来度量熵的合理性我们把有 n 个可能的等概率结局的随机试验的熵记为 H0 这时的熵叫做 1 比特这意味着如果某一消息由两个等概率的语言成分构成那么包含于每一个语言成分中的熵就是 1 比特如果随机试验有 n 个结局而且它们是不等概率的那么第 i 个结局的概率为 pi 那么这个随机试验的熵 H1用下面的公式来计算 1951 年 Shannon 首先应计算出英语字母的不等概率独立链的熵 H1为 4 03 比特随机试验结局不等概率减少了这个随机试验的不定度因此有不等式对于计算机科学工作者来说定义熵的最直观的办法就是把熵想像成在最优编码中一定的判断或信息编码的比特数的下界假定我们想在我们住的地方给赛马场的赛马下赌注但是赛马场距离我们住的地方太远我们不亲自到赛马场去只好在我们住的地方给赛马场登记赌注的人发一个短的消息告诉他我们给哪匹马下赌注假定有八匹马参加比赛给这个消息编码的一个办法是用二进制代码来表示马的号码这样号码为 1 的马的二进制代码是 001 号码为 2 的马的二进制代码是 010 号码为 3 的马的二进制代码是 011 等等号码为 8 的马的二进制代码是 000 如果我们用一天的时间来下赌注每一匹马用比特来编码每次比赛我们要发出 3 比特的信息我们能不能把这件事做得好一点呢我们可以根据赌注的实际分布来传送消息假定每匹马的先验概率如下马 1 1 2 马 5 1 64 马 2 1 4 马 6 1 64 马 3 1 8 马 7 1 64 马 4 1 16 马 8 1 64 马的先验概率对于这些马的随机变量 X 的熵可以让我们知道其比特数的下界计算如下每次比赛平均为 2 比特的代码可以这样来编码用最短的代码来表示我们估计概率最大的马估计概率越小的马其代码越长例如我们可以用 0 来给估计概率最大的马编码按照估计概率从大到小的排列其余的马的代码分别为 10 110 1110 111100 111101 111110 111111 如果我们对于每一匹马的概率估计都是一样的情况将如何呢前面我们已经看到如果对于每一匹马我们都使用等长的二进制编码每匹马都用 3 比特来编码因此平均的比特数为 3 这时的熵是一样的吗是的在这种情况下每匹马的估计概率都是 1 8 我们选择马的熵是这样计算的与熵有密切关系的是困惑度 perplexity 这个概念如果我们把熵 H 作为 2 的指数那么 2H这个值就叫做困惑度从直觉上我们可以把困惑度理解为在随机试验中选择随机变量的加权平均数因此在等概率估计的 8 匹马之间进行选择这时熵 H 3 比特困惑度为 23 也就是 8 在概率有差异的 8 匹马之间进行选择这时熵 H 2 比特困惑度是 22 也就是 4 显然一个随机试验的熵越大它的困惑度也就越大在自然语言处理中熵和困惑度是用于评估 N 元语法模型的最普通的计量方法如果考虑到前面的语言符号对后面的语言符号出现概率的影响那么可得出条件熵 Markov 链的熵就是条件熵随着 Markov 链重数的增大条件熵越来越小我们总是有这说明每在前面追加一个语言符号不会使包含在文本中一个语言符号的熵有所增加另一方面因为包含在文本的一个语言符号中的熵在任何场合总是正的所以存在着关系式也就是说熵是有下限的当 k 逐渐增加时熵逐渐趋于稳定而不再减少这时这个不再减少的熵就是包含在自然语言一个符号中的真实信息量叫做极限熵从等概率独立链的熵到不等概率独立链的熵从不等概率独立链的熵到一阶条件熵从一阶条件熵到二阶三阶一直到极限熵是语言信息结构化的体现它反映了语言的结构对于语言的信息的制约性极限熵的概念科学地把语言结构的这种制约性反映在语言符号的熵值中它对于自然信息处理的研究具有重要的意义某个模型的交叉熵可以用来作为某个随机过程的极限熵的上界我们可以使用这样的方法来估计英语的极限熵为什么我们要关心英语极限熵呢第一个原因是英语的极限熵将为我们对概率语法的试验提供一个可靠的下界另一个原因是我们可以利用英语极限熵帮助理解语言中的哪一部分提供的信息最大例如判断英语的预测能力主要是依赖于词序还是语义还是形态还是组成符号还是语用方面的线索这可以大大地帮助我们了解我们的语言模型应该着重研究哪一方面计算英语极限熵的方法通常有两种第一种方法是 Shannon 使用的方法这是他在信息论领域的开创性工作的一部分他的思想是利用受试人来构造一个信息试验要求受试人来猜测字母观察他们的猜测的字母中有多少是正确的从而估计字母的概率然后估计序列的熵值实际的试验是这样来设计的我们给受试人看一个英语文本然后要求受试人猜测下一个字母受试人利用他们的语言知识来猜测最可能出现的字母然后猜测下一个最可能的字母如此等等我们把受试人猜对的次数记录下来 Shannon 指出猜测数序列的熵与英语字母的极限熵是相同的 Shannon 这种观点的直觉解释是如果受试人做 n 个猜测那么给定猜测数序列我们能够通过选择第 n 个最可能的字母的方法重建原来的文本这样的方法要求猜字母而不是猜单词受试人有时必须对所有的字母进行穷尽的搜索所以 Shannon 计算的是英语中每个字母的极限熵而不是英语中每个单词的极限熵他报告的结果是英语字母的极限熵是 1 3 比特对于 27 个字母而言 26 个字母加上空白 Shannon 的这个估值太低了一些因为他是根据单篇的文本 Dumas Malose 的 Jefferson the Virginian 来进行试验的 Shannon 还注意到对于其他的文本新闻报道科学著作诗歌他的受试人往往会猜测错误因此这时的熵就比较高第二种计算英语的熵的方法有助于避免导致 Shannon 结果失误的单篇文本的问题这个方法使用一个很好的随机模型在一个很大的语料库上训练这个模型用它给一个很长的英语序列指派一个对数概率计算时使用 Shannon McMillan Breiman 定理例如 Brown 布朗等在 58 300 万单词的英语文本上 293 181 个型 type 训练了一个三元语法模型用它来计算整个 Brown 语料库的概率 1 014 312 个例 token 训练数据包括新闻百科全书小说官方通信加拿大议会的论文集以及其他各种资源然后他们使用词的三元语法给 Brown 语料库指派概率把语料库看成是一个字母序列从而来计算 Brown 语料库的字符的熵他们得到的结果是每个字符的极限熵为 1 75 比特这里的字符集包含了 95 个可印刷的全部 ASCII 字符这是在三元语法的情况下英语字母的条件熵显而易见这个条件熵比 Shannon 测出的熵 1 3 比特要大一些而且 Brown 使用的字符集是 ASCII 字符集包含 95 个字符很多字符超出了英语 26 个字母的界限大多数文献报道包含在一个英语字母中的极限熵大约在 0 9296 比特到 1 5604 比特之间其平均值为 1 245 比特这个计算结果与 Shannon 测定的结果 1 3 比特相近我们一般都采用这样的计算结果在实践的迫切要求下继 Shannon 测出了英语字母的不等概率独立链的熵 H1之后人们又测出了一些印欧语言的熵到目前为止英语已经测出了九阶条件熵俄语已经测出了十四阶条件熵下面我们把法语意大利语西班牙语英语德语罗马尼亚语俄语的不等概率独立链的熵 H1列表比较如下表某些语言的熵 H1 冯志伟在上世纪 70 年代模仿香农对于英语字母的熵的研究采用手工查频的方法首次估算出汉字的熵 H1为 9 65 比特并提出了汉字容量极限定理他根据 Zipf 定律使用数学方法证明了当统计样本中汉字的容量不大时包含在一个汉字中的熵 H1随着汉字容量的增加而增加当统计样本中的汉字容量达到 12366 字时包含在一个汉字中的熵 H1就不再增加了这意味着在测定汉字的熵 H1的时候统计样本中汉字的容量是有极限的这个极限值就是 12366 字超出这个极限值测出的汉字的熵再也不会增加了在这 12366 个汉字中有 4000 多个是常用字 4000 多个是次常用字 4000 多个是罕用字他认为这 12366 个汉字可以代表古代和现代文献中汉字的基本面貌由此他得出结论从汉语书面语总体来考虑在全部汉语书面语中包括现代汉语和古代汉语包含在一个汉字中的熵 H1是 9 65 比特由于当时冯志伟没有条件使用计算机查频全部工作都是手工完成的精确度难以得到保证所以冯志伟始终认为这只是他的一个极不成熟猜测 1988 年北京航空学院计算机系刘源使用计算机自动查频计算出汉字的熵 H1为 9 71 比特 1994 年新加坡国立大学计算机系赖金锭使用计算机计算出汉字的熵 H1为 9 59 比特他们的结果与冯志伟原来用手工查频方法猜测的结果是很接近的 1996 年冯志伟还根据汉语与英语文本对比首次估算出汉字的极限熵为 4 0462 比特 2006 年清华大学计算机系孙茂松孙帆在大规模语料库 106 107汉字的基础上使用 Brown 的

人人文库> 全部分类> 应用文书 > 技术指导

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

Shannon怎样测定英语字母的熵值

文档简介

温馨提示

最新文档

评论

Shannon怎样测定英语字母的熵值

文档简介

温馨提示

最新文档

评论

相关文档