




全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
-精选财经经济类资料- -最新财经经济资料-感谢阅读- 1 藏文字母的信息熵 摘要:随着科技的发展,各类电 子产品的日益增多,藏文文字的使用量 也日益得到扩大,藏文输入法、藏文各 类电子词典等软件的问世,这就迫使藏 文文字需要结构化、数字化、规范化, 做这些工作要了解藏文字母的信息熵。 本人用扩大容量的方法统计了藏文字母 的信息熵,并用 zipf 定律进行了理论上 的说明。 中国论文网 /1/view-12999825.htm 【关键词】信息熵 藏文信息处 理 藏文字母 zipf 信息熵的一个重要应用领域就是 自然语言处理。熵是反映语言的数学面 貌的一个重要的信息论参数,信息熵是 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 2 消除不确定性所需信息量的度量,也即 未知事件可能含有的信息量。本人把藏 文字母分为 30 个字母与 4 个元音共计 34 个字符,用扩大容量的方法统计了藏 文字母的信息熵。 1 扩大藏字容量的方法计算藏文 字母信息熵 如果随机试验有 n 个结局,而这 些结局是不等概率的。设第 r 个结局的 概率为 Pr,那么,这个随机试验结局的 熵 H 用下述公式计算: 在公式(1)中,因对数以 2 为 底,故熵的单位是比特。且 HO。在相 当长的文句中,藏文字母出现概率 n 近 似地等于它的出现频率。例如,在文句 的总次为 28427 个字次时, “?” 字出现 的次数为 2691 次,那么, “?” 率为 pr=2691/28427=0.0947。我们把藏字出 现的总次数称为文句长度,用 N 表示, 在文句出现了不同的藏字称为藏字容量, 用 n 表示。根据公式(1)计算出在不 同文句长度、不同藏字容量时,34 个藏 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 3 文字母在不计空格与结束符时的熵如表 1。 从表 1 我们可以看出,随着藏字 容量 n 的扩大,熵值 H 相应增大,而当 藏字容量 n 继续扩大 2644 时,熵值 H 的增加就变得比较迟缓了。 下面,我们画出藏语文句中包含 一个藏文字母中的熵 H 随着藏字容量 n 的增加而变化的图像。横坐标表示藏字 容量 n,纵坐标表示包含在一个藏文字 母中的熵 H,如图 1 所示。 随着藏字容量的扩大,文句中常 用藏文字母的出现概率逐渐趋于稳定, 不会有明显的增大。例如,常用藏文字 母“?”在不同的藏字容量中由公式 pr=fr/N 计算出的出现概率如表 2。 从表 2 中可看出,当藏字容量较 小时,随着藏字容量由 1244 扩大到 4813, “?”字出现概率由 0.0844 增加到 0.1035,在区间(O,0.1035)内,- prlog2 Pr 随着 pr 的增加而增加。 我们可以借助于数理语言学中著 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 4 名的 Zipf 定律来求出藏字容量达到某个 值时,使熵值稳定的藏字容量 n。把文 句中的字母出现概率递减的顺序排列起 来,并且顺次从 1 到 L 编上号码,造出 这个文句的字母表。如表 3 所示。 随着字母表中编号数目 r 的增大, 相应的字母在文句中出现概率 pr 逐渐 减小,r 由 1 增大到 L,pr 就由 Pl 减小 到 PT。 pr 与 r 之间的关系,可用公式 pr=k/r (2) 式中,r 表示词在此表中的号码, pr 表示号码为 r 的词的出现概率,由 实验测出,k=0.11824。藏文字母出现 概率情况如表 4。 在根据公式(1)求熵时,各个 字母的出现概率 pr 应该满足条件n=l pr=1,把 Zipf 定 2 总结 本人使用扩大藏字容量的办法计 算了 30 个藏文字母与 4 个元音的信息 -精选财经经济类资料- -最新财经经济资料-感谢阅读- 5 熵,得出了当藏字容量达到 2644 时, 包含在一个藏文字母中的熵为 4.437615。并且从理论上证明了,如果 再进一步扩大藏字容量,这个熵值不会
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国乳酸行业投资价值研究报告
- 2025年中国朝天辣椒粉市场调查研究报告
- 2025年中国数码仪表市场调查研究报告
- 襄阳科技职业学院《信息可视化》2023-2024学年第二学期期末试卷
- 肇庆市实验中学高中生物:伴性遗传第课时的集体备课教案模版
- 2025至2031年中国继电耦合型接线端子排行业投资前景及策略咨询研究报告
- 新疆体育职业技术学院《汽车专业英语》2023-2024学年第二学期期末试卷
- 2025-2030年中国ORC发电行业发展深度测评及投资可行性预测研究报告
- 新疆医科大学《英语视听二》2023-2024学年第二学期期末试卷
- 信阳艺术职业学院《职业定位发展》2023-2024学年第一学期期末试卷
- 2025-2030中国生物质能发电行业市场现状供需分析及投资评估规划分析研究报告
- 夫妻债务转让协议书范本
- 普法宣讲杨立新-民法典-人格权 编【高清】
- 2023中国电子科技集团有限公司在招企业校招+社招笔试参考题库附带答案详解
- 2025年房地产经纪人(业务操作)考前必刷综合题库(800题)附答案
- 桌球助教合同协议
- 电商行业10万字PRD
- 2024-2025学年八年级下学期道德与法治期中模拟试卷(一)(统编版含答案解析)
- 10.2 保护人身权(课件)-2024-2025学年七年级道德与法治下册
- 高一下学期《双休时代自由时间背后暗藏残酷筛选+你是“猎手”还是“猎物”?》主题班会
- GB/T 26354-2025旅游信息咨询服务
评论
0/150
提交评论