


全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浅谈汉字字母分类方案评判标准文字字母化实质上是一种信息编码方式。一个字母,就是一个编码元,简称码元;字母的数量,就是编码元的数量,简称码元数。一个优秀的信息编码方案,不仅要求它的码元数要少,而且要求它的编码长度要短,重码率要低。所谓编码长度,是指表达某一信息所需的编码位数,简称码长。例如,用两个码元来表示一个信息,那么,它的码长就是2。为了从总体上比较信息编码方案的优劣,下面我们使用的是平均编码长度这个技术指标,其计算公式为: 所谓重码率,是指重码数量占编码总数量的百分比,其计算公式为: 在比较汉字字母分类方案时,平均编码长度是指平均每个汉字是由多少个汉字字母组成的,重码是指不同的汉字具有相同的汉字字母组合,或者说,同一汉字字母组合表示出了两个或者更多个汉字,重码率是指具有相同汉字字母组合的汉字数量占字符集汉字总数的百分比。由此可见,信息编码方案的优劣是由码元数、码长和重码率三大因素决定的。同样,一个优秀的汉字字母分类方案应当满足以下四大要求:第一,汉字字母的定义要尽量简单、统一,具有极强的规律性;第二,汉字字母数量(码元数)要尽量少;第三,汉字的平均字母组合长度(平均编码长度)要尽量短;第四,汉字的相同字母组合数量(重码率)要尽量少。 上述第一、二条要求是相互关联的,因为汉字字母数量越少,汉字字母的定义就越简单;上述第二、三、四条要求是相互矛盾、此消彼长的,因为在相同码长的条件下,码元数越少,重码率就越高;在相同重码率的条件下,码元数越少,平均编码长度就越长;在相同码元数的条件下,平均编码长度越短,重码率就越高。所以,要制定出一个优秀的汉字字母分类方案,就要在这三大因素的变化中寻求平衡,寻求最优解。经研究发现,有个技术指标直接关系到信息编码方案的码元数、平均编码长度和重码率,这个技术指标就是各个编码元的编码次数。下面我们举例来说明这个技术指标的极端重要性。假如我们用四位数00009999来分别表示10000个汉字,就像电报码、区位码那样,每个汉字只对应一个四位数。四位数的编码总数为10000万个,我们也将编码总数称之为编码空间。用于汉字编码的四位数叫做有效编码,有效编码数量与编码总数的比值,叫做编码空间利用率。 本汉字数字编码方案的编码总数为10000个,有效编码数量也是10000个,编码空间利用率为100%。仔细分析这些数字编码,我们发现,每个编码元的编码次数都是相等的,都在编码表上出现了4000次。由此推论,让编码空间利用率达到100%的必要条件是每个编码元的编码次数必须是相等的,或者说,在编码表上,每个编码元的出现次数是相等的,用术语来说,就是各个编码元的分布情况是非常均匀的。如果用坐标图来表示的话,各个编码元的分布情况为一条水平线(见下图)。 考虑一个极端情形,在本方案中,如果数字0不出现,即数字0的编码次数为0,那么,有效编码数量将从10000个下降到6561个,编码空间利用率将从100%下降到65.61%;如果数字5也不出现,即数字0和5的编码次数为0,那么,有效编码空间将进一步下降到4096个,编码空间利用率仅有40.96%。表现在坐标图上,各个码元的分布情况不再是一条水平线,而是一条折线(见下图)。 由此可见,各个码元的分布折线越平滑,峰值波动越小,越接近于水平线,说明各个码元的编码次数越接近,编码空间利用率就越高,所对应的重码率就越低,所允许的码元数就越少,编码长度就越短。在本例汉字数字编码方案中,码元数为10,编码长度为4,重码率为0,达到了码元数最少、编码长度最短、重码率最低三大要求,照理说,这是个最优秀的汉字数字编码方案,只可惜这些汉字数字编码是无理据编码,与汉字的音、形、义之间没有任何联系,人们无法从汉字的各种信息中推导出这些数字编码,而必须死记硬背每个汉字数字编码。要实现有理据的汉字编码,就要从汉字字形、字音、字义信息中推导出汉字编码。比如,汉语拼音本质上就是一种汉字语音编码,它是借用拉丁字母来给汉字字音编码的,共有26个拼音字母,所以,汉语拼音的码元数为26。汉语拼音是由16个拼音字母组成的,常用汉字平均由3.21个拼音字母组成,所以,汉语拼音的编码长度为16,平均编码长度为3.21。在新华字典上共有407个汉语拼音,所以,汉语拼音的编码数量为407个。26个拼音字母的16位组合共有3.21亿个,所以,汉语拼音的编码空间为3.21亿个,编码空间利用率只有万分之1.27。所以,汉语拼音的重码率非常高,同音字非常多。利用汉字字形、字音、字义信息给汉字编码,人们无法做到像上例中那样让各个码元的编码次数完全相等,只能让各个码元的编码次数尽量接近,让各个码元的分布折线尽量平滑,峰值波动尽量小些。这为我们评判汉字字母分类方案提供重要依据,即在其它条件相同或者相近时,哪个方案
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人才激励机制研究-第1篇-洞察及研究
- 神经影像技术在儿童认知研究中的应用-洞察及研究
- 脆弱性区域识别-洞察及研究
- 数字化影像保存策略-洞察及研究
- 元宇宙旅游目的地的跨文化营销策略-洞察及研究
- 基于物联网的远程监控技术-第1篇-洞察及研究
- 水肥一体化技术对茶园土壤肥力影响-洞察及研究
- 法律顾问时薪服务协议
- 安全管理资质考试题库及答案解析
- 网络安全法竞答题库及答案解析
- 2025年盘锦市总工会面向社会公开招聘工会社会工作者52人考试参考试题及答案解析
- 2025河北水发节水有限公司公开招聘工作人员16人笔试参考题库附答案解析
- 新版中华民族共同体概论课件第十二讲民族危亡与中华民族意识觉醒(1840-1919)-2025年版
- 夜间红外成像算法优化-洞察及研究
- 书店服务礼仪培训课件
- 设备点巡检基础知识培训
- 2025-2026学年辽师大版(三起)(2024)小学英语四年级上册(全册)教学设计(附目录)
- 曲阜师范大学毕业论文答辩课件模板课件
- 谢好网金字塔教学课件
- 人教版二年级数学上册第一单元测试卷(含答案)
- 2025至2030复合磨机衬板行业发展趋势分析与未来投资战略咨询研究报告
评论
0/150
提交评论