版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1中文信息处理技术原理与应用〔二〕北京信息科技大学计算机学院李宝安2第二章
汉字编码输入原理
汉字和汉字属性汉字编码输入方法汉字键盘码的笛卡尔积集分析汉字信息的熵值海曼公式与汉字编码的键盘特性汉字编码输入方法简易评测方法汉字编码输入方法专业评测方法汉字键盘码的译码问题有关中文输入技术现状与开展的几个问题3汉字和汉字属性汉字开展及其分级汉字的结构分析汉字的字音和字义汉字的排序汉字的属性4汉字开展及其分级据考古发现的甲骨文实物的考证,中国古代汉字的记载可追溯到公元前1300年,至少已有3000多年的历史。汉字的形态,可以归纳出它包括象形字、表意字、形声字和假借字。最早可以考证的甲骨文汉字约有3000个左右。目前中国日常通用的汉字过6000~7000个。其它五万多个属生僻字,却仍然保存在古籍资料,以及某些人名、地名等中使用。目前,六万字以外新造汉字几乎已无必要,而用某些汉字衍生新词那么不断有所开展。虽然现代汉字已压缩到6000~7000之数,但仍然是一个庞大的数字,作为文字信息处理时有不方便之处。和英文的26个字母相比,是一种“大字符集”。实际应用中,这些数量的汉字并不是频率均等地使用的,应按照使用频度对它们分级。GB2312-80根本集,一级字3755个,二级字3008个,共6763个。5汉字的结构分析位点按照目前用计算机处理汉字的,构成点阵式汉字字模的最小单位是“位点”,也就是二进制信息中的一位。笔画楷书汉字的根本笔画有六种。即一,丨,丿,乀,,乚这六种笔形,按其方向来区分,可以分为两类:1、单向笔画,如一,丨,丿,乀,ノ2、复向笔画,如弯笔〔,乛,>〕拐笔〔乚,巜,<〕实际上,在按笔形编码的汉字输入方案中,根据需要,可以另行定义其它的复笔结构,以提高汉字的编码效率。部首汉字部首的数量也较大,楷体汉字共有部首214个,作为传统的部首一直沿用到现在。实用角度出发,适当地简化部首,把汉字部首简化到100个左右字根单字6字根字根是汉字形体的根本结构单元。字根这一概念,通常人们对它比较模糊。同时也无统一的选择标准。在名称上也存在多种叫法,例如,称作字母、形母、部件、组件、字元、构件、符号等。字根的数目,也无一定标准,少的可选数十个,多至二三百,甚至四五百个。实际上,字根可以从通用的二百多个部首的根底上,根据应用情况需要,做出选择。过少或过多都不相宜。在按字型分解的汉字编码输入方案设计中,为了获得高的编码效率,要严格选择字根数目。在按字形分解的汉字编码方案设计中,除了采用一些根本部首作的字根外,在部首的根底上,按需要添加某些笔画,作为补充的字根,有助于提高编码效率。汉字字根可以分为单结构字根和复结构字根。只有一笔画就形成一个独立结构的字根,称作单结构字根,二笔画或多笔画形成一个独立结构的字根,称作复结构字根。构成字根的笔画间有“单、散、连、交”四种形式。只有单笔关系的字根是:一,丨,丿,乀,,乚;只有散笔关系的字根如:二,三,八,习,夕,冫,氵;只有连笔关系的字根如:工,厂,匚,歹,卜,止,冂,月,口,足,日,目,四;只有交笔关系的字根如:十,犭,乂,卄,卅;兼有散、连二种关系的字根如:彳,讠,衤,疒;兼有散交二种关系的字根如米,卜;兼有连、交二种关系的字根如:耳,王,大,禾,巾;散、连、交三种关系都有的字根如雨,西,舟,鱼。7单字单字的字根构成种类:按照单字中所含字根数目的多少,可以分为四类:〔1〕
单根单字,如:一,女,十,木,口,日,马,又,力,…,等。〔2〕
二根单字,如:从,劝,权,旦,早,杏,另,…,等。〔3〕
三根单字,如:树,查,曼,驾,萌,盟,…,等。〔4〕四根〔或多根〕单字,如,楂,碳,疑,爵,壹,恣,…,等。字的字型分类:字型是单字结构的字根相互间的结构类型,可以分成四种。〔1〕独体型。由单式、连式、交式字根组成的单字,结构紧密,单独成为一体,这样的构型称作独体型。单式独体型如:三,石,鱼,米,山,…,等,属于单根结构。连式独体型如:天,下,千,少,尺,…,等,属于复根连笔结构。交式独体型如:夫,丈,事,秉,半,坐,…,等,属于复根交笔结构。〔2〕左右型。单字内分成左根和右根二半,中间有一定间隙的散式构型,称为左右型。例如,相,鸠,邢,炳,锉,…,等〔3〕上下型。单字内分成上根和下根二半,中间有一定间隙的散式构型,称为上下型。例如,杏,英,蚕,杂,岩,…,等〔4〕包围型〔又称内外型〕。单字内一个内根被一个外根全部或局部包围的散式构型,称为包围型。例如,全包围的单字,如囚,困,…,等三个方向包围的单字,如冈,罔,凶,区;两个方向半包围的单字,如这,历,司。8汉字的字音和字义汉字的字音汉字的发音由汉语的发音而来。构成语音的最小单位,称为“音素”。音素中包括元音音素和辅音音素两类。汉语普通话共有元音音素6个,辅音音素22个。一个元音可以单独成为一个音节;一个辅音那么必须配合一个以上的元音才能构成一个音节。一个汉字的发音就由一个音节构成。在以字音为根底的汉字编码方案中广泛应用的一种方法称为声韵双拼法。把每个汉字的发音局部,分解成声母和韵母二局部。声母相当于辅音,韵母那么相当于元音。可以归纳出22个声母;35个韵母。严重的情况,可以举出同一声、韵、和音调可以对应有数十个、甚至超出一百个字的情况。假设用汉语发音作为汉字信息的输入,必须要采取其它有效的措施。汉字的字义汉字的字义也很复杂。成千上万个汉字,一般汉字,每个字常有2~5种意义,多的达6~9种意义。在信息处理中,单独使用汉字的字义作为输入方法是不可能的。但在有些编码输入方案中,利用字义作为辅助的区分汉字特征的手段。9汉字的排序
流水排序法
拉丁字母排序
拆字定码排序法
10汉字的属性汉字字量汉字字形汉字字体使用频度汉字的发音汉字字义汉字排序汉字信息交换码11汉字编码输入方法
整字输入方法汉字编码输入方法纯字形汉字编码方法形、音〔或形、音、义〕结合编码方法音、形结合编码方法----例如声、韵、部、形编码方法纯音汉字编码方法人机交互式汉字简码输入方法12汉字键盘码的笛卡尔积集分析汉字键盘码可以被看成是由它的各种字形属性元素〔如字根、偏旁、或部首〕,或发音属性元素〔如声母、韵母〕,以及其它属性元素以一定的规那么组合而成。把按一定次序排列的有关属性元素组成的序列称为“有序组”,也即构成某个汉字的代码。当有序组〔a1,a2,a3,…an〕的客体分别是A1,A2,A3…An元素,即ai∈Ai〔i=1,2,3,…n〕时,有序组的全体组成一个代码集合,把它称作A1,A2,A3…An的n维笛卡尔积集。可表示成:A1×A2×A3×…An={〔a1,a2,a3…an〕|ai∈Ai〔i=1,2,…,n〕}其中Ai称为ai的属性集。
13属性集n的大小增大减小覆盖的汉字集较大,键盘码码长增加,冗余代码增加覆盖的汉字集较小,键盘码码长变短,重码率增加图2-1汉字属性集数目与键盘码码长和编码效率的关系14汉字信息的熵值
汉字信息的熵值定义为在某个一定的范围内〔例如在一个给定的字符集中〕确定一个汉字所需要的平均信息量〔单位为二进制位〕的最小值。如汉字集中汉字数量为N,要在N中确定某个汉字,假设每个汉字使用的概率是相等的情况,平均信息量的最小值为log2N。考虑到不同的汉字使用频度是不相等的,设第i个汉字的使用频度为Pi,那么汉字信息的熵值可表示为:汉字信息的熵值是对汉字的一个统计特性。它给出代码信息量在理论上的最小平均值。不同的编码方法,对同一个汉字集进行编码时,所用的信息量〔键盘码信息〕不同。把理论上的最小值〔即汉字信息的熵值)与实际编码所用的信息量之比称作编码效率,可以对编码方案的编码效率做出定量的计算和评价。H(汉字)=-∑Pilog2Pini=115海曼公式与汉字编码的键盘特性
汉字键盘码是利用汉字的根本笔画或字根等字形属性或汉字发音属性等元素构成的有序组,组成对应汉字的键盘代码。所用的键元的数目必定比汉字集中汉字数目大为减少。但键盘的键元数目太多,不利于熟练操作。而且从键盘的通用性方面考虑,使用通用的字符键盘是最经济的。因此,日前绝大多数汉字编码方案的设计都利用英文字符键盘作为输入工具。键元数K和击键操作时的反响时间,一般可用如下的经验公式来表示:T=a+b.log2K而实际上,各个键元的使用频度是不相等的,因此较准确的海曼公式应为:T=a+b.H(K)其中H(K)是对应键元的熵值,H(K)定义如下:
上式中Pi是第i个键元的使用频度,n是所用键元的数目。H(K)=-∑Pilog2Pin
i=116汉字编码输入方法简易评测方法
给出一种简易评测方法,即五星图方法。一般来说,要选择一种汉字输入编码方法,主要从编码方法的性能来考虑,具体有5个方面:1.易学性编码规那么要简单明了,没有特殊规那么或尽可能地少。2.可用性在编码中,二义性和重码尽可能少,但不必强求为零。词汇码、外字处理方便。3.高速性码长尽可能短,键位设计易于盲打,键入速度尽可能高。4.通用性编码规那么独立于具体设备,适用于通用标准设备。5.经济性对主机软硬件无特殊要求,价格合理,便于维护。17易学性可用性高速性通用性经济性易难廉贵强弱低高好差易学性可用性高速性通用性经济性易难廉贵强弱低高好差18汉字编码输入方法专业评测方法
属于定量性质的技术指标
属于定性性质的技术指标
19属于定量性质的技术指标1.编码汉字集的容量。即所用编码方案可以表示的汉字键盘码的数量。2.码元数。编码方案所采用的汉字属性元素的数目。3.码元的熵值。可由下式计算出码元的熵值〔平均最小信息量〕。其中k为码元数,Pmi为第i个码元的使用频度。4.汉字信息的熵值。在一个汉字集中〔如GB2312-80根本集〕完全确定一个汉字所需的平均最小信息量。可由下式计算出汉字的熵值:其中n为汉字集中汉字的总数〔如为6763个〕,Pi是第i个汉字的使用频度。5.平均键盘码长度。平均每个汉字键盘码所用码员的个数。非等长码应包括分隔用的空格符。6.编码效率。理论码长的最小值〔即汉字熵值〕与该编码方案得出的实际平均码长之比。表示为:其中L为平均键盘码码长,log2K为各个码员使用频度相同时的码元熵值。H(K)=-∑Pmilog2Pmini=1H(汉字)=-∑Pilog2Pini=1L.log2Kη=H(汉字)×100%20属于定量性质的技术指标7.输入速率。在单位时间内〔如一分钟内〕,用某种编码方案键入汉字的个数。
8.重码数。由以下公式计算:重码数C=重码字数—重码组数9.重码率。定义如下:10.非常规代码数。为了区别按某种编码规那么产生的重码字,以及按照根本的编码规那么无法得出的某些汉字代码,需要补充定义一些特殊的规那么,由此得出的汉字代码即为非常规代码。11.多码数。按照某种编码规那么,使得一个汉字有多个代码和它对应。
12.错码率。错码出现次数占全部字数的百分比。13.学习曲线。根据实际学习过程中的实测数据,绘制的键入速率相对学习时间的变化曲线,以及错码率相对学习时间的变化曲线。
14.编码操作学习期。从开始学习编码输入操作开始,错码率下降到1%所需要的时间〔以天或小时计算〕。15.外字数量。该编码方案所能覆盖的指定汉字集以外的汉字数量。L.(a+b.log2K)S=60字/分钟Pc(重码率)=∑∑Pijni=1j=1m21属于定性性质的技术指标
1.编码方案的论证是否合理和充分。2.编码规那么的繁简程度;编码规那么对用户操作要求的上下;编码规那么的逻辑性和规律性是否简明。3.编码方案是否存在不能覆盖的集内字;对集外汉字所要附加的编码规那么的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- GB/T 40980-2026生化制品中还原糖的测定
- 工业园区物业触电应急演练脚本
- 排烟风机技术条件标准(2025版)
- 劳动关系协调员三级考前模拟考试理论试卷含答案
- 2026年三级劳动关系协调员技能理论考试题库及答案(浓缩50题)
- 劳动关系协调员考试题及答案
- CN119954921A 谷子控制分蘖数目和有效穗数基因Sisd1及其应用
- 2026年跨境电商物流仓储服务升级合同协议
- 鼓膜萎缩护理查房
- 计算机网络基础 课件 项目一 初始计算机网络
- 核心素养导向下的小学五年级英语Unit 3 What would you like 大单元教学设计与实施教案
- 20kV及以下配电网工程预算定额(2022版)全5册excel版
- 《排球正面双手垫球 移动垫球》教案
- 装备维护员中级题库(292道)
- 建筑材料教学课件06建筑砂浆
- 高中英语2024届高考应用文常见亮眼句型(共十八类)
- ISO 15609-1 2019 金属材料焊接工艺规程和评定-焊接工艺规程-电弧焊(中文版)
- 小学语文心理健康教育案例分析
- 文旅融合和文化旅游
- 惠州市龙门县事业单位真题2023
- 电动吸引器简要操作流程图
评论
0/150
提交评论