中文信息处理技术原理与应用二_第1页
中文信息处理技术原理与应用二_第2页
中文信息处理技术原理与应用二_第3页
中文信息处理技术原理与应用二_第4页
中文信息处理技术原理与应用二_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文信息处理技术原理与应用二汉字和汉字属性汉字发展及其分级汉字的结构分析汉字的字音和字义汉字的排序汉字的属性3汉字发展及其分级据考古发现的甲骨文实物的考证,中国古代汉字的记载可追溯到公元前1300年,至少已有3000多年的历史。汉字的形态,可以归纳出它包括象形字、表意字、形声字和假借字。

最早可以考证的甲骨文汉字约有3000个左右。目前中国日常通用的汉字过6000~7000个。其它五万多个属生僻字,却仍然保留在古籍资料,以及某些人名、地名等中使用。目前,六万字以外新造汉字几乎已无必要,而用某些汉字衍生新词则不断有所发展。

虽然现代汉字已压缩到6000~7000之数,但仍然是一个庞大的数字,作为文字信息处理时有不方便之处。和英文的26个字母相比,是一种“大字符集”。实际应用中,这些数量的汉字并不是频率均等地使用的,应按照使用频度对它们分级。GB2312-80基本集,一级字3775个,二级字3008个,共6763个。4汉字的结构分析位点

按照目前用计算机处理汉字的,构成点阵式汉字字模的最小单位是“位点”,也就是二进制信息中的一位。

笔画

楷书汉字的基本笔画有六种。即一,丨,丿,乀,,乚这六种笔形,按其方向来区分,可以分为两类:1、单向笔画,如一,丨,丿,乀,

ノ2、复向笔画,如弯笔(,乛,>)拐笔(乚,巜,<)实际上,在按笔形编码的汉字输入方案中,根据需要,可以另行定义其它的复笔结构,以提高汉字的编码效率。

部首汉字部首的数量也较大,楷体汉字共有部首214个,作为传统的部首一直沿用到现在。实用角度出发,适当地简化部首,把汉字部首简化到100个左右

字根

单字

5字根字根是汉字形体的基本结构单元。字根这一概念,通常人们对它比较模糊。同时也无统一的选择标准。在名称上也存在多种叫法,例如,称作字母、形母、部件、组件、字元、构件、符号等。构成字根的笔画间有“单、散、连、交”四种形式。只有单笔关系的字根是:一,丨,丿,乀,,乚;只有散笔关系的字根如:二,三,八,习,夕,冫,氵;只有连笔关系的字根如:工,厂,匚,歹,卜,止,冂,月,口,足,日,目,四;只有交笔关系的字根如:十,犭,乂,卄,卅;兼有散、连二种关系的字根如:彳,讠,衤,疒;兼有散交二种关系的字根如米,卜;兼有连、交二种关系的字根如:耳,王,大,禾,巾;散、连、交三种关系都有的字根如雨,西,舟,鱼。6单字单字的字根构成种类:按照单字中所含字根数目的多少,可以分为四类:(1)

单根单字(2)

二根单字(3)

三根单字(4)四根(或多根)单字。字的字型分类:字型是单字结构的字根相互间的结构类型,可以分成四种。(1)独体型。由单式、连式、交式字根组成的单字,结构紧密,独自成为一体,这样的构型称作独体型。(2)左右型。单字内分成左根和右根二半,中间有一定间隙的散式构型,称为左右型。(3)上下型。单字内分成上根和下根二半,中间有一定间隙的散式构型,称为上下型。(4)包围型(又称内外型)。单字内一个内根被一个外根全部或局部包围的散式构型,称为包围型。

7汉字的字音和字义汉字的字音汉字的发音由汉语的发音而来。构成语音的最小单位,称为“音素”。音素中包括元音音素和辅音音素两类。汉语普通话共有元音音素6个,辅音音素22个。一个元音可以单独成为一个音节;一个辅音则必须配合一个以上的元音才能构成一个音节。一个汉字的发音就由一个音节构成。在以字音为基础的汉字编码方案中广泛应用的一种方法称为声韵双拼法。把每个汉字的发音部分,分解成声母和韵母二部分。声母相当于辅音,韵母则相当于元音。可以归纳出22个声母;35个韵母。严重的情况,可以举出同一声、韵、和音调可以对应有数十个、甚至超出一百个字的情况。若用汉语发音作为汉字信息的输入,必须要采取其它有效的措施。

汉字的字义

汉字的字义也很复杂。成千上万个汉字,一般汉字,每个字常有2~5种意义,多的达6~9种意义。在信息处理中,单独使用汉字的字义作为输入方法是不可能的。但在有些编码输入方案中,利用字义作为辅助的区分汉字特征的手段。8汉字的排序

流水排序法

拉丁字母排序

拆字定码排序法

9汉字的属性汉字字量汉字字形汉字字体使用频度汉字的发音汉字字义汉字排序汉字信息交换码10汉字编码输入方法

整字输入方法

汉字编码输入方法

纯字形汉字编码方法形、音(或形、音、义)结合编码方法

音、形结合编码方法----例如声、韵、部、形编码方法

纯音汉字编码方法人机交互式汉字简码输入方法11汉字键盘码的笛卡尔积集分析汉字键盘码可以被看成是由它的各种字形属性元素(如字根、偏旁、或部首),或发音属性元素(如声母、韵母),以及其它属性元素以一定的规则组合而成。

把按一定次序排列的有关属性元素组成的序列称为“有序组”,也即构成某个汉字的代码。当有序组(a1,a2,a­­­­­3,…an)的客体分别是A1,A2,A3…An元素,即ai∈Ai(i=1,2,3,…n)时,有序组的全体组成一个代码集合,把它称作A1,A2,A3…An的n维笛卡尔积集。可表示成:A1×A2×A3×…An={(a1,a­2,a3…an)|ai∈Ai(i=1,2,…,n)}其中Ai称为ai的属性集。

12图2-1汉字属性集数目与键盘码码长和编码效率的关系13汉字信息的熵值

汉字信息的熵值定义为在某个一定的范围内(例如在一个给定的字符集中)确定一个汉字所需要的平均信息量(单位为二进制位)的最小值。

如汉字集中汉字数量为N,要在N中确定某个汉字,若每个汉字使用的概率是相等的情况,平均信息量的最小值为log2N。考虑到不同的汉字使用频度是不相等的,设第i个汉字的使用频度为Pi,则汉字信息的熵值可表示为:汉字信息的熵值是对汉字的一个统计特性。它给出代码信息量在理沦上的最小平均值。

把理论上的最小值(即汉字信息的熵值与实际编码所用的信息量之比称作编码效率,可以对编码方案的编码效率做出定量的计算和评价。H(汉字)=-∑Pilog2Pini=114海曼公式与汉字编码的键盘特性

汉字键盘码是利用汉字的基本笔画或字根等字形属性或汉字发音属性等元素构成的有序组,组成对应汉字的键盘代码。所用的键元的数目必定比汉字集中汉字数目大为减少。

但键盘的键元数目太多,不利于熟练操作。而且从键盘的通用性方面考虑,使用通用的字符键盘是最经济的。键元数K和击键操作时的反应时间,一般可用如下的经验公式来表示:

T=a+b.log2K

而实际上,各个键元的使用频度是不相等的,因此较准确的海曼公式应为:

T=a+b.H(K)其中H(K)是对应键元的熵值,H(K)定义如下:

上式中Pi是第i个键元的使用频度,n是所用键元的数目。

H(K)=-∑Pilog2Pin

i=115汉字编码输入方法简易评测方法

给出一种简易评测方法,即五星图方法。一般来说,要选择一种汉字输入编码方法,主要从编码方法的性能来考虑,具体有5个方面:1.易学性编码规则要简单明了,没有特殊规则或尽可能地少。2.可用性在编码中,二义性和重码尽可能少,但不必强求为零。词汇码、外字处理方便。3.高速性码长尽可能短,键位设计易于盲打,键入速度尽可能高。4.通用性编码规则独立于具体设备,适用于通用标准设备。5.经济性对主机软硬件无特殊要求,价格合理,便于维护。

1617汉字编码输入方法专业评测方法

属于定量性质的技术指标

属于定性性质的技术指标

18属于定量性质的技术指标编码汉字集的容量。即所用编码方案可以表示的汉字键盘码的数量。码元数。编码方案所采用的汉字属性元素的数目。

码元的熵值。可由下式计算出码元的熵值(平均最小信息量)。其中k为码元数,Pmi为第i个码元的使用频度。汉字信息的熵值。在一个汉字集中(如GB2312-80基本集)完全确定一个汉字所需的平均最小信息量。可由下式计算出汉字的熵值:其中n为汉字集中汉字的总数(如为6763个),Pi是第i个汉字的使用频度。

平均键盘码长度。平均每个汉字键盘码所用码员的个数。非等长码应包括分隔用的空格符。编码效率。理论码长的最小值(即汉字熵值)与该编码方案得出的实际平均码长之比。表示为:其中L为平均键盘码码长,log2K为各个码员使用频度相同时的码元熵值。

H(K)=-∑Pmilog2Pmini=1H(汉字)=-∑Pilog2Pini=1L.log2Kη=H(汉字)×100%19属于定量性质的技术指标输入速率。在单位时间内(如一分钟内),用某种编码方案键入汉字的个数。

重码数。由以下公式计算:重码数C=重码字数—重码组数重码率。定义如下:非常规代码数。为了区别按某种编码规则产生的重码字,以及按照基本的编码规则无法得出的某些汉字代码,需要补充定义一些特殊的规则,由此得出的汉字代码即为非常规代码。

多码数。按照某种编码规则,使得一个汉字有多个代码和它对应。

错码率。错码出现次数占全部字数的百分比。学习曲线。根据实际学习过程中的实测数据,绘制的键入速率相对学习时间的变化曲线,以及错码率相对学习时间的变化曲线。

编码操作学习期。从开始学习编码输入操作开始,错码率下降到1%所需要的时间(以天或小时计算)。外字数量。该编码方案所能覆盖的指定汉字集以外的汉字数量。L.(a+b.log2K)S=60字/分钟Pc(重码率)=∑∑Pijni=1j=1m20属于定性性质的技术指标

编码方案的论证是否合理和充分。编码规则的繁简程度;编码规则对用户操作要求的高低;编码规则的逻辑性和规律性是否简明。编码方案是否存在不能覆盖的集内字;对集外汉字所要附加的编码规则的繁简程度。编码方案所用的译码程序的效率,占用内存空间的大小;在编码输入时对

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论