汉字输入法漫话.doc_第1页
汉字输入法漫话.doc_第2页
汉字输入法漫话.doc_第3页
汉字输入法漫话.doc_第4页
汉字输入法漫话.doc_第5页
已阅读5页,还剩36页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

汉字输入法漫话概述有人说:“汉字干嘛要搞输入法?我一见它就晕!英文有输入法吗?”我很理解他对汉字输入法不满意的心情。不过我想说,汉字输入法之所以很多很难掌握是有原因的,在了解原因之后,我们可以通过努力设法改变这种状况,最终建立比较理想、民众乐意接受的汉字输入法。世界上的文字大体分为两类,一类是线性拼音文字,由为数不多的字母组成,可以英文作为代表,它的输入只需逐一敲击字母键即可完成。另一类是平面文字,如汉字,她不是由字母而是由众多复杂的构字成分组成的,每一个字如同一副积木,也称之为拼形文字。因为电脑是从西方传入的,汉字成分不能直接进入电脑,要靠转换成代码来实现。汉字结构成分极为复杂,转换方法多种多样,于是,不可避免出现万“码”奔腾的局面。相当多的输入法既不规范又不好记,让不少人一见就头疼。为了解决这个问题,国家语委于1997年出台了信息处理用GB13000.1字符集汉语部件规范,遗憾的是,由于规范存在问题较多,匆忙颁布,一出来就有不少不同的意见,甚至受到一些强烈的批评。这充分说明建立理想的输入法是何等的重要和困难! 现有的汉字输入法有近千种,比较常用的只有十几种,大家最熟悉的要数汉语拼音输入法了。汉语拼音输入法是按汉字读音设计建立的,有全拼、双拼等版本。随着Windows操作系统的升级,各种智能拼音输入法相继出现,如紫光输入法、拼音加加输入法等。随着拼音智能的不断完善,采用了新的引擎技术,催生了搜狗拼音、谷歌拼音及QQ拼音输入法的出现,拼音输入法走向了互联网时代。 汉语拼音输入法的弱点是而易见的。我国民族多,方言南腔北调,说好普通话是很难的;汉字同音不同字很多,拼音重码率很高;汉字数量多不会读的字经常遇到;还有不少人由于分不清C、CH,S、SH,Z、ZH和N、L输入时常常出错。所有这些都给汉语拼音输入法带来一定的局限性。因此,加强对字形结构的研究,集已有各种形码的优点,创立广大民众乐于使用的汉字输入法是非常必要的。 五笔字型是出现较早的形码之一,目前被专业打字员广泛使用。其优点是重码少、适合盲打、输入速度快。但是,由于字根(部件)破碎难辨,跟代码缺少自然的联系,加上设计有字型码,使之难学难记易忘。即使配上“助记词”也无济于事,今天记住了过几天又会忘记了。所以除专业打字人员靠它当饭碗外很少有人使用。同时,它拆分汉字不够规范,一些字被拆得支离破碎,甚至将完整的偏旁“衤,礻”拆开,使人难以接受。 现在的状况是流行的输入法有缺陷甚至有严重缺陷,人们还是得用。散落在民间的一些比较好的输入法由于种种原因不能被集中优化,形成大众认同、比较理想的输入法,人民的需要跟输入法的现状之间存在很大的矛盾。 广大民众理想中的输入法是什么样子?我想有三条主要标准:(1)比较规范。这是最重要、最难达到的一条。所谓规范就是指比较好地体现汉字文化,执行国家的语言文字政策,如规范使用现代汉字,符合有关的汉字规范等。规范是人们对汉字的主流认识,是长期的约定俗成,规范要把传承和发展恰当地结合起来,必须通过长期不懈努力的探索和实践才能逐步达到目标。 (2)易学好记好普及。这是输入法能否被广大人民群众接受的关键所在,人民群众是使用文字的主体,也是使用输入法的主体。理想的输入法应当让百分之九十以上的民众在短时间内比如一周就能轻松学会并比较熟练地掌握它,无需死记硬背。(3)满足基本的单字和词组数量要求。据统计,汉字总数有60000个左右,但实际使用的不足10000个。1964年中国文字改革委员会与文化部编印的印刷通用汉字字形表收字6196个,1973年扩充为6806个;新华字典和现代汉语词典平均收字7237个;国标信息交换用汉字编码字符集基本集GB2312-80收字6763个;现代汉字通用字表收字7000个。可见,现代实际使用汉字在7000个左右。能够包含7000个单字及其常用词组即可满足理想汉字输入法的基本要求。一 汉字成分 有关汉字成分的研究成果很多,但为建立输入法进行的研究并不太多。因此,加强这方面的研究很有必要。笔者认为,以下三类构字成分对建立汉字输入法最为重要。 1笔画类成分,包括笔画和笔画集合。 单笔画 笔画也称笔形,是组成汉字的最小单位。所谓笔画就是从落笔到抬笔笔尖留下的痕迹,包括走向和形状特征。全部笔画有30余种之多,通过合并有8画说,即横、竖、撇、点、折、提、弯、钩;5画说,即横、竖、撇、点、折。现在普遍倾向于后者,将提归入横,弯、钩归入折(竖左钩归入竖)。现代汉语通用字笔顺规范中已经确认这五个基本笔画,即横(一,含提 )、竖(丨,含竖带左钩亅)、撇(丿)、点(丶,含捺 )、折(乛,含所有带拐弯的笔画)。一个单笔画可以构成字,如:一、乙,O;两个以上的单笔画可以分离、拼接、交叉的不同方式构成字,如:三、川(分离),工、片(拼接),十、世(交叉)单笔画可以跟偏旁一起构成字,如:勺(勹,丶),升(丿,廾),日(囗,一),山(丨,凵)单笔画还可以跟成字一起构成字,如:个(人,丨),禾(丿,木),主(丶,王),局(尸,口) 笔画集合 两个或两个以上的单笔画以某种固定形式集合在一起称为笔画集合。它们是不可或缺的构字成分,又是大家比较熟悉而不好称谓的构字成分。如以横打头的、丂、,以竖打头的、禸、歺,以撇打头的、乑、釆,点打头的亠,冘,隺,折打头的,屮,夬等。笔画集合是实际存在的重要构字成分,认识这种成分会给汉字拆分带来极大的方便,过去它没有受到人们的足够重视。 2偏旁类成分 这是大家比较熟悉的汉字形体中常常出现的基本结构单位,常称左为偏右为旁上为头下为底,统称偏旁。 我们通常说的偏旁包括一些成字,我们这里特指不能独立成字者为偏旁,把成字偏旁列入成字。有名称、好称谓的偏旁,可以在部首表中找到。如单立人(亻),包字头(勹),倒八 (丷),两点水(冫),草字头(艹) ,提手旁(扌),宝盖头(宀),四点底(灬),竹字头(),等等。 部分字含有以偏旁开头的集合成分,如:(艹开头)、屰(丷开头) 等,它们实际存在,过去没有把它们单列出来,为了方便汉字拆分,将其归为偏旁打头的偏旁类构字成分。 3成字类成分 一些笔画较少的汉字,常常互相搭配组成新字。字中有字是汉字的一大特点,人们常说:木、子李,双木林,日、月明。这一方面表明人们对字中有字、几个简单字可以组合成一个复杂的新字很熟悉;另一方面表明成字在构字时所起的重要作用。绝大部分汉字中都含有成字,可以说成字是汉字的最重要的组成部分。 在一部分汉字中,存在以成字开头的某些集合成分:如:耂、 (十打头)等。如果我们把它们看成独立的整体,拆分汉子会非常方便,因此我们将其列入成字类成分。二 汉字结构 依据不同的划分标准,有的按部位将汉字分成左右型、上下型、内外型、左中右型、上中下型、品字型、多种包围型共21种结构类型。有的输入法将结构简化为左右、上下、杂合三种结构,编码时对部分字加上结构识别码。 古汉语中按字能否分出两个以上独立部分将汉字分为独体和合体结构。不能分解出两个独立的字仅为单纯的书写符号的称独体字,如:日,月,目,本等;可以分解出两个以上独立字的字叫合体字,如:从,林,胡,语,湖,晶等。由于人们对独体字的看法有分歧,这些古汉语概念能否搬到现代输入法中使用值得商讨。 笔者提出按字的成分对汉字进行分类,这会给汉字拆分、部件选择和编码带来很大方便,也容易被广大民众所接受。 按字包含的成分可以将字分成三种类型: 1 纯笔画型 仅含多少不等的单笔画不含其它成分的字,称为纯笔画型字。如:一、十、人、永、我、重纯笔画型字不同于独体字,“日”是独体字,但不是纯笔画型字,因为按独体字它不能分解,但作为纯笔画型字可以分解成“囗、一”。即使像“十”字,也可以分解为“一,丨”。纯笔画型字全是由单笔画组成的,拆开来也就只能是单笔画了。 纯笔画型字数量不多,只有一百余个,约占总字数的1.5%,其中大于四个笔画的不足二分之一。 2 无笔画型 不含单笔画,全部由单笔画以外成分组成的字。如:林(木、木),河(氵、可),明(日、月),逆(屰、辶),容(宀、谷),部(立、口、阝)等。字里不可能没有笔画,但可以没有单笔画,说的是存在的笔画都是处在不可分离的整体之中。如上述例字中分解出的不是字便是偏旁,或是由单笔画、偏旁、成字开头的集合部件,笔画包含在这些部件之中,不能从中分离出来。据统计,85%以上的字不含有单笔画。 3混合型 指由单笔画和其它成分混合组成的字。如:土(十、一),主(丶、王),局(尸、乛、口),狮(犭、一、巾),德(、十、罒、一、心)等。这类字的特点是必定含有单笔画部件,同时至少含有一种单笔画以外的部件。 根据包含的成分,可以迅速准确地判断某个字属于哪个类型,并将它拆分成相应的部件。根据成分特征分类汉字可以很好地指导汉字拆分,对建立理想的汉字输入法很有意义。 三 汉字拆分建立汉字形码输入法,必须将汉字拆分成部件,给部件赋予代码。部件要通过对其字符集包含的全部汉字进行逐个拆分获得,拆出的部件要归纳汇总做成部件表,这是一个工作量很大很费时间的过程。如何拆分汉字有很多的分歧,有必要进行认真深入的讨论,以期求得共识。1概念 汉字拆分是将汉字分解成部件的过程。如将“十”分解成“一、丨”,“汉”分解成“氵、又”,“谅”分解成“讠,京”等。被拆分的“十”、“汉”、“谅”是汉字,拆分出的“一”、“丨”、“氵”、“又”、“讠”、“京”是部件。部件不再拆分。只有当部件作为汉字被输入时,才可以被拆分,如“京”作为汉字被输入时可以分解为部件“亠,口,小”。一个“京”两个身份,这一点要分辨清楚。2拆分依据与原则 俗话说没有规矩不成方圆,依据什么拆分汉字呢? (1)现代字形 我们要建立字形码输入法,字形自然成为第一个关注的问题。输入法是供人民大众使用的,拆分的字必然要是现代规范汉字,即经国务院批准公布的汉字,而不是古汉字。离开现代规范汉字字形谈拆分,要求考察甲骨文是什么样,篆书是怎么写的,就偏离了目标背离了实用的原则。这些问题专家学者们当然可以研究,但使用输入法的民众不可能也没有必要去掌握。 推行简化汉字并未废除繁体字,输入繁体字怎么办呢?可以借助已有的简繁体字转换软件解决,不用专门建立包括繁体字的汉字输入法。 汉字拆分要不要按字理考察造字意图拆分一直存在分歧,提出和支持按理据拆分的人认为,古汉字是按照某种意图造出来的,现代汉字是古汉字的传承,因此拆分不能脱离造字理据。按字形拆分的人认为,我们要建立的是字形码,自然是按现代字形拆分,造字意图也是体现在字形上的,如果字形反映不出字理硬去考究字理也没有什么意义。公说公有理婆说婆有理。笔者认为,不能把“理据”单纯理解成古人的造字意图,将字形排除在理据之外。从词义上讲,“理据”是指拆分某个汉字的理由和根据,与造字意图相比,字形应该是拆分汉字更重要的理据。随着漫长的历史发展特别是汉字简化,汉字字形发生了复杂而明显的变化,有的字可以说是面目全非了。大家知道,分析汉字结构理据最好是用古代汉字,起码要使用现代繁体汉字。可是,现在从很多汉字中已经无法寻找造字意图了。因此,不管从理论还是实践上讲,依据字形拆分汉字是必然的,也是民众容易和乐意接受的,至今我们尚不知道是否存在按理据拆可以按字形拆不可以的字。这里涉及一个如何对待前人和权威的观点问题,是一味地赞同和照搬呢?还是在继承的同时有所创新和发展呢?肯定应该是后者。部件规范说,“无法分析理据或理据与字形发生矛盾时,依据字形”拆分,这实际暗示按理据拆分是多余的。因为无法分析理据时按字形拆分,理据与字形矛盾时也按字形拆分,那么二者一致时为什么说是按理据而不说是按字形拆分呢?汉字不是一个或几个人在短时间内造的不变的东西,而是人们在世世代代生活实践活动中逐渐形成、不断变化的信息交换工具,一些字产生了,一些字废弃了,新的形体诞生了,旧的形体消亡了。关于造字意图的种种说法也只是后人的分析认识,即使某种分析正确也不能认为必定成为汉字拆分的第一依据,一定适合电脑写字的要求,也就是说,符合理据的拆分不一定都是恰当的。按说文解字“中”字,从口,丨从中间上下通过,可拆成口、丨;“束”字,从口木,可拆成口、木;“内”字,从冂,入由外进入,可拆成冂、入;“央”字,大在冂内,可拆成大、冂然而,这些拆法是不符合“交重不拆”原则的。又如“里”字,从田从土,可拆成田、土;“果”字,果实在木上,从田从木,可拆成田、木结果是一个笔画被折断,拆分后多了一画,还与“交重不拆”相悖,显然是不合适的。再如“夷”字,从大,从弓,大代表人,人手持弓箭,故拆成 大、弓,二个部件之间相互穿插没有边界,互不独立存在,属于交重拆分,同时“大”的笔顺发生过中断,是违反笔顺规范的。可见,如果按上述举例拆分,恐怕混乱就不可避免了。规范要求按理据拆分又要求“交重不拆”,大家如何是好呢?民众没有多少人了解理据的,他们必须了解每个字的拆分理据才能掌握拆分,这无疑给输入法的普及增加了困难。因此,要求按理据拆分是值得商榷的。(2)拆分要遵守笔顺规范 按笔顺拆分可以避免拆分的随意性,如“可”字,按笔顺拆成一、口、亅,不拆成丁、口;“幽”字,按笔顺拆成丨,幺,幺,凵,不拆成 山、幺、幺;“丑”字,按笔顺拆成乛,丨,一,一,不拆成乛,土,等等。这里说的笔顺与通常意义上的笔顺有所不同,是指从字头到字尾部件的先后顺序,而不完全指笔画顺序。有的部件本身笔顺是不连续的,如:囗,匚,“武”,“载”一类的字中的“弋”和“戈”,它们的笔顺本来是不连续的,为了方便拆分将其变成整体部件,拆分时按部件顺序而不按笔画顺序。 (3)不允许未经拆分的字充当部件 将字拆分成部件再由部件回拼成字是建立汉字形码输入的基本做法,除了单笔画字外,所有的汉字至少有两个部件,输入时必须是输入组成该字的部件,这是字形码原理决定的。在理论上不存在不能拆分的字,实践中也不能允许不经拆分的字直接成为部件。单笔画字“一(yi)”、“乙(yi)”和“o(ling)”输入的是笔画得到的是字,由笔画变为字发生了质的变化。如果输入代码“日”得到汉字“日”,就违背了拆分到回拼的设计初衷,违背了部件是“具有组配汉字功能的构字单位”的定义。 (4)拆分前后笔画数量要相等 汉字犹如可拆拼的积木,拆开、拼接后的零件数量应该保持不变。如“我”字为七画,逐笔拆分是丿、一、丨、一、乛、丿、丶共七画,与拆分前相等。若拆成“扌、戈”,把第二笔一分为二地截断了,比拆分前多了一画,从而改变了字的原有结构,就不够妥当了。 (5)拆出的部件形体准确不走样 汉字的形体是有规范可依的,拆出的部件形体应该保持原状,不能随意改变。如将“东”、“切”字的前两笔和“长”字的二、三笔一、乛当作 “七”,虽然从笔画上看相同,形体像七,但不是“七”;又如把“卫”字前两笔当作“卩”也是不准确的,因为两笔相接部位是明显不同的;再如“沿”字的右上角折笔不带钩,不能跟“几”等同;再如把“火”字的前两笔和“办”字后两笔当作 “丷”、“八”也是不够准确的,这样的例子很多。出现上述情况是由多种原因造成的,新华字典就是将“卫”收入卩部的。即使如此,笔者认为权威意见也是可以商榷的。 (6)成字部件优先拆 字中有字是汉字的一大特点,部件中成字占大多数,拆分时应尽可能成字优先。人们对简单的常用字非常熟悉,记得很牢,选择它们作为部件可以让人容易记忆便于掌握。例如“朱”字,有三种不同的拆分结果:“牛,八”, “丿,未”, “丿, ,八”。其中“牛,八”是两个成字部件,应该首选。再如“彭”字,拆成“十、豆、彡”,不拆成“士、口、彡”;“产”字,拆成“立、丿”不拆成“亠、丷、厂”等等。虽然汉字拆分不具有唯一性,没有拆得对与错之差,但有拆得佳、欠佳与不佳之分。我们应当力争将每个字拆得最佳部件。 (7)拆分是否要有层次 有人认为拆分要分层次,如“湖”字,先拆成“氵、胡”,再将“胡”拆成“古、月”,再将“古”拆成“十、口”,最后完成“湖”的拆分。其实是没有必要的,可以直接拆成“氵、十、口、月”一步到位。 (8)关于 “交重不拆” 所谓“交重不拆”,是指汉字中交叉重叠的非单笔画部件不能拆分,如“串”不能拆成“中,中”但可以拆成单笔画。因此,不能笼统地说“交重不拆”。很多纯笔画型字如“十”,“丰”,“书”等都是单笔画交重组成的,只能一笔一笔地拆分,没有别的办法。既然承认单笔画是部件就没有理由不准按单笔画部件拆分,“交重不拆”只适用于非单笔画部件构成的字。 (9)关于拆分下限 拆分下限是指某个汉字拆分到不能再拆分的极限。判断“不能再拆分”的标准不是设计者的主观意志,而是要看每个具体字的客观实际。例如,“明”字,由“日,月”两个成字部件构成的,“德”字,由“,十,罒,一,心”两个偏旁、两个成字和一个单笔画共五个部件构成的,这是它们拆分的下限,不能再分了。而“事”字,由八个单笔画部件构成,不含其它的部件,只能拆分为八个单笔画部件,这是“事”字的拆分下限。因此,拆分的下限因具体字而不同。就“明”字而言,拆分下限是“日,月”两个成字部件,不能再分;但对“日”字而言,它的拆分下限是偏旁“囗”和单笔画“一”两个部件。拆分下限还与一个字的最佳码数有关。 当部件表已经建立,部件表是判断拆分下限的标准,选择部件必须是表中最大部件。如:“谅”字,如果部件表中有部件“京”,“谅”只能拆成“讠,京”,不可拆成“讠,亠 ,口,小”。 (10)拆分要考虑字的最大码数 通常一个字的最大码数是四码为佳,能拆成四个以内部件就不拆成四个以上部件。如“斡”字,拆成“十、日、十、人、斗”或“十、日、十、人、丶、丶、十”都超过四个部件,若将左边整体作为一个部件就可以解决这个问题。而“德”字,有五个部件(、十、罒、一、心),也不宜勉强合并成四个、少于四个部件。 拆分实践表明,过好拆字关,字形码输入法就成功了一半。下面我们来进一步讨论这个问题。 不同字型拆分是有区别的。根据作者对汉字的认识,一个个积木式的字块可以分成三个类型:纯笔画字型、无笔画字型和混合字型。 纯笔画型字全部由一个个单笔画部件组成,不含有其它诸如偏旁、成字等部件,如“永”、“我”、“重”等字。拆这类字的最好做法是一笔一笔地拆开。然而,很多人不是这样拆的,如:永(丶,乛, ),(丶,水)我(丿,扌,乛,丿),(丿,扌,戈),(丿,剩余部分)重(丿,一,日,土), (千,里),(千,日,土) 我不能说这些拆法错了或不对,因为认识不同,而且他们也是有根据的。在新华字典里,“永”字列在水部,“我”字被收入戈部,“重”字在里部可以找到。不过我想说,拆分虽无对错之差,但有好坏之别。“永”字的第一种拆法中,第三个部件多少让人感到有些怪异;第二种拆法是拆成“丶”和“水”,“永”中有“水”吗?没有,把第二笔折当竖显然是不妥的。“我”的前两种拆法把笔画横断开拆成“扌、戈”,破坏字的原形是不恰当的。第三种拆法虽然可以,但去撇后的形体还是不用为好。“重”字的三种拆法有一个共同点是成字部件隐形存在不易辨认,有悖“交重不拆”的原则。还有将同一笔画折断,这是很不妥当的做法。要说明的是,判断全笔画字时需要注意,不要把字里的笔画集合部件误当成单笔画部件。如“大”字,前两笔是一个横打头的集合部件,故“大”不是一个纯笔画字。还有如“上”字,前两笔是个竖打头的笔画集合部件,也不是纯笔画字。有读者会问,笔画多的纯笔画字一笔一笔地拆分开,取码最多只有四码怎么办?回答是多的舍去。因为纯笔画字不多,大于4笔的笔画字更少,舍弃部分笔画造成字的信息损失对输入法没有多大影响。笔画多的字一般不是纯笔画字,笔画最多的汉字是四个繁体龙合成的字,是个无人使用的字,字典上可查的笔画最多的“齉”36画,不是纯笔画字而是无笔画字,在笔者的龙人码中只有6个部件,“爨”,30画,5个部件。不含单笔画的字是无笔画型字。这类字按理是最好拆分的,因为这些字里的部件之间有可辨的边界,很容易分辨。然而,由于设计者的认识不同,拆分结果却大不相同。现举例说明。哀 本来拆成“衣,口”,大家很容易理解和接受。而有的输入法却拆成“ ”造出怪异的部件。被 是个部首“衤”旁加“皮”字的二部件字,顺理成章拆成“衤,皮”。而有的输入法硬将“衤”拆散,将“皮”也拆开,变成“ , , , ”,自然让人难以接受。鲤 一种鱼,拆成“鱼,里”多么规范、简单!而有的输入法硬是将两个字拆开凑成四个部件“ , , , ”频 是“步、页”组成的二部件字,有的输入法偏偏要拆成“止, , ,贝”,将其中的第二个部件当成“小”,实属主观制造。彪 是“虍,几,彡”三个部件组成的字,而有的输入法生硬地将大家熟悉的部首“虍”拆开。这样的例子举不胜举。混合型字是字里含有单笔画又含有其他类型部件的字。如“主、局、拔、德才”字,约占总字数的11%。混合型字的拆分也是按其部件自然拆分,没有任何特殊之处,这里不再多述。从举例中不难看出,拆字中存在的主要问题是不按字的自然构成拆分,忽略了成子部件的重要作用,过分使用笔画部件,结果将字拆得支离破碎无法完整地拼接还原。四 汉字部件部件已经成为汉字电脑输入时代的专用术语,是指经过选择、具有组配汉字功能的汉字成分,包括笔画、偏旁和成字等。有人不称部件,称字根、字元、根字等。称呼虽有不同,实质并无差别。笔者认为称部件为好。根据现代汉语词典部件是“机器的一个组成部分,由若干零件装配而成。”。在汉字拆分与组配过程中,借用“部件”这个术语是比较确切的,汉字相当于机器,部件相当于经过选择的构字成分。1.部件定义 1997年国家语委颁布的部件规范称:“由笔画组成的具有组配汉字功能的构字单位。简称部件。”这个定义没有对构字单位加上有选择的限定,显得不够严密,容易误将所有的构字单位当作部件。只有极少数的单笔画部件可以单独构成字,如“一”构成“一”字,“乙”构成“乙”字。由部件横“一”到汉字“一”完成了由形到质的突变。除此之外,其它部件至少要有两个才能共同组配成一个新字,如部件“日”与“月”一起构成“明”字,跟“忄”、“罒”、“又”一起构成“慢”字。不能和其它部件一起组配出新字者不能称为部件,否则,就等于说汽车是汽车的部件,手表是手表的部件,没有任何实际意义。 笔者认为,部件宜作如下定义:经过选择的笔画、偏旁和成字等具有组配汉字功能的构字成分,称为部件。2.部件属性 (1)独立性 部件的独立性是指部件在字里独立存在 ,不与其它部件相交的独立性质。这是部件的一个非常重要的属性。识别部件是否具有独立性的标准是看部件之间是否存在可辨的边界,有边界,不与其它部件相交独立存在的,具有独立性,否则就不具有独立性。部件之间的边界有显性、隐性之分。部件之间呈分离状态边界是显性的,如:“三,川,画,间,部,磊,就,”等字的部件是相互分离的,边界清楚很好辨认。有些字的部件之间是相接的,边界不那么清楚,但辨认并不困难。如“日,正,丐,凸,巳,丘”等。还有些字的部件既有分离又有相接的关系,如“栽,寒,湖,溃,澎”等。前面已经说过,单笔画组合成字时,它们之间可以是分离、相接、交叉的任意关系,当它们是分离和相接的关系时,各个笔画保持相对独立;而当它们是相交关系时就失去了独立性。这表明单笔画部件不具有完全的独立性 。对于成字部件而言,其独立性还应体现在笔顺上。汉字是讲究笔顺的,有规范可依,成字部件应当遵守笔顺规则。成字部件从首笔到末笔应当是连续的,中间不出现中断,否则,一般不视为部件。如“幽”字中的“山”,“噩”字中的“王”,“夷”字中的“大”等因为笔顺不连续不是部件。如有例外必须特别说明,如“或、裁、载、栽、戴”等字里的“戈”,和“式、武、贰”等字中的“弋”笔顺不连续,本不是独立的字,但把“戈”、“弋”当整体看待,会使拆分变得非常简单容易,便将“戈”、“弋”当成字部件,这属于特殊情况。(2)部件不能拆分 人们将汉字拆成部件,再把部件拼成汉字,从而达到用电脑书写汉字的目的,这一过程清楚地说明汉字与部件的不同。汉字是部件之母,部件是汉字之子。汉字能被拆分,部件则不能被拆分。虽然很多部件中包含更小的部件,如:白、(丿、日)、干(一、十)、广(丶、厂)、京( 、口、小)但是这些更小的部件跟包含它们的大部件一样是由汉字拆分经过筛选确定的,不是大部件再分的结果。汉字和部件是两个不同的概念,不能混淆。汉字“京”跟部件“京”是不同的。部件“京”, 是由 “谅,凉,琼,景,就”等汉字拆分获得的共同成分,不是由部件“亠,口,小”合成的结果。部件“亠,口,小”不光是由“京”一个字拆分得来的,而是由包括“京”在内的很多字拆分后归纳获得的。如从“立”,“六”,“文”,“京”等字获得“亠”;从“只”,“可”,“吗”,“呆”,“京”等字获得“口”;从“孙”,“示”,“尔”,“京”等字获得“小”。3部件分类 给部件分类的目的是为了分配代码和方便记忆,只有对部件表里的部件进行分类才有实际意义,不能为分类而分类。 1997国家部件规范并未对部件进行系统分类,但可以看到一些有关分类的信息,如成字部件与非成字部件,基础部件和合成部件,主形部件与附形部件。因为合成部件本应理解成字,所以称为部件不够恰当。同时合成部件不列入部件表,不给它代码,在编码中没有实际用处,划分基础部件和合成部件也就没有实际意义。很多输入法未对部件作明确的分类,只能从中体会有关分类的思考,如五笔字型按笔形在键盘上划分区位。潘德浮先生将部件分为七型48类,是笔者见到最详尽的分类,不过要掌握和运用这个分类是非常困难的。笔者认为,部件分类应当简明、适用、好记才有意义,龙人码汉字输入法根据部件所属的构字成分划分为: (1) 单笔画部件 包括横(一)、竖(丨)、撇(丿)、点(丶)、折(乛)5个。它们形体简单好称谓。其中单笔画部件“一,乛”能独立成字,也可以跟其它部件组配成纯笔画型和混合型字。以某个单笔画开头、两个以上单笔画集合在一起的非成字部件,包括少数不易称呼的偏旁,称为笔画集合部件,按起头的笔画将其归于五个单笔画部件。笔画集合部件有108个,形态各异,独立存在,不与其它部件相交。它们的集合关系包括分离、相接、交叉等形式。祥见龙人码部件代码排序表 (2)偏旁部件 汉字统一部首表(草案)中的201个部首,大部分是偏旁部件,其中有名称好称谓大家很熟悉的如“宀”、“疒”、“艹”、“氵”、“犭”、“扌”、“廴”、“讠”等。少数大众不太熟悉不太好称呼的列入笔画集合部件。少数以偏旁起头的非成字部件也列入偏旁部件,如:“屰”、“ ”、“ ”等。 (3)成字部件 指确定为部件的字中字。成字部件数量最多,多为简单常见字,名称是字的读音。既然是字,它肯定是独立的,不与其它部件相交,书写时笔顺连续无中断(极个别例外)。部分以字打头的集合也列入成字部件。如:耂 4.部件命名 部件要有名称,名称应当通俗好记,贴近字形和字音,便于分配代码,跟键盘建立自然的联系。部件的命名要走出学究的书房,走进社会走进民众,让广大群众容易接受汉字电脑输入。以“亍”、“丂”两字为例,是一般人不认识的字,但前者在普通字典里可以查到,宜用字音命名。而后者在一般字典上查不到,用“考”音命名不如用横打头的笔画集合部件命名更好些。这对创建好学、好记、好用的编码非常重要。有人认为部件只是一种抽象的符号,它的功能只是构字,没有任何别的意义。这会使人产生记忆代码的困难。比如“吐”字,是个与“口”有关的字,东西从“口”中涌出,借“土”音,部件“口”和“土”的读音贴近字形和字音,人们很容易掌握。如果对部件“口、土”的命名大家很不熟悉,与“口、土”没有什么联系,会使编码难学难记。1997年部件规范对单笔画、部分偏旁和成字部件按名称命名,有的按部件在字里的部位命名,称某字旁、字边、字头、字底、字腰、字心、字角,还有称某字省等。很多输入法的部件是没有名称的;龙人码完全按部件名称进行命名。 5.部件的数量 1997年部件规范确定了560个部件,基础教学用部件规范确定了540个部件,不同的输入法部件数量不等。五笔字型有206个,表形码为352个,龙人码为491个,都比部件规范少。多少个部件比较适宜呢?,有人认为越少越好,多了难记,这实际是一种误解。部件少了,记部件容易了,但带来了其它的问题。比如说,只有五个笔画部件,记忆的确容易了,但表达全部汉字困难了,除了少数四笔以下的字外,其它字都必须击键四次以上,不仅字的信息大量丢失,而且输入速度大大降低。如果这样可行恐怕不会出现万“码”奔腾的局面了。其实,难不难记关键不在部件多少,而在使用者是否很熟悉这些部件,熟悉到无需记忆的程度。信息的陌生和孤立是记忆困难的根源,变陌生为熟悉需要信息的联系,不然必须死记。按理说五笔字型206个部件不算多,人们为什么感觉很难记忆呢?关键在于部件与代码是孤立存在的,之间没有自然的联系。大多数民众对常用的字和偏旁部件根本不存在记忆问题,完全不用死记硬背部件表,如果这些部件的代码也是他们比较熟悉的,那他们就不会感到记忆困难了。 当然也不是部件越多越好。部件规范列出了560个部件,看来是多了,可以大大压缩。部件的组字能力有高有低,我们希望部件的组字能力高些,但很难避免出现少数组字能力较低的部件。应该避免出现重复的部件 ,不必要地增加部件总数。如乛、乚、乙,同为一个单笔画折部件,不必列为五个部件;有了部件“丘、丿、丶、八”,不必再要“乒、乓、兵”三个部件;有了部件“王”不必再要部件“玉”;“凸、竹、燕,”等不参与构字的字也不必列为部件等等。总之,能舍则舍,能合则合,把部件数量控制在一个适当的范围之内。很难具体说多少个部件最好,这要由具体的字符集和实际拆分结果来决定,估计在500个左右。6.部件大小与层次 有人认为字比部件大,部件比笔画大,因此部件处于笔画和字的中间层次上。这种以笔画多少比较字、部件、笔画的大小和层次既不合适也没有实际意义。笔画是部件,它和其它部件应当处在同一层次上。以“局”字为例,参加构字的“尸、口”三个部件中两个是成字一个是单笔画,它们并无层次高低之分,而是同属一个层次。 五 汉字编码确定了部件之后,要给每个部件分配代码,给每个字、词编码。1.部件代码 部件代码分配大致有以下几种情况:一是完全人为分配,如将键盘上的字母分区,在区内再分位,部件所在键的字母就是代码;二是将与部件外形相似的字母确定为代码,如口似O,厂似J,阝卩似P,匚似C,代码分别为O、J、P、C;三是按部件读音分配代码,如口(K),日(R),土(T),文(W)、攵(W),艹(C)等。给部件确定代码,最重要的是要在部件与代码之间找到人们熟悉的自然联系,使大家好学好记,力戒人为硬性规定。很明显,在键盘上分配部件必然的结果是记忆困难。虽然按部件与字母的相似性确定代码可以减少记忆难度,但由于绝大多数部件与代码之间缺少相似性,难以解决记忆困难。将部件汉语拼音化,以部件名称的汉语拼音声母作代码,民众熟悉便于掌握容易接受,应该是最好的选择。 2.字词编码单字编码有等长四码,也有不等长码。 一般规则是从字头开始顺序取码,最后一码取字尾码,不足三(或四)个部件时加字型码或字音码。词语编码多为等长四码,但取码规则各有不同。二字词取两个字的前两码、三字词取前三字前一码后一字末尾码、四字词取每个字的前一码、超过四字词取前三字和最后字的第一码居多。 六 龙人码汉字输入法 龙人码汉字输入法是笔者为自用而创建的一种汉字输入法,她把汉字部件与拼音结合起来,将字的拼音变成部件拼音,让电脑使用者不认识的字能够输入,拼音水平低的人也能输入。因此,也可称她为部件拼音输入法。这套编码非常符合国人识字和书写习惯,适合“龙的传人”使用,故称为龙人码。龙人码的基本思路是将字形与拼音相结合,做法是对每个字进行自然而通俗的拆分,归纳选择笔画、偏旁和成字三类部件。笔画类部件用拼音不打头的字母(i,u,v)和偏旁、成字部件拼音不打头的字母(a,o)作代码,即:一(a),丨(i),丿(o),丶(u),乛(v);其它部件用名称拼音声母作代码;少于三个部件的字最后加被输入字的拼音声母代码,最大限度地符合国人识字和书写习惯,使广大民众容易接受并轻松掌握。 龙人码符合国家有关规范,对使用者的文化水平要求不高(小学),对汉语拼音水平要求也很低(只知道部件汉语拼音的第一个字母)。除5个单笔画部件代码需要记忆外,其它部件代码不用死记硬背,因此易学好记,一经掌握不会忘记。由于重码较少,输入速度较高,适合盲打,专业打字员和普通电脑用户均可使用。本输入法已于2003年在湖北省版权局登记。1. 字集 龙人码以国标GB-2312(80)中6763个汉字为基础,加上新华字典中国标没有的字作字集,包含约8000字及其相关词汇三万余条,可以满足所有非文字专业工作者的基本需要。 2.部件及其代码 对字集的全部汉字逐一进行拆分,选择确定了491个部件及其代码,列出龙人码部件代码排序表笔画类部件代码用分配方法解决:横(一)、竖(丨)、撇(丿)、点(丶)、折(乛)五个单笔画代码分别是a、i、o、u、v。这样做的原因是:汉语拼音中i、u、v三个字母不打头,若全部部件都用名称拼音声母作代码这三个字母将被闲置;另外,偏旁和成字部件的拼音声母缺少o,a只有一个部件“凹”,致使a、i、o、u、v五个字母被闲置,用这五个字母作五个笔画代码正好解决了这个问题。笔画集合部件代码同打头的单笔画代码。 笔画类部件代码需要记忆但记忆量不大。横(一)的代码a是26个字母的第一个;竖(丨)的代码i与竖的外形近似并且是拼音中不打头的字母;点(丶)和折(乛)的代码u和v都是拼音不打头的字母。单笔画代码增加了少许记忆,却使得代码用足了26个字母,应该说是个利大于弊的较好选择。 偏旁都是多音的,如三点水,左耳刀,右耳刀,宝盖头,提手旁,竹字头赋予多音偏旁代码先要将偏旁单音化,再取其拼音声母。如草字头艹,取草音(cao)代码c。 成字也取其拼音声母作代码,如“大(da)”代码为d。 偏旁和成字部件用拼音声母作代码的最大好处是记忆量很小,容易让广大民众很快掌握。1958年,全国人民代表大会批准汉语拼音方案,秋季即在全国小学教授汉语拼音。现在,拼音字母已经普遍用于字典、词典的注音,用于各种产品型号标记,用于辞书条目排序、书刊索引和通讯各个领域,为广大人民所熟知。尽管尚有部分人不熟悉汉语拼音,现学也不难,因为只要知道常用字开头的拼音字母就够了,不用知道部件的完整拼音。3.单字编码(1)从字头到字尾按顺序取部件代码,如“可”字,笔顺为一口丨,代码为aki;(2)一字最多四码,字头字尾的部件必定取码,是什么部件取什么码;不超过四个部件时全部取码,超过四个部件时第四码取末部件码,字头与字尾之间超过两个部件按成字部件优先、同类部件前者优先原则取两码;(3)不足三个部件的字加字音码;(4)超过三个单笔画部件的字,取字首、字末部件代码加该字的读音码;(5)单笔画连续出现时只取一码。部分汉字中常见同一笔画连续出现的情况,如“丝”字连续出现四个折,“丰”字连续出现三个横,这时只取一码会给编码带来很大方便,也省去多个相同笔画不好称呼的部件。4.词语编码(1)二字词,取每个字的前两码;(2)三字词,取每个字的首部件码加末字的末部件码;(3)超过三个字的词,取前三个字和末字的首部件码。5.字词编码举例(1)笔画型字不超过二个笔画部件的字 一 ay 乙 vy 十 ais 八oub连续出现同一笔画部件的字 三 as 乜 vn 丰 aif 坚iyt超过三个笔画部件的字 永uuy 册oac 我 ouw 重 oaz (2)无笔画型字二个部件的字 李 mzl 明 rym 家gsj 状pqz 基 qtj 三个部件的字 部 lke 故 skw 品 kkk 想mmx 逢wfz 四个部件的字 落 cdwk 簿zdfc 糊msky 避 skxz 四个以上部件的字 灌dckz 赣 lrsb 警 cbky 嚼 kzsc (3)混合型字 两个部件的字 土sat 个 rig 天adt 王 atw 主uwz 三个部件的字 在 ait 合rak 丛rra 国kwu 局svk 四个部件的字 寒gabu 蔬 cvzu 遣 zaiz 爵zsgc 四个以上部件的字 德 rssx 噩akka 赢 wkyu 夔 bzzw(4)词语 二个字的词 汉字dygz 电脑ivyk 原理cbwl 幸福tbst 三个字的词 计算机 yzmj 联合国 erku 高科技 uhsy 三个字以上的词 龙马精神 avms 中华人民共和国 irok 不到黄河心不死 aacd龙 人 码 部 件 代 码 排 序 表 附录

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论