2001论汉字数量的统计原则.doc_第1页
2001论汉字数量的统计原则.doc_第2页
2001论汉字数量的统计原则.doc_第3页
2001论汉字数量的统计原则.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

论汉字数量的统计原则李运富(原载辞书研究2001年第1期)【提要】 汉字数量的统计应该有科学的原则。以前对汉字数量的统计大都从书写角度出发,以笔画形体为据,或者从字用角度出发,以记词功能为据,这是值得商榷的。本文认为统计汉字应该从构形系统出发,坚持字形单位原则和构造功能原则,即根据字形的构造功能归纳成不同的字形单位,然后对单位的正体作出统计。这样,相对于仅据笔画形体的统计,应该把同功能异写字(含错讹字)的字数扣除,并加上同形异构字的字数;相对于仅据记词功能的统计,应该加上同符异构字,并将同音借用字的数量减去。【关键词】 汉字数量,统计原则,字形单位,构造功能 用来记录汉语的汉字究竟有多少,恐怕至今没有人能说得清楚。这不是因为无人统计,而是因为统计没有原则,或者虽有原则而这原则并不科学,所以统计出来的结果经不起推敲。目前所见有这样两种类型的字数统计: 一,累积型通用字典的字数统计。东汉许慎说文解字收正篆9353个,重文1163个;南朝梁顾野王玉篇收楷书约22000个;宋代司马光类篇收字31319个;宋丁度等集韵共收53525字;清张玉书等康熙字典共收47035字;近代陆费逵等中华大字典共收48000多字。又现代编纂的汉语大字典“是汉字楷书单字的汇编,共计收列单字56000左右”(前言),而最近出版的中华字海又将所收楷书字数上升到“85000余个”(前言)。 二,服务于特定语料的字表或字编中的字数统计。朱芳圃编甲骨学文字编收单字845个,重文3469个;中国科学院考古研究所编甲骨文编合正编、附录共计4672字;容庚编金文编正编收录金文字头2402个,重文19357个,附录收字1352个,重文1132个;容庚金文续编正编收字951个,重文6084个,附录收字34个,重文14个;张守中编中山王厝器文字编收单字505个,合文13个,存疑字19个,形体共2458个;秦公辑碑别字新编收字头2528个,别字12844个;罗福颐编汉印文字征正编收2646字,重文7432字,附录收字143个,重文18个;滕壬生楚系简帛文字编共计摹写收录文字形体19250个,分为单字、合文、重文、存疑字四部分。 我们先不必拘泥于各家的具体字数,而应该考察一下这些数字是怎样得出来的。大致说来,上述数据的统计有两个原则,一是笔画形体原则,二是记词功能原则。所谓笔画形体原则,是从书写着眼的,只要笔画形体相同,即使代表不同的词也只算一个字;而凡是笔画上有差异的形体(包括错讹的形体),不管它是不是同一个字的不同写法,都算作不同的字。例如汉语大字典的所谓56000左右字和中华字海的85000余字就都是按这个原则统计出来的,因而象“世、丗、丗、卋、卋”被统计成了五个字,“户、戶、戸”也被统计为三个字。但按照这样的原则统计汉字理论上是不科学的,实际上也是难以办到的。因为汉字的书写变体千差万别,收不胜收,是根本无法作出精确统计的。中华字海号称“当今世界收汉字最多的字典”,而事实上远非汉字形体的全部,单就传世文献的印刷字体而言,我们已看到多篇“补遗”性质的文章,拾掇了许多漏收的形体,而我们翻阅魏晋以后的诗文杂录等口语色彩较浓的著作,还会时时遇见在中华字海中查不到的奇怪形体。要是加上手写本,例如吐鲁藩、敦煌等地文书中的俗字异体,那就更不得了。而且,中华字海虽是只统计楷书,但其中的许多形体实际上是历代从篆隶金石文字转写而来的,现在地下古文字层出不穷,如果按照同一原则,将所有古文字的各种形体转写成楷书而收入字典并加统计,例如上举各种字表字编中的形体(包括重文),那汉字的数量就会急剧膀胀,决不止几万,而是几十万、几百万,甚至上千万!何况随着汉字的继续沿用,个人手写体的千变万化,汉字形体的差异是无穷尽的,因而汉字的数量在这一原则指导下也将是永远无法精确统计的。 所谓记词功能原则,是从用字的角度出发,按照文献中是否记录同一个词来归纳和统计汉字,要是记录同一个词,即使写法和结构都不同,也仍然算作一个字,如果记词功能不同,同样的形体也被算作不同的字。上举服务于特定语料的字表字编中的字头大都是按这一原则设立和统计的,其所谓重文实际上是与字头算作一个字的。例如楚系简帛文字编一方面将有衣的“裘”和无衣的“求”列于同一“裘”字头下算作一个字,另一方面“凡一字而数用者分别重出”,即同一形体有时算作不同的几个字,包括同音借用现象。这样的处理原则混淆了字与词的界线,模糊了构形与字用的差异,虽有便于阅读之功(因为字头与词的用法对应),却完全不顾字的形体,实际上已超越汉字本体,当然更无法反映汉字数量的真实。 那么,究竟应该怎样来把握汉字的数量呢?我们认为首先应该确定究竟怎样才算一个“字”,字的单位不明确,要进行统计就无法操作。我们说记录汉语的书面符号体系一共有多少个“字”,这“字”当然是从构造的角度说的,意即为记录汉语而造过多少个字,并不是指写过多少个形体,也不是指用字记录过多少个词或义项,因此,统计汉字数量与汉字的书写(包括印刷)和汉字的使用虽然有关,但并不是一回事。我们应该从汉字的使用和书写实际中,着眼于汉字的构形来归纳和统计汉字的数量。为此,我们需要确立如下两个原则: 1、字形单位原则。即所谓多少“字”,这“字”是指经过归纳的形体单位而言,不是指一个个自然的书写形体。自然的书写形体往往是千差万别的,但其差别具有两种不同的性质,一种是形征差别,一种是功能差别。所谓形征,是指一个形体区别于另一个形体的外在特征。如笔画的有无,同样笔画的长短、粗细、曲直、走势及交接点的不同等,都构成外在特征的不同;构件的多少、同异,相同构件的不同位置、方向及所占面积的大小等,当然也构成外在特征的差别。可以说,除了电脑和机械印刷,任何一个手写的汉字形体都会有区别于另一个形体的特征,尽管这种区别特征有时会小得肉眼难以发现。手写形体之间的形征差异是普遍的客观存在,但这种差异是着眼于外形的,非本质的,并不一定引起形体结构或功能的变化,因而它不是构形分析的主要对象,也不能成为统计汉字的唯一根据。就是说,仅有形征差别的不同形体不一定要算作不同的“字”。 构形分析的主要内容应该是形体的功能,形体只有结合了功能才能体现自身的本质特征。如果我们把功能不同的形体区分为不同的单位,而把功能相同的形体集合为同一单位,那就会形成形体的类聚。这种类聚而成的同功能形体单位可以简称为形位。形体单位虽然是特定对象最小最基本的功能类聚,但往往包含两个以上不同形征的形体,为了指称的方便,通常选择其中的一个形体作该单位的代表,这样的代表形体就叫正体,与正体相对的可以叫变体。同一形体单位内部只有形征差别而没有功能对立,所以在统计时只能算作一个单位,也就是正体和变体应该按一个字计算,而不能仅仅因为它们有笔画等形征差异就分作几个字。从这样的原则出发,上举“世、丗、丗、卋、卋”等形体就应该只算作一个字,因为“丗、丗、卋、卋”等变体实际上只是正体“世”字的不同写法而已。“户”字的形体关系可以类推。 2、构造功能原则。形体单位具有不同的级别和层面,例如笔画形位、构件形位等。就全字的功能类聚来说,实际上又具有两种身份,一是字形,二是字符。字形有字形的功能,指的是直接构件的功能组合关系,也就是全字的构造意图或构形理据;字符有字符的功能,指的是全字作为书写符号应该用来记录语言中的哪个词,也就是字符的实际用法,包括本义和引申义。将字形功能相同的字样类聚为一个单位,我们把它叫字形单位,简称为字位;将字符功能相同的字样类聚为一个单位,我们称之为字符单位,简称为符位。字位与符位通常情况下是一致的,但有时一个符位可能拥有几个不同的字位。就是说,几个字形的构造功能不同,自然应是几个不同的字位,但都是为记录同一词语而造的,所以又属于同一个符位,这就是同符异构字。如“径”与“迳”,或从彳,或从辶,构造功能不同(体现为构件不同),属于两个字位,但都是语言中表小路义的“jng”这个词项的固定符号,所以又属同一字符。 传统语言学中所称的“字”有时指字符(符位),有时指字形(字位),并不确定,如说“某字与某字实为一字”,前两个“字”是指称字形,后一个“字”则是指称字符。从字用的角度看,用法相同即算同一单位,所以上举字表类往往把“径”“迳”之类的异构字列于同一字头而算作一字。但从构形的角度看,既然构件不同,就是另造了不同的字,应该算作几个不同的单位。汉字数量的统计无疑是构形系统内的事,所以应该采取构形角度的原则,即只要构造功能不同,就应该算作不同的字,所以同符异构字是应该分别计算字数的。 根据同样的原则,同形异构字也应该算作不同的字。例如古文字上“隹”下“又”这一形体,既表示用手抓到鸟的“隻(获)”字,又表示手中只有一只鸟的“隻(只)”字,尽管形体相同,但构造理据不同,读音和记录的词项也各不同,实际上属于不同的字符,所以应该按两个字计算。这种不同字符共用同一字形的现象,跟借用同音字表示不同字符的情况是不同的。前者即同形异构字属于构形现象,形同而音义不同,但各自的形义之间都有固定的内在联系;后者即同音借用字属于字用现象,只借其音以记词,词义与借字的形体毫无联系。同音借用与构形造字无关,因而与字数的统计也无关,我们不能因为甲字临时借用为乙字就将甲字统计为甲乙二字。 总之,根据字形的构造功能归纳成不同的字形单位,对单位的正体作出统计,这样才能得出汉字的实际字数。相对于仅据笔画形体的统计,我们应该把同功能异写字(含错讹字)的字数扣除,并加上同形异构字的字数;相对于仅据记词功能的统计,我们应该加上同符异构字的数量,并将同音借用字的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论