版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
PAGE4“人”“机”分词差异及规范词典的收词依据——对645条常用词未见于《现汉》的思考刊《辞书研究》2000年第2期厦门大学苏新春顾江萍一、笔者在最近作的一项词语调查中,偶然发现一个颇有意味的数据,《现代汉语频率词典》(下称《频率》)统计出来的8548条常用词,《现代汉语频率词典》,北京语言学院语言教学研究所编,北京语言学院出版社,1986版。491-656页:使用度最高的前8000个词词表。《现代汉语频率词典》,北京语言学院语言教学研究所编,北京语言学院出版社,1986版。491-656页:使用度最高的前8000个词词表。《现汉》是我国目前为止反映现代汉语词汇最具权威性的词典。调查的《现汉》是第二版,即1983年版,内容与1979年第一版基本相同。《频率》是我国第一部有严格计量统计数据的现代汉语汇频率词典,1986年出版,实际研究工作始于1979年。两书截取语料的时间相当接近,具有较好的可比性。《现汉》在1996年出版了修订本,645条常用词中只有80条增收其中,而占88%的词语仍未收,因此以第二版的《现汉》为基本比较材料,再辅之以与“修订版”的比较。未见于《现汉》的645条常用词中,双音词370条,单音词169条。645条中使用度最高的位于第57位(动词的“到”),最低的位于8547位(名词的“比方”),平均数为4921,这个平均数表明它们在8548条常用词中排在比较前的位置。在各千字段的分布情况如下:曲线图显示645条未见词语在8548条常用词的各千字段中呈缓慢上升的趋势,但差别不大,也就是说645条未收词语均衡分布于按序号排列的8548条常用词之中,其常用性有较普遍的性质。那么这些未见于《现汉》的常用词有着什么样的结构特征?据此可分出以下四类:第一类“固定语”。所谓固定语就是它们不太像一般的词语那样有较强的独立运用和较完整的意义的特点,只是在言语使用中紧密地凝合在一起。如“要不是4106”、“极为7495”、“售货2721”、“伤病员6886”、“不得不2296”、“就是说1970”、“绝大多数8297”、“这样一来4766”、“从中6337”、“为的是6013”、“恨不得5811”、“老是4183”、“较为6633”、“越来越1218”。(词语后面的数字表示8548条常用词的顺序号)词语后面的数字为《现代汉语频率词典》按使用度统计的8548条常用词的序号,序号愈靠前的表示使用度愈高,愈常见。本类共88例,占13.6词语后面的数字为《现代汉语频率词典》按使用度统计的8548条常用词的序号,序号愈靠前的表示使用度愈高,愈常见。第二类“词性分词”。指的是根据不同的语法功能而将同形同音近义,或同形近音近义的词分立为多个词语,而这些词在《现汉》中都是作为一个词出现的。如“声明(动)5794”——“声明(名)7369”,“箱(名)2502”——“箱(量)7181”,“来回(副)4698”——“来回(名)7478”,“极(副)405第三类“固定搭配结构”。如“一面……,一面……1592”、“既……又……7629”、“……来……去4412”、“对……来说3982”、“……分之……716”、“有……第四类“一般词语”。它们与人们的语感较接近,一般都看作是通用词语,如“变成509”、“高产7817”、“全会5551”、“判处6271”、“花市5705”。本类共328例,占50.9%。这部分内容相当复杂,下面将会作专门的分析。上述一、二、三类显示《频率》对词语的切分是有其特殊之处的。主要表现为两点,首先,它看重的是在言语实际中的凝固程度与复现率,只要具备这样的条件就可以切分出来成“词”,故有了类似“来自”“较为”“不得不”“之上”“有所”“得慌”“不是吗”这样的词语。这种切分原则跟通常要求“词”具有“意义的完整性”和“使用上的独立性”有着明显的区别。把结构的凝固程度与频率的复现率放在首要地位来考虑,放在超出于词语意义的完整性和使用上的独立性来考虑,恰恰是词汇计量统计的基本特点。固定搭配结构大量出现的原因也在于此。《现汉》中已经有了34例固定搭配结构的词目,如“半……不……”、“大……特……”、“似……非……”等,只是《频率》更加注意反映这种固定搭配结构,提炼出来立目的数量多,划分细。其次,重视语法功能的差异,不同语法功能的用法都切分出来独立为不同的词目。拙文《同形词与“词”的意义范围》苏新春《同形词与“词”的意义范围——析〈现代汉语词典〉的同形词词目》,刊《辞书研究》2000年第5期。曾经指出这是《现汉》分词的特点之一,如把名词的“赤膊”和动词的“赤膊”分成两个词。而《频率》在这点上更进了一步,分割的词语数量多,离析的语法功能更细微。如“包”有名、动、量三个词,“苏新春《同形词与“词”的意义范围——析〈现代汉语词典〉的同形词词目》,刊《辞书研究》2000年第5期。上述两个特点体现了“机器分语”的性质和要求,它们直接影响到第二、三类的全部和第一类的大部,数量占到645条常用词的几乎一半。而《现汉》的分词则基本上还是考虑词语意义的完整性和使用上的独立性,这种分词原则可以说是“人的分词”。两种不同的分词原则,必然会产生不尽相同的分词结果。不认识到这点,以此框彼,或以彼框此,都有失准衡。这就是本文的题目用“未见”而不用“缺收”或“漏收”的原因。二、据仍未受到编纂现代汉语规范词典人们的重视。象下面这些常用词仍被排除在96年版的《现汉》之外就很难说得过去:“各种666”、“唯物1091”、“可怕2579”、“绿色2760”、“被迫3018”、“各种各样3611”、“自言自语4039”、“极左4206”、“大跃进4479”、“四化4577”、“大字报5904”、“院校5923”、通过上面的分析可以看到,《频率》对词的切分和对常用词的认定,有着它特自的要求,体现了“机器分词”的性质和特点。《现汉》作为主要供“人”使用的词典,在对词的切分上仍保留传统的对词的确认原则和方法。那么《现汉》在这样的原则和方法下依靠什么来确定词目的取舍?是“词的使用频率”。《现汉》的编纂者们也认识到了这一点:“选词的依据主要不是看查考的需要,而是看词语在语言使用中出现的频率”,同但实际情况看来与此还有相当的差距。要知道本文所例举的常用词都是位于现代汉语最常用的8548条词语之中,而《现汉》的收词却是它的七倍。如果我们的收词工作能更多地依靠、并依靠更多的词频数据,剔除那些属于“机器”而非“人”的观照下出现的词语,这样的词语基本上就可以用来作为我们的词目。《频率》作为我国第一部立足于
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 企业品牌形象建设方案模板及实施步骤
- 环保行为履行承诺书范文6篇
- 企业控制制度框架与案例
- 财务数据安全防护方案
- 年度业绩评估函回复7篇范本
- 客户关系管理系统部署确认函(9篇)范文
- 电子数据备份与复原方案
- 前沿技术研发持续稳定投入承诺书(3篇)
- 资金安全合规管理承诺函4篇
- 电子信息安全守秘责任承诺书3篇
- 园长陪餐管理制度
- 国华电力安全生产培训课件
- 人教版数学七年级下册第八章实数单元测试训练卷(含答案)
- 压疮管理小组年终总结
- 铝电解工(铝电解操作工)职业资格(技师)考试题库-下(多选、判断题)
- 香料基础理论知识单选题100道及答案解析
- NB-T10636-2021光伏发电站逆变器及汇流箱技术监督规程
- 列宁人物课件
- 2016-2023年郑州信息科技职业学院高职单招(英语/数学/语文)笔试历年参考题库含答案解析
- 广西版四年级下册美术教案
- 房建工程监理大纲
评论
0/150
提交评论