




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于语料库的汉语字词相关性研究盛玉麒一、概 说文字是记录语言的书面符号系统。“字母文字系统“通过记录语音实现对语言的记录。字母本身就成为一个个的记音符号,被语言的音位系统赋予了“音“的属性。汉字是世界上独特的文字,它在记录汉语的同时,不但使汉语由“口耳“交际的符号系统转换成为“眼口耳“信息交换的符号系统,而且使汉字本身在动态的系统中被赋予了语言的属性。绝大多数汉字是一个个单音节的语素或词。由于汉字记录汉语时不实行“分词连写“,所以,在书面上,汉语的“字“、“语素“与“词“特别是“单音节词“以及词与词组之间存在界限不清的复杂关系。“汉字本位“的中国传统语言学与“词语本位“的现代语言学分别从两个不同的角度和界面入手,试图解决汉语结构规律,都分别遇到了不同的难题:传统语言学离开了语言中的“词儿“几乎无法深入讨论“词法“、“句法“等一系列语言学问题,无法精确描写和理解汉语,尤其无法进行智能化中文信息处理的研究;现代语言学尽管从语言中最小的使用单位“词儿“出发,可以架构出严整的理论体系和缜密的组织规律,但是,在汉语中关于词的“切分“、“定类“等基础研究方面,又遇到许多二难的障碍。这个基本问题不解决,进一步的理论研究几乎是“沙上建塔“。如果抛开汉字,单纯从“词“的音义属性出发,能否找到解决汉语结构规律的密钥呢?虽然不能排除这种可能性,但是实践起来很难。因为即使使用一套音标符号把一个一个的音节或词语都记录了下来,这套音标符号仍然不是“文字系统“,仍然与实用的书面符号系统不同。对于使用汉语汉字的人来说,已经形成了“汉字式“认知模式,甚至在口语中也时常少不了像“字眼儿“、“咬字吐词“、“字正腔圆“等以字代词、以词代字的说法。因此,汉语规律的研究无法离开或摆脱汉字,也不能离开或脱离词语。本文试图将二者结合起来,从一个新的角度和方法研究书面汉语的组织结构规律,以适应汉语教学、汉语理解和信息处理技术的需要。从书面上看,汉语的“词儿“就是由一个或几个单字所组成的。汉语语法无非是“组字成词“和“谴词造句“的方法。语言本身是一个“习惯的系统“。其中许多“规律“包括词语的创造原则与构成方式等都是“约定俗成“的。这个“约定俗成“既有有章可循的规律或道理,又有许多无章可循的、既没规律又无道理的“例外“,如一些强制性的“积非成是“的习惯或语言事实。以动词“吃“为例,既可以接所有能够用嘴吃的东西、也可以接属于“吞咽到胃里“东西、甚至可以接根本与“嘴“咀嚼无关的东西或事情:像“吃饭“、“吃烟“、“吃醋“、“吃闷棍“、“吃官司“、“吃回扣“、“吃这一?quot;,甚至“吃床腿“等等。显然,单纯从意义搭配或语法关系的角度,有时很难解决这些活跃在日常语言中的词汇现象。如果我们从数理语言学的角度,运用数理统计的方法,就会发现,在书面汉语的语言事实中,不管是“规律“还是“例外“,都符合一种“统计学的规律“:例如一个“双音词“,表现在书面上就是两个词,而且,这两个字必然经常连在一起出现;反之,如果两个字之间不构成一个词,那么,它们一般就不会经常在一起出现。我们可以根据这个特点,找出字与字、词与词、字与词之间是否经常在一起出现的规律,也就是“字词相关性“,将其推而广之,就可以发现书面汉语中的“词法“、“句法“甚至“章法“的组织与结构规律了。汉语的“分词“是中文信息处理各个应用系统中经常遇到的一个难题。如果不分词,关于汉语的词类划分、语法关系与规则的描写等,就没有了着落,语言的理解也就无从下手。可是,在现实生活中,使用汉语的人一般好象不大注意“词儿“,“词“和“非词“的界限是比较模糊的;另一方面,也不大计较在一个句子中使用的是什么“词类“、是名词还是动词、是及物动词还是不及物动词。即使在纠正病句时,通常也不说“你这里应当用动词、不应当用形容词“;或者“这里应当用及物动词、不应当用不及物动词“,等等。人们注意的只是一个现成的语流中现实的字符串的合理性,或者叫“可理解性“。这个合理性或“可理解性“可以从字词相关性中找出来。另外,由于是使用汉字记录汉语,所以,说话时的同音词表现在汉字中一定用不同的同音字代替,例如:不能把“安徽“写成“安灰“,也不能把“高兴“写成“高性“或“高姓“。这说明汉字已经成为“专字专用“的一种书写符号系统。一切关于现代汉语的研究都无法离开书面汉语,一切关于书面汉语的研究都不能离开汉字。所以,从这个意义上说,关于现代汉语字词相关性的研究,是揭示现代汉语内在规律的重要途径。字与字的相关性、字与词的相关性以及词与词的相关性可以归结为汉语的“马尔科夫“特征。这是所有离散集合的一个普遍规律性特征。运用这个特征,可以发现和解决“字本位“的传统语言学无法发现的问题,也可以发现和解决“词本位“的现代语言学对于书面汉语无法解决的问题。笔者从 1987 年开始研究这个问题,通过研制信息处理用现代汉语三万词语集、当代汉语流通频度词典、信息处理用现代汉语港台词语集以及对邓小平文选、十三经、红楼梦、金瓶梅、醒世姻缘传等语料的抽样统计分析,探讨汉语字词相关性研究的科学性和可操作性,尝试解决自然语言理解和智能化中文信息处理中的语言规律问题。本文汇报第一部分,向专家学者请教。二、字字相关性汉语自然语言和话语是一些连续的“语音流“。汉字通过记录汉语一个一个的音节,形成书面汉语的“汉字流“或“字符流“。所有的汉字所组成的集合是一个离散元素的集合。汉字字符之间联系的疏密程度各不相同。每一个汉字与其它汉字字符之间的关系实际上是由语言的规律或规则决定的。这些规律或规则就是汉语语法,包括词法和句法。语言本身是一种约定俗成的符号系统,或者说是一种“习惯“的系统。在这个系统中,约定的规则或规律从某种意义上说,完全是一种统计特征。语言的规则或规律是一种“少数服从多数“的原则。这种“多数原则“就是“统计学“的原则。统计字与字的相关性,具体操作起来可以有多种方法,但是都不外乎是从定量的语料或文本中进行抽样统计。把汉字放在实际语用环境中,找出该字与前后字符之间的相关性程度。我们可以统计得到:(1)单字的使用频度(2)两个汉字“同现“(连用)的频度根据这两个指标,可以分析出连用的两个汉字具有什么程度的相关性。可想而知,组成一个“双字词“的两个字一定经常在一起出现,它们之间的“同现概率“高,相关性就高;反过来说,同现频度高的两个字很有可能就是一个两字词。比较极端的例子是一些连绵词,例如“蜿蜒“、“徘徊“、“崎岖“、“蜻蜓“之类,它们总是连在一起使用的,从来没有单个使用的情况。因此,它们的单字出现的绝对频率也等于两个字同现的绝对频率。但是,在汉语中,像连绵词这样的例子毕竟是少数,主要的都是既能单用的、又能搭配使用的,而且一个汉字往往与多个汉字搭配使用。这样,这个汉字的单字频率,就分布在它所有相关同现的组合中了。根据这些相关组合的出现频率,可以推知哪些相关性强、哪些相关性弱。另一方面,在进行判断的时侯,还应当参考与之相关组合其它单字的使用频率,看该组合的频率占该字使用频率的比例。三、意义分析如果我们把相关词表按降频排列,就可以发现,任何一个“字“的“相关字“都不同。即使都与某些字相关,其相关系数也不相同。因此,降频表就表现出“同码优选“的一种原则顺序和科学依据。在中文信息处理各个应用领域中有许多问题,例如键盘输入中的“重码选择“、语音识别与语音合成中的“同模判断“、机器翻译与自然语言理解中的“歧义处理“等等,几乎都可以归结为“同码选择“问题,都可以通过建立相关词表来实现优选优化。例:从邓小平文选相关性统计表中选择的例子:(说明:字后的数字表示该组合出现的次数,下同)“我“字系列相关表举例 1(仅举二级相关)我们 85 我军 12 我想 9 我对 3 我讲 3 我就 3 我在 3 我国 2 们的 19 军队 101 想。 12 对派 6 讲的 12 就是 51 在军 12 国家 9们军 13 军的 16 想, 6 对这 6 讲了 10 就不 12 在有 10 国民 6们要 9 军要 8 想的 6 对宗 6 讲清 6 就要 8 在这 10 国防 5们这 8 军内 7 想不 2 对他 5 讲, 5 就有 8 在一 8 国际 5们党 6 军里 5 想懒 2 对于 5 讲话 4 就会 5 在不 6 国人 3们有 6 军干 4 想是 2 对闹 3 讲到 3 就没 5 在战 4 国都 2们一 4 想体 2 对的 2 讲错 2 就好 4 在职 4 国工 2想问 2 对干 2 讲过 2 就更 3 在是 4 国国 2二级相关可以发现三字词语的使用情况,如“我们的“、“我们要“、“我对这“等等。例:从万字符的现代汉语文学作品相关性统计表中选择的例子:“我“字系列相关表举例我们 4451们的 1263 的, 6847 的。 4356 的人 2801人家 2101 家里 1564 里, 2689人的 1543 家的 800 里的 1472人。 1027 家, 738 里去 1082人们 415 里面 724的一 2623 一个 8569 个人 2399 人家 2101 一点 2495 人的 1543 一定 1398 人。 1027 一声 1296 人们 415 一下 1225 一种 1195 们这 450 这样 3752 们不 373 这一 2528 们一 357 这里 1998 们都 338 这个 1962 们也 309 这是 1511 们是 304 这些 1244 从多级高相关性关系中,可以发现常用的“多字串“,例如“我们的人家里“、“我们的一个人家“、“我们这样“等等。四、讨 论汉字的数量是有定的。在国家标准信息处理用汉字编码字符集基本集中,共收入了个汉字和个非汉字符号(主要是笔画、和非字部首)。从理论上说,字组的“相关串“应当有 6724672445212176 个。但是,实际上,远没有那么多。 这里的约束机制在于汉语“组字成词“、“遣词造句“等语言学规则。正因为这样,字词相关性的研究才可以帮助我们找到隐藏在其中的规律性。在我们的研究中,还发现汉字在句子中的分布特征。例如,有些字只出现在句子首位,有些字则只出现在句子结尾,更多的字则是呈不同比例的分布特征。这一特点可以用于自动分词、自动识别等技术。此外,除了象“连绵词“这类“绝对正相关“之外,还有一类从来不在一起出现的、我们称之为“绝对负相关“的现象。这一特征在模式识别的粗分类中具有一定的实用价值。汉语字词相关性研究是一个新的研究课题,具有重要的理论意义和应用价值。限于篇幅,本文只是简单地介绍了字字相关性的研究概况(其他部分另文专述),希望引起学界的关心和注意。虽然我们经过多年努力,进行了大量基础理论与应用的探索研究,但是还有许多课题有待进一步的开发。 本研究曾经得到导师殷焕先教授以及钱文浩、许钦文、葛本仪等许多先生的指导,写作过程中参考了国内外有关专家的论著,恕不一一列出,在此一并致谢。现代书面汉语中的非汉字符号研究孙启高现代书面汉语中的非汉字符号主要是指现代书面汉语中除汉字以外的其他记录符号,包括标点符号、阿拉伯数字、字母和一些科学符号(如数学符号、化学符号)等。非汉字符号正在越来越多地影响着人们的生活,对语文生活的影响更加明显,所以引起了广大语言学者的关注。当前对于非汉字符号的研究,并没有将其纳入整个汉语书面记录系统,没有将这些非汉字符号作为汉语书面系统的子系统,而主要是从标点符号、阿拉伯数字或字母的一个方面来论述具体问题,或者谈标点符号的发展历程,或者谈阿拉伯数字的用法,或者谈字母词的规范,而对这些非汉字符号的功能,对非汉字符号与汉字的关系、与书面汉语的关系,对非汉字符号在书面汉语中的发展趋势等等,都缺乏系统的研究。我们认为,非汉字符号的作用和影响不可忽视,现代汉字学应该重视和加强对非汉字符号的研究。 本文以标点符号、阿拉伯数字和字母为主要研究对象,通过建立现代汉语语料库,对这些非汉字符号进行抽样统计和分析,采用定性与定量研究、比较研究、系统功能分析方法等,探讨非汉字符号在现代书面汉语中的功能,对非汉字符号的规范提出建议。本文的主要观点是: 非汉字符号是现代书面汉语重要的辅助性交际工具,对完善现代汉字系统的记录功能,辅助语言进行交际具有重要作用。非汉字符号的产生和发展有外部社会因素的影响,更重要的是语言内部的原因,即现代汉字不能完全满足记录现代汉语的需要。非汉字符号具有辅助汉字记录汉语,优化汉字记录功能的作用。非汉字符号(尤其是外来字母)的使用当前呈现出越来越多的趋势,在一定时期内,这种趋势还会持续下去。对外来字母这样的非汉字符号,我们既不能盲目禁止,也不能任其泛滥,应该加强研究,对其形式、读音、意义、数量、排序等问题进行适当规范,使其更加符合语言规范和交际的需要。现代汉语网络课件文字部分的题型研究焦青萍现代汉语网络课件适应信息网络时代的特点和需要,利用现代化的技术手段,采用声音、图像、动画等多种表现形式,突破过去单一口耳交际的“时空“局限,实现了真正意义的远程教学。本文基于网络教学的背景与计算机测试的特点,采用定性与定量相结合的研究方法,系统地介绍题型的测试指标和常用的测试方法,分析现代汉语网络课件文字部分的教学内容和测试内容,探讨在题型设计过程中如何体现题型与知识点的关系,提出题型设计的原则,并对各类题型的主要特点和命题要求进行系统分析。全文主要包括以下四个部分:第一章 概论主要介绍了本文选题的背景、计算机测试的特点以及本文的研究重点、研究材料和方法。第二章 计算机测试的理论和方法主要介绍计算机测试方法的评价指标,测试方法的有效性、可靠性,试题质量标准以及现代汉语常用的测试题型,然后运用计算机测试的理论和方法,对现代汉语各类题型的有效性、难度、区分度进行统计、分析,说明题型对试题的难度、信度、区分度均有重要的影响。通过题库的智能组卷、计算机阅卷、测试分析、试题管理等功能的实现,进一步改善计算机测试的理论与方法。第三章 题型与知识点的关系提出文字的知识网络观点,用广度系数、深度系数、综合系数、容量系数四个指数来说明题型与知识点的关系。通过对文字的知识点、难点以及测试内容的说明,分析填空题、选择题、是非题、简答题、论述题等题型是如何从不同角度考查知识点的。第四章 题型设计与分析根据命题的基本要求,提出题型设计的六大原则:认知原则、分析原则、评价原则、反馈原则、激励原则、更新原则。在此基础上对主客观题型特点以及各类基本题型结构、命题要求、适应范围等进行系统地比较分析。现代汉语双宾构造研究徐德宽本文研究的对象是现代汉语双宾构造,分为五章:第一章为引论部分。在这一章,首先对本文的研究对象、目标、方法和意义进行了阐述。本文的研究对象是现代汉语普通话的双宾构造,研究的目的是在前人研究的基础上,运用当代语言学理论,特别是生成语法理论,对现代汉语的双宾构造进行梳理和详尽的语义、句法分析,力争使双宾构造的研究能够更进一步,同时在一些理论性问题上也提出自己的看法,进而促进当代语言学理论的发展。最后把研究的结果应用到机器翻译系统中去,一方面对自己的研究进行验证,另一方面也希望改善机器翻译系统对于现代汉语双宾构造处理的现状。接着对双宾构造的研究现状进行了总结,分为古代汉语双宾构造研究、现代汉语方言双宾构造研究和现代汉语普通话双宾构造研究三部分。最后阐述了本研究所采用的理论框架-生成语法理论。第二章论述了现代汉语双宾构造的鉴别标准。在充分借鉴前人研究成果的基础上,利用语料库语言学的研究方法,在一个自建的规模为 6,600 多万字的现代汉语语料库中对由“给“字所构成的双宾构造进行了检索,然后进行了详细的分类和分析,在此基础上提出了新的现代汉语双宾构造的鉴别标准:凡是一个动词后带有两个名词性成分,这两个成分之间不存在结构关系,且第一个名词(N1)具有人的属性而第二个名词(N2)具有物的属性,即 VN1人N2物构造是双宾构造。并根据此标准从现代汉语词典中整理出了“现代汉语双宾动词词表“,为本文及以后的进一步研究奠定了基础。第三章对现代汉语双宾构造进行了语义分析。在这一章对双宾构造的句式语义、两个宾语的语义选择和题元角色进行了详尽的分析。首先,通过对现代汉语双宾构造的整体意义分析,以及对从语料库中检索出的包含“借“的双宾构造具体意义的个案分析,得出“现代汉语双宾构造的句式语义是N1 由于 V 而得到或失去 N2“的结论,发展了对双宾构造句式语义的看法。接着,在充分考察现有名词语义特征分类系统的基础上,提出了“针对双宾构造研究的现代汉语名词语义特征分类系统“,然后根据该“分类系统“对“现代汉语双宾动词词表“中所有动词构成的双宾构造进行了详尽的描写和分析。在本章的最后一部分,对双宾构造两个宾语的题元角色进行了分析,并整理出“现代汉语双宾构造中两个宾语的题元角色配合类型表“。这一部分所采用的“针对双宾构造研究的现代汉语题元角色系统“,也是在充分借鉴前人研究成果的基础上针对双宾构造研究而专门提出的。第四章对现代汉语双宾构造进行了句法分析,重点是现代汉语双宾构造的生成过程和句法变换。首先,回顾了现有的基于生成语法模式的双宾构造生成理论,并指出了其中的问题。然后根?quot;最简方案“中的有关假设提出了对现代汉语双宾构造生成过程的分析方法。这种分析方法的转换过程简单、明晰,并且能够同语义紧密结合,成功地解释了双宾构造的句式语义。同时,这一分析方法也发展了“最简方案“关于“轻动词“的理论。最后考察了双宾构造的两种句法变换:话题化和关系化,并探讨了影响这些变换的因素,其中既有句法方面的,也有语义方面的,甚至还有语用方面的。通过这些探索,我们更加深入地理解了双宾构造的内部结构及其在句法语义方面的特点。 双宾构造语义分析和句法分析的研究成果,对于汉语的计算机处理以及对外汉语教学都具有重大的理论和应用价值。在第五章我们把这些研究成果在机器翻译系统中进行了应用。我们先用两个已经商品化了的机器翻译系统将 11 个包含双宾构造的汉语句子翻译成英语,得到的翻译结果并不理想。然后又在一个可自定义翻译语法规则的系统中将我们的研究成果加以应用,发现,由于受到其他方面的研究以及技术(主要是计算机自动分词技术)上的制约,仍然难以达到理想的效果。最后,我们利用“雅信 2.5“使用了 TM 和 CAM 技术的特点,制作了翻译记忆库,再让系统进行双宾构造的翻译,取得了比较满意的结果。我们期望,随着对双宾构造研究的进一步深入,随着其他方面(包括现代汉语和英语的句处理、词处理,也包括字处理,甚至语篇处理)研究的不断进步,随着机器翻译技术的不断发展,现代汉语双宾构造的机器翻译问题最终能够得到圆满解决。基于语料库的汉语字词相关性研究盛玉麒一、概 说文字是记录语言的书面符号系统。“字母文字系统“通过记录语音实现对语言的记录。字母本身就成为一个个的记音符号,被语言的音位系统赋予了“音“的属性。汉字是世界上独特的文字,它在记录汉语的同时,不但使汉语由“口耳“交际的符号系统转换成为“眼口耳“信息交换的符号系统,而且使汉字本身在动态的系统中被赋予了语言的属性。绝大多数汉字是一个个单音节的语素或词。由于汉字记录汉语时不实行“分词连写“,所以,在书面上,汉语的“字“、“语素“与“词“特别是“单音节词“以及词与词组之间存在界限不清的复杂关系。“汉字本位“的中国传统语言学与“词语本位“的现代语言学分别从两个不同的角度和界面入手,试图解决汉语结构规律,都分别遇到了不同的难题:传统语言学离开了语言中的“词儿“几乎无法深入讨论“词法“、“句法“等一系列语言学问题,无法精确描写和理解汉语,尤其无法进行智能化中文信息处理的研究;现代语言学尽管从语言中最小的使用单位“词儿“出发,可以架构出严整的理论体系和缜密的组织规律,但是,在汉语中关于词的“切分“、“定类“等基础研究方面,又遇到许多二难的障碍。这个基本问题不解决,进一步的理论研究几乎是“沙上建塔“。如果抛开汉字,单纯从“词“的音义属性出发,能否找到解决汉语结构规律的密钥呢?虽然不能排除这种可能性,但是实践起来很难。因为即使使用一套音标符号把一个一个的音节或词语都记录了下来,这套音标符号仍然不是“文字系统“,仍然与实用的书面符号系统不同。对于使用汉语汉字的人来说,已经形成了“汉字式“认知模式,甚至在口语中也时常少不了像“字眼儿“、“咬字吐词“、“字正腔圆“等以字代词、以词代字的说法。因此,汉语规律的研究无法离开或摆脱汉字,也不能离开或脱离词语。本文试图将二者结合起来,从一个新的角度和方法研究书面汉语的组织结构规律,以适应汉语教学、汉语理解和信息处理技术的需要。从书面上看,汉语的“词儿“就是由一个或几个单字所组成的。汉语语法无非是“组字成词“和“谴词造句“的方法。语言本身是一个“习惯的系统“。其中许多“规律“包括词语的创造原则与构成方式等都是“约定俗成“的。这个“约定俗成“既有有章可循的规律或道理,又有许多无章可循的、既没规律又无道理的“例外“,如一些强制性的“积非成是“的习惯或语言事实。以动词“吃“为例,既可以接所有能够用嘴吃的东西、也可以接属于“吞咽到胃里“东西、甚至可以接根本与“嘴“咀嚼无关的东西或事情:像“吃饭“、“吃烟“、“吃醋“、“吃闷棍“、“吃官司“、“吃回扣“、“吃这一?quot;,甚至“吃床腿“等等。显然,单纯从意义搭配或语法关系的角度,有时很难解决这些活跃在日常语言中的词汇现象。如果我们从数理语言学的角度,运用数理统计的方法,就会发现,在书面汉语的语言事实中,不管是“规律“还是“例外“,都符合一种“统计学的规律“:例如一个“双音词“,表现在书面上就是两个词,而且,这两个字必然经常连在一起出现;反之,如果两个字之间不构成一个词,那么,它们一般就不会经常在一起出现。我们可以根据这个特点,找出字与字、词与词、字与词之间是否经常在一起出现的规律,也就是“字词相关性“,将其推而广之,就可以发现书面汉语中的“词法“、“句法“甚至“章法“的组织与结构规律了。汉语的“分词“是中文信息处理各个应用系统中经常遇到的一个难题。如果不分词,关于汉语的词类划分、语法关系与规则的描写等,就没有了着落,语言的理解也就无从下手。可是,在现实生活中,使用汉语的人一般好象不大注意“词儿“,“词“和“非词“的界限是比较模糊的;另一方面,也不大计较在一个句子中使用的是什么“词类“、是名词还是动词、是及物动词还是不及物动词。即使在纠正病句时,通常也不说“你这里应当用动词、不应当用形容词“;或者“这里应当用及物动词、不应当用不及物动词“,等等。人们注意的只是一个现成的语流中现实的字符串的合理性,或者叫“可理解性“。这个合理性或“可理解性“可以从字词相关性中找出来。另外,由于是使用汉字记录汉语,所以,说话时的同音词表现在汉字中一定用不同的同音字代替,例如:不能把“安徽“写成“安灰“,也不能把“高兴“写成“高性“或“高姓“。这说明汉字已经成为“专字专用“的一种书写符号系统。一切关于现代汉语的研究都无法离开书面汉语,一切关于书面汉语的研究都不能离开汉字。所以,从这个意义上说,关于现代汉语字词相关性的研究,是揭示现代汉语内在规律的重要途径。字与字的相关性、字与词的相关性以及词与词的相关性可以归结为汉语的“马尔科夫“特征。这是所有离散集合的一个普遍规律性特征。运用这个特征,可以发现和解决“字本位“的传统语言学无法发现的问题,也可以发现和解决“词本位“的现代语言学对于书面汉语无法解决的问题。笔者从 1987 年开始研究这个问题,通过研制信息处理用现代汉语三万词语集、当代汉语流通频度词典、信息处理用现代汉语港台词语集以及对邓小平文选、十三经、红楼梦、金瓶梅、醒世姻缘传等语料的抽样统计分析,探讨汉语字词相关性研究的科学性和可操作性,尝试解决自然语言理解和智能化中文信息处理中的语言规律问题。本文汇报第一部分,向专家学者请教。二、字字相关性汉语自然语言和话语是一些连续的“语音流“。汉字通过记录汉语一个一个的音节,形成书面汉语的“汉字流“或“字符流“。所有的汉字所组成的集合是一个离散元素的集合。汉字字符之间联系的疏密程度各不相同。每一个汉字与其它汉字字符之间的关系实际上是由语言的规律或规则决定的。这些规律或规则就是汉语语法,包括词法和句法。语言本身是一种约定俗成的符号系统,或者说是一种“习惯“的系统。在这个系统中,约定的规则或规律从某种意义上说,完全是一种统计特征。语言的规则或规律是一种“少数服从多数“的原则。这种“多数原则“就是“统计学“的原则。统计字与字的相关性,具体操作起来可以有多种方法,但是都不外乎是从定量的语料或文本中进行抽样统计。把汉字放在实际语用环境中,找出该字与前后字符之间的相关性程度。我们可以统计得到:(1)单字的使用频度(2)两个汉字“同现“(连用)的频度根据这两个指标,可以分析出连用的两个汉字具有什么程度的相关性。可想而知,组成一个“双字词“的两个字一定经常在一起出现,它们之间的“同现概率“高,相关性就高;反过来说,同现频度高的两个字很有可能就是一个两字词。比较极端的例子是一些连绵词,例如“蜿蜒“、“徘徊“、“崎岖“、“蜻蜓“之类,它们总是连在一起使用的,从来没有单个使用的情况。因此,它们的单字出现的绝对频率也等于两个字同现的绝对频率。但是,在汉语中,像连绵词这样的例子毕竟是少数,主要的都是既能单用的、又能搭配使用的,而且一个汉字往往与多个汉字搭配使用。这样,这个汉字的单字频率,就分布在它所有相关同现的组合中了。根据这些相关组合的出现频率,可以推知哪些相关性强、哪些相关性弱。另一方面,在进行判断的时侯,还应当参考与之相关组合其它单字的使用频率,看该组合的频率占该字使用频率的比例。三、意义分析如果我们把相关词表按降频排列,就可以发现,任何一个“字“的“相关字“都不同。即使都与某些字相关,其相关系数也不相同。因此,降频表就表现出“同码优选“的一种原则顺序和科学依据。在中文信息处理各个应用领域中有许多问题,例如键盘输入中的“重码选择“、语音识别与语音合成中的“同模判断“、机器翻译与自然语言理解中的“歧义处理“等等,几乎都可以归结为“同码选择“问题,都可以通过建立相关词表来实现优选优化。例:从邓小平文选相关性统计表中选择的例子:(说明:字后的数字表示该组合出现的次数,下同)“我“字系列相关表举例 1(仅举二级相关)我们 85 我军 12 我想 9 我对 3 我讲 3 我就 3 我在 3 我国 2 们的 19 军队 101 想。 12 对派 6 讲的 12 就是 51 在军 12 国家 9们军 13 军的 16 想, 6 对这 6 讲了 10
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024收银审核员能力检测试卷及答案详解【新】
- 执业药师之《西药学专业一》能力提升B卷题库及答案详解(有一套)
- 2024年收银审核员复习提分资料带答案详解(预热题)
- 2025年高科技研发融资借款合同
- 2025年度物业托管与安防监控系统合作合同
- 2025年度安徽省农民工就业援助合同范本
- 2025居间合同民事起诉状
- 公务员(省考)测试卷(研优卷)附答案详解
- 2024-2025学年度燃气职业技能鉴定高分题库(满分必刷)附答案详解
- 2025年远程教育的在线学习平台优化
- 校园短视频管理制度
- 铁总关于建设项目技术交底管理办法(2024版)
- 5s考试试题及答案
- 白酒分销商合同协议书
- 数字人民币发展面临的挑战与优化策略
- 卫星通信技术的前沿发展及其在物联网中的应用-洞察阐释
- 《医学中心肺癌诊疗》(讲课课件)
- 《肺炎克雷伯菌感染》课件
- 小学生科普课视错觉课件
- 电力安全微课堂
- 质量部长述职报告
评论
0/150
提交评论