




已阅读5页,还剩53页未读, 继续免费阅读
(语言学及应用语言学专业论文)一种基于规则的现代汉语动词词义自动甄别方法.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中文摘要 中文摘要 计算机自动词义甄别是自然语言处理中的一个重要的中间问题,也是词汇处 理层面最难的问题,这一问题对机器翻译、文本分类、自动文摘、信息检索、文 本挖掘、语音识别、文语转换等都有深刻影响,当前计算机自动词义甄别面对的 最大问题是难以获取足够有效的词义甄别知识。 本文尝试利用现代汉语语法信息词典、现代汉语词典、现代汉语动词 大词典等资源,建立一个统计方法和人工辅助相结合的分析框架为动词寻找计 算机词义自动甄规则。整个框架分三部分:第一部分应用语料库和统计方法,设 计了两套软件,一个可以对多义词的上下文词条、词性、义类进行多种统计,为 人工制定规则提供帮助;另一个执行和检验规则对语料的处理情况并提供开放接 口方便对规则进行修改。第二部分设计了语法分析框架,充分利用现代汉语语 法信息词典以及其它可以形式化的句法结构进行词义甄别,统计了语法框架的 处理效力。第三部分借鉴格语法、配价语法等理论建立词义甄别规则的语义分析 框架,讨论了名词义类、名词词条、介词短语在处理不同类型动词上的作用。 统计发现,几种语法标记在词义自动甄别上的作用是有限的,应该主要依赖 动词和语义角色间的语义选择限制,而语义选择限制的作用会“因词而异 。 本文为4 1 8 个多义动词的5 0 0 个义项编制了计算机词义自动甄别规则,并设 计了与有限句法相结合的算法,统计结果证明有7 2 4 个义项的正确率在8 0 以上, 占总数的8 9 4 9 ,相信这一成果和基于统计的算法或者其它对更长上下文理解 的程序相结合后会取得更好的效果。 关键字:计算机词义甄别;词义;规则 一种基于规则的现代汉语动词词义自动甄别方法 a b s t r a c t c o m p u t e ra u t o m a t i cm e a n i n gd i s c e r n m e n t i so n eo ft h em o s t i m p o r t a n t i n t e r m e d i a t ei s s u e sa m o n gn a t u r a ll a n g u a g ep r o c e s s e s i ti sa l s ot h em o s td i f f i c u l t p r o b l e mf o rd e a l i n gw i t hv o c a b u l a r y t h et a s kh a sap r o f o u n de f f e c to nm a c h i n e t r a n s l a t i o n , t e x tc l a s s i f i c a t i o n , a u t o m a t i ca b s t r a c t i o n , i n f o r m a t i o nr e t r i e v a l ,t e x t m i n i n g , s p e e c hr e c o g n i t i o na n dt t st e x t - t o s p e e c h a tp r e s e n t ,t h et o u g h e s t p r o b l e mf a c e db yc o m p u t e ra u t o m a t i cm e a n i n gd i s c e r n m e n ti st h a ti ti sd i f f i c u l tt o o b t a i na d e q u a t ea n de f f e c t i v em e a n i n gd i s c e r n m e n tt e c h n o l o g y b a s e do nt h er e s o u r c e so f ”g r a m m a t i c a lk n o w l e d g e - b a s eo fc o n t e m p o r a r y c h i n e s e ”,”m o d e mc h i n e s ed i c t i o n a r y a n d ”d i c t i o n a r yo fm o d e mc h i n e s ev e r b ”, t h i st h e s i s a t t e m p t s t ob u i l da na n a l y t i c a lf r a m e w o r kf o ra u t o m a t i cm e a n i n g d i s c e r n m e n to fv e r b sb yc o m b i n i n gs t a t i s t i c a lm e t h o da n da r t i f i c i a la s s i s t a n c e t h e r e a r et h r e es e c t i o n so ft h i st h e s i s i ns e c t i o no n e , w ed e s i g nt w os e t so fs o f t w a r eb a s e d o nc o r p u sa n ds t a t i s t i c a lm e t h o d o n ec a nb eu s e df o rs t a t i s t i c so fl e m m a , p a r to f s p e e c ha n dm e a n i n gt y p e so fp o l y s e m o u sw o r d s ,w h i c hs e r v e sf o rt h ea r t i f i c i a lr u l e s a n o t h e ro n ei sf o rr u n n i n ga n dt e s t i n gt h ep r o c e s s e so fr u l e sa n dt h ec o r p u s ,a n dt h e n p r o v i d e so p e ni n t e r f a c eo fr e v i s i o no ft h er u l e s i ns e c t i o nt w o ,w ed e s i g nt h e f r a m e w o r ko fs y n t a x ,a n dc a r r yo u tm e a n i n gd i s c e r n m e n tb yu s i n g ”g r a m m a t i c a l k n o w l e d g e - b a s eo fc o n t e m p o r a r yc h i n e s e a n do t h e rt y p e so fs y n t a xw h i c h 啪b e f o r m a l i z e d f i n a l l y , w ec o m p u t et h ee f f e c to fs y n t a xf r a m e w o r kf o rd e a l i n gw i n l g r a m m a r i nt h el a s ts e c t i o n , w eb u i l ds y n t a xa n a l y t i c a lf r a m e w o r kf o rm e a n i n g d i s c e r n m e n tb a s e do ng r a m m a ra n dt h et h e o r yo fc o o r d i n a t i o nv a l e n c eg r a m m a r t h e e f f e c to fn o u nm e a n i n g s ,n o u nl e m m aa n dp r e p o s i t i o n a lp h r a s e so nd i f f e r e n tk i n d so f v e r b si sd i s c u s s e d s t a t i s t i c sr e v e a lt h a tt h ee f f e c ti sl i m i t e dt os e v e r a lg r a m m a rm a r k so na u t o m a t i c m e a n i n gd i s c e r n m e n t , a n di ts h o u l dr e l ym a i n l yo nt h es e m a n t i cc h o o s i n g c o n f i n e m e n tb e t w e e nv e r ba n dt h er o l eo fs e m a n t i c s t h ee f f e c to fs e m a n t i cc h o o s i n g c o n f i n e m e n tw i l lb ec h a n g e db yd i f f e r e n tw o r d t h et h e s i sb u i l d st h er u l eo fc o m p u t e ra u t o m a t i cm e a n i n gd i s c e r n m e n tf o rm o r e t h a n4 18p o l y s e m o u sv e r b sa n dt h e i r9 3 2m e a n i n g s ,a n dd e s i g n st h ea l g o r i t h mf o r i i c o m b i n i n g 诵t hl i m i t e ds y n t a x s t a t i s t i c a lr e s u l t ss h o wt h a tt h ec o r r e c tr a t ei sm o r e t h a n8 0p e r c e n to f7 2 4m e a n i n g s ,a c c o u n t i n gf o r8 9 4 9 i na 1 1 w eb e l i e v et h a tw e w i l la c h i e v eb e t t e rr e s u l t sb yc o m b i n i n gt h er e s u l t s ,t h ea l g o r i t h m sb a s e do ns t a t i s t i c s a n do t h e rl o n g e rc o n t e x t s k e y w o r d :c o m p u t e ra u t o m a t i cm e a n i n gd i s c e r n m e n t ;m e a n i n g ;r u l e 1 1 1 厦门大学学位论文原创性声明 兹呈交的学位论文,是本人在导师指导下独立完成的研究成果。 本人在论文写作中参考的其它个人或集体的研究成果,均在文中以明 确方式标明。本人依法享有和承担由此论文产生的权利和责任。 声明人( 签名) :李嗲 、 年月日 厦门大学学位论文著作权使用声明 本人完全了解厦门大学有关保留、使用学位论文的规定。厦门大 学有权保留并向国家主管部门或其指定机构送交论文的纸质版和电 子版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学 校图书馆被查阅,有权将学位论文的内容编入有关数据库进行检索, 有权将学位论文的标题和摘要汇编出版。保密的学位论文在解密后适 用本规定。 本学位论文属于 1 、保密() ,在年解密后适用本授权书。 2 、不保密() ( 请在以上相应括号内打“4 ) 作者签名:喀嗲 刷币答名:蕃1 毒 日期:p 缉岁月弓b 日期:伽产,月弓日 绪论 绪论 第一节计算机自动甄别概述 计算机自动词义甄别即让计算机确定一个使用中多义词的确定意思,“确定 一个歧义词的哪一种语义在一个特殊的使用环境中被调用。通过考虑词汇使用的 上下文可以确定其具体的语义 ,“其语义定义有词典、类义辞典或者其他的参考 资源给出圆。 一基于规则方法的研究 早期词义消歧利用的是完全依赖人工编制规则的方法,这种方法主要利用上 下文词语间的选择限制,确定一个多义词的义项,这种方法有两个缺点:一是规 则编制需要花费大量的时间、人力,难以大规模推广,二是单纯依赖规则不能处 理修辞导致的“超常规”搭配,也很难处理一些缺少语言提示项的句子,在当时 不能用于大规模的全文词义消歧。 二利用词典的方法 这种方法主要利用语言学家编制的各种词典里提供的消歧知识进行消歧, l e s k m i c h a e l 最先使用这种方法,他将词典中对词的释义本身作为消歧的依据, 通过统计上下文词与词典释义词的同现数目来确定词义。后来随着义类辞典的研 制发展,这种辞典也被应用到消歧当中,y a r o w s k y ( 1 9 9 2 ) 设计的算法在一些情 况下取得了很好的正确率 ,这种方法的优点是可以自动获取和利用词典中消歧 知识,减轻了人工编制规则的劳动,但是这种方法不能对词的上下文进行很好地 预测,而且没有哪部词典会涵盖所有对词义消歧有用的语言知识。 词义甄别和词义消歧研究上是相同的,本文绪论部分不区分这两个术语。 【美 c h r i s t o p h e rd m a n n i n g & 德 h i n r i c hs h f i t z e 著苑春法,李庆中,王昀,李伟,曹德芳等译计自然语言处理 基础【m 】北京:电子工业出版社2 0 0 5 1 :1 4 3 美 c h r i s t o p h e rd m a n n i n g & 德】h i n r i c hs h f i t z e 著苑春法,李庆中,王昀,李伟,曹德芳等译计自然语言处理 基础【m 】北京:电予工业出版社2 0 0 5 1 :1 5 3 一种基于规则的现代汉语动词词义自动甄别方法 三基于语料库的方法 基于语料库的方法,一般由两部分构成,一部分是机器学习系统,它的功能 是通过一定的算法,对经过处理的训练语料进行统计,得出一个概率模型,另一 部分是标注系统,根据学习到的概率模型对新的语料进行标注,在程序的训练阶 段又根据所依赖语料的加工程度不同分为三种,一种完全依赖大规模已经标注好 词义的语料,一般称为有导的方法或者监督的学习方法,这种方法正确率高,缺 点是需要已经标注好的大规模语料,当前很难实现。第二种被称为自举的方法, 先利用一部分已经标注语料或者词典提供的实例进行学习,然后用学习结果标注 更多语料,再学习、再标注,是一个滚雪球的方法。第三种,在完全没有标注的 语料中学习,单纯地使用这种算法只能得出一个分类集,可以叫做按词义分类, 而不能为词标注义项。基于统计的方法又因为使用的学习算法不同而呈现出不同 特征,贝叶斯模型、决策表、决策树、神经网络逻辑学习系统以及临近方法等都 适用于该模式。几种算法从不同角度提出统计模型,虽然具体方法、对事实的 逼近思路都不同,但是都是以概率来逼近语言现象的,卢志茂等对已有研究方法 进行了对比:“对比分析几个典型机器学习方法消歧能力。当然,同样的方法应 用于不同的问题域,就会有不同的情况;同一个问题采用不同的建模方法,就会 有不同的结果,不同的实验对象、不同的实验手段、不同的实验结果,林林 总总,很难说孰是孰非、谁优谁劣,即便是同一种问题,同一种方法,又因为采 用的训练数据和测试数据的不同导致了实验结果的不可比性。”回 四语言知识库的建设和利用 语言知识词典在当前词义消歧研究中发挥了重要作用,如董振东的“知网”、 北大的现代汉语语法信息词典、梅家驹同义词词林以及现代汉语词典 等。“知网 、同义词词林将现代汉语词汇按照一定体系归入不同的类,通过 研究义项和语义类的搭配可以有效解决统计词义消歧中的数据稀疏问题,吴云芳 等使用知网的语义分类体系研究动词对宾语的语义选择限制,统计结果显示 【美 d e n i e lj u r a f s k ) r & j a m e sh m a r t i n 著冯志伟,孙乐译自然语言处理综论【m 】北京:电子工业出版 社2 0 0 5 6 :3 9 8 卢志茂,刘挺,李生统计词义消歧的研究进展电子学报【j 】2 0 0 6 ,( 2 ) :3 3 3 3 4 3 2 绪论 有五种类型:宾语集中于单独一个义类;宾语集中于几个义类;宾语绝大多数集 中于一个义类但也有少数分布于其它义类;宾语集中于几个义类也有少数分布于 其它义类;宾语分散于不同义类。现代汉语语法信息词典详细描写了现代 汉语词汇的语法特征,可以直接提供词义消歧知识,吴云芳等尝试使用现代汉 语语法信息词典进行词义消歧,试验发现可以很好地解决部分问题,如根据量 词后接名词的标注可以达到1 0 0 的正确率,他们也指出了所用方法的不足,如 现代汉语语法信息词典没有标注语义选择限制,有些消歧知识因为不能识别 句法结构而不能被很好地利用等。其他很多词典都能提供消歧知识,清华大学 计算机系李涓子在其博士论文汉语词义排歧方法研究中提出应该利用多种知 识源来获取词义消歧知识,她综合利用了同义词词林的义类代码、现代汉 语辞海中多义词的搭配实例、以及从大规模“人民日报”语料库中获取词语动 态搭配知识,平均正确率达到8 4 7 7 n 5 ,多义词正确率为5 2 1 3 酽。 五词义自动甄别的意义和主要困难 一般认为词义消歧是自然语言处理中的一个中间环节,他的研究成果会对此 领域的上层应用问题产生基础性影响,“甚至有的研究领域把词义消歧作为重要 步骤或关键环节。如果词义自动消歧问题得到有效的解决,将对包括机器翻译、 文本分类、自动文摘、信息检索、文本挖掘、语音识别、文语转换等在内的许多 自然语言问题的研究和应用产生巨大的帮助。回 词义消歧主要的瓶颈还是知识获取问题,从以上分析可以看到,人工编制规 则的方法理想状态下虽然有可能把所有规则都描写出来,但是这个过程太费力, s m a l l 曾写到“处理t h r o w 这个词的专家信息已经长达6 页纸长,但 还得需要1 0 倍这样的长度才够。 使用词典的方法主要问题也是词典中没有足 够的消歧知识,统计方法中的统计上下文长度、数据稀疏无不与此相关。 词义消歧还受其他相关研究的限制,如在没有句法分析的情况下很容易出现 规则匹配错误,再如有些句子里没有明显的选择限制知识,要进行准确判断需要 吴云芳,段慧明,俞十汶动词对宾语的语义选择限制【j 】语言文字戍用2 0 0 5 5 。( 2 ) :1 2 1 1 2 8 吴云芳,金澎,郭涛基于词典属性特征的粗粒度词义消歧【j 】中文信息学报2 0 0 7 ,( 3 ) :3 - 8 李涓子汉语词义排歧方法研究【d 】清华大学博士论文, 2 0 0 1 卢志茂,刘挺,李生统计词义消歧的研究进展【j 】电子学报,2 0 0 6 ,( 2 ) - 3 3 3 3 4 3 转引自王惠现代汉语名词词义组合分析【m 】北京:北京大学出版社:2 1 6 一种基于规则的现代汉语动词词义自动甄别方法 理解比句子更长的上下文,i d e 指出“词义排歧是一个a i 完全( a i c o m p le t e ) 问题,也就是说,要想解决词义排歧问题,就必须先解决人工智能领域所有困难 问题,如常识和百科知识的表示。 一目标 第二节研究目标、基本方法、材料 课题的主要目标是为现代汉语里的多义词编制词义甄别规则,并与一定的计 算机程序相结合最终研制成计算机词义自动甄别程序。这一课题是国家社会科学 基金项目“基于国家语委“通用语料库”之上的汉语义频词库的开发”的子课题“计 算机词义自动甄别课题”的一部分,现在课题尚未完成,所以调查内容也只一部 分。 本文考察的是现代汉语词典( 9 6 版) 中的4 1 8 个动词,这些词有以下特 点: ( 一) 义项在2 - 5 个之间。现代汉语动词义项十分复杂,最多的有二十多个, 这样的词不容易处理,本文的选择是为了避免陷入复杂的词义分辨当中。 ( 二) 有两个或两个以上音节。 ( - - ) 使用频率高,优先处理使用频率高的词,实用价值大。 ( 四) 排除了判断动词、能愿动词、趋向动词等更多表示语法意义的特殊动词。 二基本方法 在方法上,我们借鉴了早期研究的一些缺陷,制定了一个语料库统计与语言 分析相结合的研究方法,这一方法有以下特点。 ( 一) 借助义项的义频进行词义甄别,现代汉语多义词各个义项的使用频率往 往不同,我们首先参考国家语言资源监测中心教育教材语言分中心建立的对外汉 语义项库,确定不同义项的频率高低,把频率最高的义项作为默认义项,当程序 l d e , n ,& v a o n i s ,j 0 9 9 8 ) i n n o d u c f i o nt ot h es p e c i a li s s u eo nw o r ds e n s ed i s a m b i g u a t i o n :t h es t a t eo f t h e a r t c o m p u t a t i o n a ll i n g u i s t i c s ,2 4 ,( i ) :1 - 4 0 4 绪论 执行到最后依赖规则找不到正确义项时就选择最高频义项,因此在课题当中我们 没有为最高频义项定义规则,这样大大减轻了工作量,也提高了正确率。 ( - - ) 在规则制定中将语言分析和语料库统计方法相结合,建构了一个统一的 分析框架,这一框架将在本文第一章详细介绍。 ( 三) 规则验证方面采用了开放式平台,人可以根据程序的甄别结果修改规 则,使其不断完善。 三材料和对象 本文利用了一些语言知识词典、语料: ( 一) 厦门大学苏新春教授主持编制的语义分类词典( 即将出版) 。 ( - - ) = l g 京大学现代汉语语法信息词典电子版,这一词典动词部分提供了 对动词语法知识的详细描述,为我们研究动词语法搭配框架提供了依据,有些词 义甄别规则直接来自这一词典。 ( - - ) 林杏光、王玲玲主编现代汉语动词大词典( 北京语言学院出版社1 9 9 4 年1 1 月) 我们参考了其对动词格框架的描述。 ( 四) 国家语言资源监测中心教育教材语言分中心建立的对外汉语义项库。 ( 五) 从现代汉语语料库中抽样选取了超过亿字的语料,语料内容主要包括经 典的现代汉语散文、小说,以及2 0 0 4 年全年的人民日报。 一种基于规则的现代汉语动词词义自动甄别方法 第一章规则提取框架 第一节语法、语义分析框架 句子是个十分复杂的整体,里面各个要素与动词有各种各样的联系,要将这 种联系与制定词义甄别规则联系起来,必须有一个统一的分析框架,这个分析框 架有语法的要素,也有语义的要素。 一动词的语法特点标记 动词的语法特点有很多讨论,基本形成了统一认识: 黄伯荣、廖序东主编的现代汉语将动词的语法特征总结为: ( 1 ) 动词能作谓语或谓语中心语,多数能带宾语,如“他爱祖国”。 ( 2 ) 动词能够前加副词“不”,多数不能加程度副词。 ( 3 ) 动词多数可以后带“着、了、过 等表动态。 ( 4 ) 一部分动词可以重叠表短暂。 胡裕树、范晓认为可以归纳为: ( 1 ) 能跟副词结合,特别是能跟否定副词“不 或“没( 没有) ”结合,“不 或“没 置于动词之前做状语。 ( 2 ) 能做谓语或谓语中心语。 ( 3 ) 大部分能带宾语。 ( 4 ) 大多数动词能带补语,特别是能带动量补语。 ( 5 ) 一般可以用肯定否定相叠的形式进行提问。 ( 6 ) 动词常可加上“了、“着”、“过”、“起来 、“下去或能用重叠形式表 示某种“动态”。 北京大学的语法信息词典对动词属性进行了更详细的归纳,仅在动词的 总表中就有4 1 个与语法特点相关的字段:粘着、系词、助动词、趋向动词、形 黄伯荣、廖序东现代汉语( 下册) 【m 】北京:高等教育出版社,1 9 9 7 7 ,( 2 ) :1 3 1 4 胡裕树、范晓主编动词研翘m 】河南:河南大学出版社1 9 9 5 4 ,( 1 ) :5 6 第一章规则提取框架 式动词、准谓宾、有宾、前名、后名、介宾的后、外内、体谓准、双宾、兼语句、 后动量词、后时量词、存现、动介、动结、动趋、不、没、很、着了过、在正在、 重叠、a a b b 、v v 、v 了v 、v 了一v 、离合、w o 、复数主语、单作主语、单作 谓语、单作宾语、单作状语、单作补语、情态词、谓词性主语、兼类。 我们首先给出这一部分的设计,再讨论两个问题一是为什么要在这里研究动 词的语法特点,二是这一部分要解决哪些问题。 ( 一) 前接副词 ( 二) 后接动态助词 ( 三) 后接趋向动词 ( 四) 后接量词 ( 五) 部分有无宾语的情况 下面讨论刚才提到的两个问题,关于第一个问题: 计算机喜欢形式化的语言规则,这里形式化可以从两个方面看,一方面需要 位置固定,不论是句中位置还是相对于多义动词,位置固定就为计算机识别提供 了依据,另一方面要规则数量有限,可以列举例如后接动态助词一般是“着、了、 过 这是最普遍的情况,是可以列举的。总体上看以上五点都有刚才提到的两个 特点,这一部分形成的词义甄别规则将是“优质规则”,这些属性又是动词普遍 具有的属性,所以应该放在规则分析的首位。 第二个问题: 这一部分要处理非语义组合问题,结合本文下一部分的讨论就可以看到,本 文在语义角色分析部分主要考察动词与名词、介词短语、形容词等“实义结构 之间的语义选择限制,可以说这部分要关心的是一些意义虚化成分的有无问题, 后面语义分析部分讨论共有语义成分的语义属性问题。 二语义角色分析框架 刚才已经提到,这一部分要解决动词与名词结构、介词短语等成分间的语义 选择问题。这些成分与动词构成不同的语义关系。这种关系对动词和相关语义角 色的语义属性构成约束关系,如: a 、他在修剪果树。 7 一种基于规则的现代汉语动词词义自动甄别方法 这个句子中“果树”是“修剪 这个动作的承受者,这个“承受 关系需要 动作和承受者之间的语义关系相符合,例如我们就不能这么说。 b 、木他在修剪大厦。 “大厦”是不能成为修剪的对像的,语义分析部分就是要在寻找这种语义选 择关系。这一过程中既有单个义项语义组合属性的描述,又有不同义项之间的比 较,首先需要建立一个统一框架来分析、比较各个语义角色。 ( 一) 有关语义分析的理论 吕叔湘在中国文法要略中以起词、止词、补词为框架分析了叙事句,提 出叙事旬中以动词为中心,名词或者指称代词围绕动词充当起词或止词。实际 上就是对动词的语义组合的研究,2 0 世纪6 0 年代菲尔墨提出格语法,认为“每 个动词都有规定的格框架,表明该动词所联系名词的格特征 圆。菲尔墨用格在 1 9 6 6 年到1 9 7 7 年间提出了1 3 个格:施事格( a g e n t i v e ) 、工具格 ( i n s t r u m e n t a l ) 、客体格( o b j e c t i v e ) 、处所格( l o c a t i v e ) 、承受格( d a t i v e ) 感受格( e x p e r i e n c e r ) 、源点格( s o u r c e ) 、终点格( g o a l ) 、时间格( t i m e ) 、 行径格( p a t h ) 、受益格( b e n e f a c t i v e ) 、伴随格( c o m i t a t i v e ) 和永存格转变 格( e s s i v e t r a n s l a t i v e ) 。格语法发展的第二阶段菲尔墨加入了场景这一个 概念,认为“句子描述的是场景,场景中各参与者承担格角色 。1 9 6 5 年特 尼耶尔的结构句法基础出版,他提出了著名的配价语法理论, 配价理论认 为,句子通过“关联组合到一起,“关联”要服从层次原则,其中动词起支配 作用,本身不受其它成分支配,他把主语和宾语看成同等成分都受动词支配,动 词直接支配名词词组和副词词组,名词词组是行动元,副词词组是状态元, “配 价语法提供一个句子的模式,它包含一个基本成分( 动词) 和一些从属成分( 行动 元) 。这行动元相当于格语法的必须格和原则参数语法的必有论元。一个动词所 具有的行动元数目决定了它的价。” 。一般认为现代汉语中有一价、二价、 三价三个价类格语法和配价语法都从语义组合的角度来考察动词和语法问题, 吕叔湘中国文法要略【m 】北京:商务印书馆1 9 8 2 :2 8 范晓,张豫峰等著语法理论纲要【m 】上海译文j j 版社2 0 0 3 7 ,( 1 ) :1 3 冯志伟从格语法到框架网络 j 】解放军外国语学院学报,2 0 0 6 ,( 3 ) :1 8 菲尔墨( 胡明扬译) 格辩 m i 北京:商务印书馆,2 0 0 2 :1 6 6 冯志伟特思尼耶尔的从属关系语法【j 】当代语苦学,1 9 8 3 :6 3 - 6 5 林杏光词汇语义和计算语言学【m 】北京:语文出版社,1 9 9 5 5 :1 6 4 胡裕树、范晓动词研究【m 】河南:河南大学出版社,1 9 9 5 4 :1 5 6 第一章规则提取框架 有一定相似性,以这些理论为基础研究汉语特别是动词成为一段时期以来的研究 热点,这些研究可以包括动词所支配的相关语义成分的数量、语义性质、方式、 句法功能。 本文以已有研究为基础,建立以动词为中心的语义角色框架来研究词义标注 问题,研究的侧重点在于语义角色的语义属性和句法功能,语义属性用来分析语 义选择限制,语法功能则与建立计算机可以识别的规则相结合。 语义角色和语义环境( 非必有格) 特别是后者的多少、认定一直是困扰有关 理论的问题,但是这方面与本文关系不太大,例如“他们用水泥建筑楼房”这个 句子里“水泥”到底是工具还是材料关系不大,重要的是辨别出“水泥 与“楼 房”间是不是存在某种语义上的搭配关系,所以在语义角色和环境体系的建立上 尽量采用上层的分类,粗细以不会引起语法属性的差异为准,这样可以集中注意 力于其本身的语义属性。 ( 二) 语义角色类型 l 必有语义角色 必有语义角色有主事、客事、与事、补事,主事是动作发出者或者状态的主 体,客事是与动作直接相关的对象,与事是与动作间接相关的对象,补事是补充 的成分。关于这个体系有两点需要说明: ( 1 ) 相对于其他配价语法的语义角色体系这个是高度概括的,如主事可以分 为施事、当事、领事,可是可以分为客事、受事等,这种概括是与语义角色的语 法属性相结合的,例如施事、当事、领事一般都处于主语的位置,比较概括的体 系的好处也在这里,可以避免在语义角色认定上没必要的纠缠又与语法相结合, 这样的结合方便了计算机处理。 ( 2 ) 补事有些情况下与本文的分析中关系不大,例如: a 、司令派他上前线。 旬中“上前线 是补事,但是“前线”和“派 之间没有明显的语义选择限 制,这是种联动句式,这样的句子里第二个动词所带的宾语相对于第一个动词是 独立的。 2 非必有语义角色 分类体系参考了陈昌来现代汉语动词的句法语义属性研究【m 】上海:学林出版社2 0 0 2 年里的体系见: 9 1 3 9 一种基于规则的现代汉语动词词义自动甄别方法 非必有语义角色包括:凭事、境事、因事。 ( 1 ) 凭事包括工具、材料、方式、依据、方法,如:他旦釜王砍树。 ( 2 ) 境事包括时间、处所,如:丛窒q q q 生开始进入新世纪。 ( 3 ) 因事包括原因、目的,如:我站在教师外面园发嚣堡到互。 3 语义角色与介词 语义角色常常用介词引导,受事一般由把、对、管引导,主事一般由被、叫、 让、由、归、使引导,与事一般由跟、与、给、为、向引导。非必有语义角色 也与介词结合,如表境事的有从、自从等,表示凭事的有按、靠、用等,表示因 事的有因为、为了等。在一些词中与语义角色相关的介词也可以用作词义甄别的 规则。 ( 三) 现代汉语语义角色框架 现代汉语动词按必有语义角色数量分有一价动词、二价动词、三价动词,不 同种类的动词有不同的语义角色框架。 1 一价词一般构成主事+ 述事的结构。 例如:“搬家”把家迁到别处去。泛指迁移地点或挪动位置。 a 、日本人像 蚂蚁 搬家那么紧张忙碌。( 老舍老舍文集( 5 ) “四世同堂 一偷生 ) b 、社区居民联名要求某些 研究机构 搬家。( 人民日报2 0 0 4 年7 月) 2 二价词一般可构成三种结构: ( 1 ) 主事+ 述谓+ 客事 例如:“编造 编造报表。编造故事。编造事实。 a 、教学秘书正在编造学生成绩表。 b 、山海经里有不少古人编造的神话。( 现代汉语词典9 6 版) c 、部分单位和个人内外勾结编造财务假帐。( 人民日报2 0 0 4 年6 月) ( 2 ) 主事+ 与事+ 述谓 例如:“走动”指亲戚朋友之间彼此来往。 a 、我家和邻居家经常走动。 ( 3 ) 主事+ 客事+ 述谓客事+ 主事+ 述谓 胡裕树、范晓动词研究【m 】河南:河南人学出版社,1 9 9 5 4 :1 5 5 1 0 第一章规则提取框架 例如:“指点 指出来使人知道;点明。 a 、这个问题要请您指点。 3 三价词也可以构成三种语义结构: ( 1 ) 主事+ 述谓+ 与事+ 客事 例如:“租赁 租用。 a 、他们租赁了我们公司一台机器。 ( 2 ) 主事+ 与事+ 述谓+ 客事 例如:“忏悔”认识了过去的错误或罪过而感觉痛心。 a 、他向组织忏悔自己的过失。 ( 2 )主事+ 述谓+ 客事+ 补事 例如:“接纳 接受( 个人或团体参加组织、参加活动等) a 、我们接纳他为会员。 这次课题抽样调查的词中一价义项有3 2 6 个,二价义项5 8 8 个,三价义项 1 8 个,分别占总数的3 4 9 9 6 ,6 3 和1 9 。这样的比例是和现代汉语中二价词居 多基本相符的。在4 1 8 个词形中有3 4 4 个词形的不同义项是同价的,其余7 4 个 词形有两种价的义项。 ( 四) 有些词不同义项间语义角色数量存在差异 1 一价和二价的差异 例如:“恢复一 变成原来的样子。 使变成原来的样子;把失去的收回来。 义为一价,可以构成主事+ v 的结构。 a 、秩序恢复了。 义是二价的,构成主事+ v + 客事的结构。 b 、经过战斗,他们恢复了失地。 这样的词有6 9 个,占语义角色数量不同的词的绝大多数。 2 二价和三价的差异 一种基于规则的现代汉语动词词义自动甄别方法 例如:“颁发” 发布( 命令、指示、政策等) 。 授与( 勋章、奖状、证书等) 。 义为二价,可以构成主事+ v + 客事的结构。 a 、国务院颁发了新的法令。 义可以是三价,构成主事+ 与事+ v + 客事的结构。 a 、省公安部向他颁发了中华人民共和国公安部一等功奖章。( 人民日报 ( 2 0 0 4 ) ) 这样的词有只有5 个。 三语义选择限制分析框架 语义选择限制分析牵扯到单个义项语义属性的分析,又涉及不同义项间的差 异分析;要分析义项的内部语义属性,又要分析义项的外部关系;这一过程是复 杂的,讨论前我们先对词义相关理论进行梳理。 ( 一) 词义发展、演变 “无论中外,语义的研究都可划分为训诂学时期、传统语义学时期和现代语 义学时期三个阶段。”这三个分期中也都从不同角度涉及到了词义的问题。词义 演变发展、演变的研究经历了两个过程,训诂学时期主要集中在对个别词的意义 发微考证式的研究,编写了尔雅、说文解字等词典性质的文献。 传统语义学及以后的阶段,对词义发展、演变的研究逐渐倾向于发现其内部 的规律,保罗在语言史原理里提出词义演变的扩大、缩小、转移理论,词义 演变的结果会有两种情况,一种词义发生更替,新义代替旧义。另一种情况新义 产生后旧义保存产生一词多义的现象。苏新春在汉语词义学中区分了词义演 变的层次:词语和义项指出词语演变有三种形式,新生、死亡和消退,一个词内 部义项的演变比词的演变更为活跃,汉语中的词大都是由单义词演变而来,主要 演变方式是引申。语言发展理论还对引申的途径进行了讨论,贾彦德汉语语 义学将义位引申的途径概括为a 从语义上引申。b 从义位的指称对象上引申 贾彦德语义学导论【m 】北京:北京大学f h 版社,1 9 8 6 :1 苏新春汉语词义学【m 】广东:广东教育出版社,1 9 9 7 7 ,( 2 ) :3 7 1 2 第一章规则提取框架 c 比喻形成的引申。d 语法性质改变形成的引申。d 葛本仪在汉语词汇研究 中将多义词义项产生的原因归纳:1 引申法。2 比喻法3 借代法。4 特指法。 从词义演变发展的角度研究词语义项问题,可以反映词语义项之间的联系, 这种联系首先是历时的引申关系,还可以从共时的层面上看作义项间共时的差别 这种不同表现为词义扩大、缩小、转移。但是从这一分析角度不容易形式化分析, 我们可以从感觉上区分出个别词的义项引申类型,但是这种区分只能用相似、相 关这样模糊的说法,这样的说法要解释其语义选择上的差异是不容易的。 ( - - ) 词义分析理论 训诂学时期主要成果是注释古籍解释古字,这一时期大量的注释古籍研究中 普遍使用随文释义、因文求义的方法,这种方法着重于在词语的具体组合环境中 确定词的意思,对当今的词义组合基础上的词义研究具有借鉴作用。 传统语义学在词义问题上存在着一些问题,一是没有对义项( 义位) 内部 进行分析,而是把他当成一个整体来看待,二是其研究是原子主义的,没有注意 到词义的系统性,三是没有注意到词义的组合,没有把词义放在一个更大的语言 单位中研究其组合特征。这一点许多学者都有论述,即便具体说法不一认识是相 同的 。 现代语义学一定程度上弥补了传统语义学的不足,作为一个分支,词义方面的 研究也有了很大的进步。引进了义素的概念,义素分析法将对意义的分析深入到义 项内部,语义系统的理论改善了词义是一盘散沙的状况,义素分析法最早被人类学 家使用,但是没有用来分析所有词汇,而是限于他们感兴趣的称谓词,如“古迪纳 夫( w h g o o d e n o u g h ) 、朗斯伯里( f g l o u n s b u r y ) ,语言学家借用了这种方法, 里奇用这种方法分析了同属于人类这一语义场的“m a r l ,w o m a n ,b o y ,g i r l 这 几个词,指出表示一个语义对立的各种特征是相互有限定作用的。而且在语义场 内对某个特定词项下定义时,并不是所有的与这一语义场有关的语义对立都需要 贾彦德汉语语义学【m 】北京:北京大学出版社,1 9 9 2 1 l :3 8 0 - 3 8 6 葛本仪汉语词汇研究 m 】北京:外语教学与研究f f ;版社,2 0 0 6 :8 7 8 9 义项是词典学里使用的概念,理想的词典和义位是对等的,但是这方面有争论。本文以词典里的义项为具 体研究目标,所以下文中统称义项。 贾彦德汉语词义学【m 】北京:北京大学h 版社,1 9 9 2 1 l ,( 2 ) :6 张志毅,张庆云词汇语义学【m 1 ,北京:商务印书馆,2 0 0 1 4 ,( 1 ) :2 刘谧辰义索分析综述川,外国语1 9 8 8 ,( 2 ) :6 8 7 1 一种基于规则的现代汉语动词词义自动甄别方法 加以考虑。 义素分析组合的原理很快被应用到词义的聚合和组合研究中,聚合方面如贾 彦德( 1 9 8 6 ) 对同义词的研究,张志毅( 1 9 8 0 ) 提出“同义词群 概念,从词义 内部的构成上,看相关词的共性和个性。组合方面,从义素的角度考察词义的句 法语义关系,这方面的研究有很多,如李裕德词语搭配是相应义素的协同圆王 继中、王小春浅谈义素分析法在句法组合关系中的应用 等,这些研究中义素 不同导致词义组合中语义限制不同是本文研究关注的主要方面,从一个词形的不 同义项间构成义素差异寻找其搭配的不同是本文研究的一个重要手段。如:追逐: ( 1 ) 追求;( 2 ) 追赶。义项( 1 ) ( 2 ) 都含有“追的义素,义项( 1 ) 有 + 目标 抽象物 义项( 2 ) 有 + 目标具体物 的差别。这种差别与其搭配对象间形成互动。 义素分析法不能解决所有问题,义素分析法模仿了音位分析方法,但是义位 比音位更加复杂,一个义位内部到底有多少义素、义素要分多么细都是不确定的, 这导致义素分析中有三个棘手的问题,( 1 ) 不可能把一个词的所有义素都标注出 来,( 2 ) 难以确定义素的比较范围( 3 ) 义素分类问题固。 也有许多学者从词典释义的角度分析词义,符淮青提出了一个表示行为、动 作词的释义模式( 如图1 ) , 赢因熬量l 限 条件+ 性状 制 j 咽+ 篓 图1 :符淮青先生关于动作词的释义框架 限 制 日 + 磐 果 ( 英) 杰弗里利奇( g e o f f r e yl e e c h ) 著李瑞华等译语义学【m 】上海上海外语教育出版社,1 9 8 7 :1 2 6 - 1 2 7 李裕德词语搭配足相应义素的协同【j 】语文建设,1 9 9 0 ,( 4 ) :3 6 - 3 8 千继中,王小春浅谈义素分析法在句法组合关系中的应用【j 】云南师范大学学报( 对外汉语教学与研究 版) 2 0 0 6 ,( 3 ) :7 3 7 6 刘谧辰义素分析综述 刀外国语1 9 8 8 ,( 2 ) :6 8 7 1 符淮青词义的分析和描写【m 】北京:语文f i 版社,2 0 0 6 7 :6 6 1 4 位具度式羞阃同部卜j程方数时空 俸 + 身1,j一动作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 餐厅临时出租协议书
- 针灸推拿医生协议书
- 装修公司学徒协议书
- 营运车辆入股协议书
- 银行贷款免还协议书
- 餐厅经营转让协议书
- 食品货车司机协议书
- 闲置水厂合作协议书
- 音乐机构入股协议书
- 酒店投资合伙协议书
- DB23T 3711-2024市县级矿产资源总体规划编制技术规程
- 智能座舱域控制器液冷散热设计及仿真研究
- 2025年沈阳汽车城开发建设集团有限公司招聘笔试参考题库含答案解析
- 田径理论考试复习题库300题(含各题型)
- 泛海三江JB-QGL-9000、JB-QTL-9000、JB-QBL-9000火灾报警控制器
- 员工团建就餐合同
- 电气工程及其自动化毕业设计 基于PLC的喷涂机器人控制系统的设计
- 滑雪培训服务合同
- 肌肉注射课件(共45张课件)
- 工程经济学(青岛理工大学)知到智慧树章节测试课后答案2024年秋青岛理工大学
- 2025年国家电网有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论