




已阅读5页,还剩69页未读, 继续免费阅读
(计算机应用技术专业论文)基于语义的汉语词义消歧方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 在自然语言处理( n l p ) 中,词义消歧( w s d ) 一直是研究的重点和难点。它 是一项“中间任务”,对于自然语言处理中的许多应用领域具有重要的理论和实 践意义,包括机器翻译、信息检索、句法分析、语音合成等,该问题解决的好坏 将直接关系到这些应用问题的效果优劣。 本文主要是在研究获取支持词义消歧知识的方法基础上,建立了个面 向汉语真实文本中实词的词义消歧系统。论文主要从以下几个方面作了重点 研究和创新: 首先,对国内外w s d 研究现状进行了介绍,重点说明了本课题研究的对象 及目的。论文主要着眼于对汉语真实文本中实词( 包括名词、动词和形容词) 的词 义消歧。 其次,详细分析了汉语歧义词的分类及特点,并探讨了语义知识在w s d 中 的作用。结合本课题实现目标,挖掘在线资源一知网( 2 0 0 0 ) 和现代汉语辞 海中提供的信息,获取词义消歧语义资源,共构建了三个知识库,分别为:动 态优先组合库、词库( 分为多义词词库和单义词词库) 和筛选库。 再次,设计并实现w s d 系统,并给出一个消歧模型。消歧模型主要包括五 大模块的实现,分别为:预处理模块;相似度计算模块:相关度计算模块:中间 词义消歧模块;知识库管理模块。预处理模块主要是通过词性标注器和词性过滤 器将文本中隐含的多义词标识出来,剔除了伪多义词,解决了部分兼类词消歧问 题。中间词义消歧模块是本系统的核心,主要分为两大模块:相似度计算模块和 相关度计算模块。其中,词语相似度的计算主要是利用了知网中义原关系层 次网络中的上下位关系。在相关度的计算中,主要是抽取知网中义原之间的 四种隐含关系,建立公式来计算词语之间的相关度和词语与其上下文之间的相关 度。知识库管理模块主要是对构建的三个知识库进行查询与更新管理。在系统的 实现过程中,给出一个实例来说明和验证本系统的词义消歧过程。 最后,给出了本系统的评测结果。以1 9 9 8 年人民日报作为评测语料, 语料涉及到政治、经济、科技、农业等几个方面。评测结果表明,本文的消歧系 摘要 统对于汉语真实文本的消歧是有效地,其准确率可达到8 3 。 关键词:自然语言处理,词义消歧,相似度,相关度,组合,语义分析 ! ! ! ! 竺! a b s t r a c t w o r ds e n s ed i s a n l b i g u a t i o n ( w s d ) p l a y s 觚i m p o n a i l tr o l ei nm a i l ya r e a so f n a t u r a ll a n g u a g ep r o c e s s i n g 吖l p ) ,a n dn o wi th a s b e c o m ea h o t s p o ta i l dn o d u s 。a s a 1 1i m e 玎n e d i a t et a s k ,t h er e s e a r c ho nw s dh a s g r c a tm e o r e t i c a la j l dp r a c t i c a l s i 鲥f i c a n c ei i ln l pw s di sn o ta 1 1 髓db u tap r 凹e q u i s i t ef o rm a l l yn l pt a s k s ni s h e l p f u lf o rm a c h i n e 缸a n s l a t i o n ( m t ) ,i n f o r m a t i o nr e 砸e v a l ( 卫r ) ,s y n t a c t i cp a r i n g s , 印e e c hs y i l t l l e s i sa i l ds oo n w h a ti sm o r e ,i th a s 簪e a tm c o r ya n dr e a l i t ys i 髓m c a n c e o nr e a l i z i n g 姐dg r a 8 p i n gt 1 1 ea c t u a l i t ya n dd e v e l 叩i n gt 懈l d s t h em a i n 、r ki nt h i sd i s s e r t a t i o ni st os t u d yh o wt oa c q u i r et h ek n o w l e d g em a t i ss u p p o n i n gw s d 丘o md i 船r e m1 a 1 1 9 u a g er e s o u r c e s a tt h es 釉et i m e ,aw s d s y s t e ma b o u tc h i n e s er e a lt e x th a sb e e nb u i hi nt h i sd i s s e n a t i o n t h em a i l lw o r ka 1 1 d i n n o v a t i v er e s u l t so f t h ed i s s e n a t i o ni so f g a n i z e da sf o l l o w s : f i r s t l y ,i n 幻d u c et h er e s e a r c hs t a t u so ft 1 1 eo v e r s e a sa n dt 1 1 ed o m e s t i c a 1 s o e x p l a i nt h eo b j e c ta n dm eg o a lo fm ew o r k t h ed i s s e r t a t i o ni sm a i n l yd i s 锄b i g u a t i g c h i n e s er e a lt e x ts e n s e s e c o n d l y ,a i l a l y z et h ec l a s s e sa n dc h a r a c t e r so fc h i n e s ep o l y s e m o u sw o r d si n d e t a i l at h o r o u 曲i n v e s t i g a t i o no nt h ee 腩c to f s e m a n t i cl ( 1 1 0 w l e d g ei nw s dh a sb e e n m a d ei nt h i sd i s s e n a t j o n t da c q u i et h ek n o w i e d 萨o fw s di s 髓1 ek e yo ft h ew o r k t w om a c h i n e r e a d a b l ed i c t i o n a r r 一舶w “a n dm d 力d 盯i 胁h 抱c 饼a f a r e u s e da st 1 1 es e m a n t i cr e s o u r c e s a 1 s o ,s o m ek n o w l e d g ed a t 曲a s e sh a v eb e e nd e s i g n e d , s u c ha sd y n a r n i cp r e f e r e n c ec o m b i n a t i o n1 i b r a r y ,w o r dl i b r a r y ( i n c l u d em u l t i w o r d 1 i b r a r ya n ds i n 9 1 e w o r dl i b r a r y ) a 1 1 df i l t e rl i b r a 阱 t h i r d ly ,d e s i g na n di m p l e m e n tt h ew s d s y s t e m aw s dm o d e lh a sb e e ng i v e n i nm i ss e c t i o n t h e r ea r ef i v em o d u l e sw h i c ha 1 ea p p l i e dt om s a m b i g u a t ew o 确s e n s e i nt h ew s ds y s t e m : p r e t r e a t m e m ,s i m i l a r i t yc a i c u l a t i o n ,r e l e v a n c ec a i c u i a t i o n , m i d d l e - w s da n dh l o w l e d g ed a t a b a s em a n a g e m e n t t h em o d u l eo fp r e t r e a t m e n ti s l i n e do u tt h ep o l y s e m o u sw o r d st h r o u 曲p a n o f - s p e e c h ( p o s ) t a g g i n ga n dp o s a b s t r a c t :e i l t e r i n g i t e l i m i n a t e s f h k e _ p 0 1 ”e m o u s ,a i l dp a r t l yd i s a m b i g u a t e st h e c h i n e s e a m b i g u i t yw o r d ss c n s e m i d d l e w s di st h ec o r eo f 1 ew h o l es y s t e m 。l ti sm a i n l y d i v i d e di m om op a r t s :s i m i l a r i t yc a l c u l a t i o na 1 1 dr c l e v a l l c ec a l c u l a t i o n h o w e v e r , s 油i l a r i t yc a l c u l a t i o ni sb a s e do nt h eu p d o w nr c l a t i o na m o n g 血es e m d i c t sw h i c ha r e u s e dt od e f i n et h ec o n c e p t si n 肪m w 音r 0 t h e n v i s e ,a n o t l l e rf o l l rr e l a t i o n sa m o n gt l l o s e h a v eb e e ne x 仃a c t e d ,w h i c ha r eu s e dt ot h er e l e v a n c ec a l c u l a t i o n f o l l o n g ,s o m e f o r n l u l a sh a v eb e e nm a d e n o to n l yc a nt h e yc a l c u l a t et h er e l e v a n c eb e 椰,e e nm e w o r d s ,b u tm er e l e v a n c eb e 柳e e nm ew o r da l l dt h ec o n t e x t k n o w l e d g ed a t a b a s e m a n a g e m e n ti st oq u e r ya 1 1 du p d a t et h ed a t u mi nm r e el m o w l e 趣ed a t a b 船e s h lt h e i 唧l e m e n t a t i o no fs y s t e m ,a l s oa i le x a m p l eh a sb e e n 百v e nt oe x p l a i na j l dv a l i d a t et h e p r o c e s so f w s d l a s t l y ,g i v ea ne v a l u a t i o n o fo u rw s ds y s t e m n e w sc o r p o r a 丘_ o m o f 胛口 出咖i n1 9 9 8h 孤b e e nu s e di nt l l ee x p 甜m e n t a t i o n ,i n c l u d i n gp o l i t i c s ,e c o n o m y , s c i e n c ea n da 鲥c u l t u r e t h ee x p 耐m e n tr e s u l t sh a v eb e e np r o v e dt h a tm em o d e li s e 疏c t i v ei nt a s ko f w s da l l dt l l e 那e c i s i o nc a 芏lr e a c ha b o u t8 3 k e y w o r d s :n 抽l r a li 加目孵p r0 c l e s s i n g 州,w b ms e n s ed i 潮出g u a d o n ( w s d ) , s i 蛹j a r i 母,r d e v a n c e ,c o r r 妇五。玛s e m a 蛹c 加l a l 河s 西北大学学位论文知识产权声明书 本人完全了解学校有关保护知识产权的规定,即:研究生在校攻 读学位期间论文工作的知识产权单位属于西北大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被 查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据 库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学 位论文。同时,本人保证,毕业后结合学位论文研究课题再撰写的文 章一律注明作者单位为西北大学。 保密论文待解密后适用本声明。 学位论文作者签名:l 妥场隆 指导教师签名:笙查 学位论文作者签名:i 叁场 指导教师签名:笙重 刀7 石年月7 1 日 2 一口苦年。6 月。,日 西北大学学位论文独创性声明 本人声明:所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,本论文不包含其他人已经发表或撰写过的研究成果,也不包含 为获得西北大学或其它教育机构的学位或证书而使用过的材料。与我 一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的 说明并表示谢意。 学位敝储虢f 惨 矽衫年月卅日 第一章绪论 1 1概述 第一章绪论 如何对自然语言文本进行加工,是信息处理领域的主要内容。但目前信息处 理中人们用到的主流方法是基于统计的方法,该方法在加工精度和深度方面都有 一个瓶颈。所以人们一直没放弃过从自然语言处理( n 籼a 1 l a n g l l a g e p r o c e s s i n g , 简称n l p ) 角度解决信息处理问题的努力。所谓自然语言处理就是利用计算机技 术研究和处理语言的一门学科,即把计算机作为语言研究的强大工具,在计算机 的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用 的语言描写。如何让计算机能够理解人类的语言以及在理解的基础上进行人机交 流是自然语言处理领域研究的问题。 在语言学家看来,自然语言处理要解决的问题是如何重构一个语言和如何判 断一个句子是否属于某个语言n l ,也就是要解决“怎样说”的问题;而面向信息 处理领域的自然语言处理则是侧重解决“说了什么”的问题,即语义方面的问题。 从本质上说,利用计算机进行自然语言处理是一个不断消歧的过程。词义歧义就 是自然语言处理中很典型的一类歧义问题。 1 2课题的研究背景及其意义 信息的主要载体是自然语言。自然语言理解就是如何让计算机能正确处理人 类语言,并据此做出人们期待的各种正确响应口】。 通常,为了达到理解语言的目的,需要进行以下三步工作: 1 理解所出现的每个词; 2 从词义构造表示语句意义的结构; 3 从句子语义结构表示言语的结构。 在这三个过程中,需要着重解决如何有效地使用语法、语义、语用及与其相 关的各种知识问题。虽然在汉语自然语言理解方面的研究已经取得了一定的成 绩,但目前比较成熟和系统的理论体系并较好地付诸于实践的大多是在以词性标 第一章绪论 注为分析目标的语法方面,而汉语自然语言理解的研究仅仅停留在语法平面是远 远不够的,汉语单纯依据词语的词性很难确定汉语词语之间正确的句法关系,也 就是说在词类这个平面上很难排除汉语的句法歧义。另外,一个词语组成短语的 句法结构和真正含义、汉语中的多义词和兼类词的确定都无法进行孤立地分析, 而必须将其与所处的句子( 即上下文) 结合起来加以综合分析才能得出最后结果。 虽然在语义、语用和语境方面的研究,出现了不少有价值的理论成果,但在进一 步的理论运用方面所作的尝试却远远不够。本文的主要研究工作就是将句子中的 每个词语的正确义项标识出来,完成了理解语言的第一步工作。 自然语言处理过程中,当在特定上下文中的某一个词汇具有多个词义时,就 可能出现词的歧义现象。词义消歧( w j r ds e n s ed i s 锄b i g u a t i o n ,简称w s d ) , 就是在某个特定的上下文环境中确定多义词在词典语义集中所属的意义。其主要 任务是根据多义词所在的上下文,为其自动确定一个最合适的义项。统计表明, 在汉语词典中,多义词约占汉语词语集合的1 4 8 ,但在汉语语料中,多义词的 出现频率约占语料总词次的4 2 【3 1 。可见,多义词在自然语言中尽管数量不多, 但出现频率却极高。多义词的词义消歧工作是自然语言处理中不可回避的基础问 题,同时也被认为是自然语言处理领域词汇级别最困难的问题 4 】。 词义消歧研究在自然语言处理的许多应用领域中具有重要的理论和实践意 义,是一个影响着自然语言处理领域中许多其他应用问题的“中间问题”。w s d 在自然语言处理的各个方面都有非常重要的作用,包括机器翻译( m a c h i n e t r a i l s l a t i o n ,简称m t ) 、信息检索( i n f o m l a t i o nr e 仃i e v a l ,简称取) 、超文本导航 ( h y p e n e x tn a v 蟾a t i o n ) 、句法分析( s y n t a c t i cp a r s i n g ) 、语音合成( s p e e c hs ”m e s i s ) 、 自动校对( s p e l l i n gc o r r e c t i o n ) 、自动文摘( a u t o m a t i ct e x ts u m m a r i z a t i o r l ) 和自动问 答( q u e s t i o n a n s w e r ) 等。可见,只要涉及自然语言处理的计算机应用中,多义词 的词义消歧工作就是不可回避的基础问题。因此,作为自然语言处理领域中一个 重要过程,词义消歧的研究具有重要理论和实践意义,它的研究成果可以直接应 用于自然语言处理的许多方面。 第一章绪论 1 3国内外研究现状 1 3 。1 国外研究现状 w s d 方法的研究是从2 0 世纪5 0 年代机器龋译开始的,使用手工编制的规 则作为w s d 的知识资源进行消歧。2 0 世纪8 0 年代以后,借助各类词典作为知 识资源对多义词进行消歧。l e s k 、l l l l ( 【5 】 6 1 根据凸枷耐彳舭”d 上阳朋e ,j d f c f f o h 口中的释义文本来判断多义词在上下文中的词义。h o a 采用最大熵模 型结合搭配、语法、语义以及主题特征的消歧算法 ”。黜v e s t 提出决策表的有指 导词义消歧方法【8 】。g e o f h y 、r e s n i k 从不同角度利用阮础f 中的上下位关系、 同义关系进行英语的词义消歧探索f 9 】【10 1 。y a r o w s k y 【1 提出自举的无指导的词义排 歧方法。近年来,随着计算机存储容量和运算速度的飞速提高,通过使用各种机 用资源和大规模语料库,计算机能够自动获得各种动态的搭配知识及其统计数 据。因而,词义消歧研究中涌现出许多基于语料库统计的方法。比如,g a l e 和 c h u r c h 等利用双语语料库对英语多义词进行训练和测试【1 2 l 。c d el o u p y 等人利 用句法分析树进行词义消歧【”】,e a g 口魁也等人综合运用有指导和无指导的消歧 方法对多义词进行消歧【1 4 】,s e o n g b a ep 枷【等人利用决策树进行词义消歧 【1 5 】,另外f e ! m ye l im an 16 1 、j o h nc a r r o l l 1 7 1 等人也各自提出一些词义 消歧的方法并且取得了一定的成果。 1 3 。2 国内研究现状 汉语的词义消歧研究是从2 0 世纪9 0 年代以后开始,主要是利用语义词典提 供的信息。全昌勤等【l8 】通过机器学习搭配知识获取的指示词实现词义消歧。 l a m 【19 】利用现代汉语词典中的释义文本和同义词词林的语义类,对实 词多义词进行词义消歧。清华大学计算机系的李涓予等用现代汉语辞海中提 供的搭配实例提出一种自组织的词义消歧方法【2 0 】。北京大学的王惠川利用现 代汉语语法信息词典和现代汉语语义词典提出一种汉英机器翻译系统中基 于语法、语义知识库的汉语词义消歧分析算法。鲁松【2 2 】提出一种利用向量空间 模型的无指导词义消歧方法。清华大学的郑杰等( 2 3 】人开发出一种根据单词与语 第一章绪论 境之间的关系以消除单词语义歧义的模型。山西大学、哈尔滨工业大学、厦门大 学计算机系分别对汉语全文检索中的义项标注、英汉机器翻译等限定领域中的词 义消歧方法进行了研究【2 4 】f 2 5 j 。 1 4 词义消歧主要研究方法 自从1 9 4 6 年英国工程师布斯( a d b o o m ) 和美国洛克菲勒基金会国家科学处 处长韦弗( w w e a v 提出了在机器翻译中进行词义自动消歧处理的想法后,后来 许多研究人员也相继提出了许多w s d 的方法:知识驱动的消歧方法 ( k n o w l e 以e 血v e i l w s d ) 、数据驱动方法( d a t a 嘶v e n w s d ) 和基于语料库的方 法( c a r p u s _ b a s e dw s d ) 等。这些方法基本上可以分为两大类:基于定性的方法 ( q l l a l i t a t i v e a p p r o a c h ) 和基于定量的方法( q u a n t i t a t i v e a p p r o a c h ) 。 1 基于定性的方法 基于定性的方法主要采用选择约束性规则来确定每个词汇在不同上下文中 的词义选择,如基于选择性限定规则( s e l e c t i o n a lr e s 伍c t i o n s ) 、决策树( d e c i s i o n t r e e s ) 、决策表( d e c i s i o n l i s t s ) 等等。决策树是一个“提问一回答”机制。对一 个事件,经过一系列的“提问一回答”逐步减少问题的不确定性,从而做出正确 的决策。决策表1 2 7 1 的形式为一个二元组( 条件,值) 。y 盯o w s k y f 2 8 曾使用决策表 学习用以词义消歧的知识,并在试验过程中发现两条规律:1 一个词的每个话题 中只对应一个词义,即在给定话题或文本中每个词只表现出一个词义;2 一个多 义词在一个搭配中只有一个词义,即在给定搭配中每个词只表现出一个词义,不 同搭配所对应的词义是不同的。因此如果能找出对多义词消歧最有用的搭配,则 可用它来解决多义词消歧问题。基于定性的方法大多依赖于一些语言学知识库, 如机器可读词典( m 8 c h i n e _ r e a d a b i ed i c t i o n a r y ,简称m r d ) ,这种方法面临的关 键问题是规则知识库的构造及知识获取瓶颈。 r e s n i k 【旧】提出基于类( c l a s s _ b a s e d ) 的方法来自动确定规则中的约束描述, 避免了人工构造大规模的约束性规则。r i b a s 【3 0 】将这种方法用于解决动词的词义 消歧知识的获取问题。为了解决知识获取的瓶颈问题,y a r o w s k v 【2 8 1 提出了一种 基于无指导学习( u h s u p e n ,i s e dl e a m i n g ) 的方法,自动地从大规模语料库中获取 这些词汇的搭配条件。l e s k 【s 1 将一个词汇的词义与词典中该词义定义中包含的词 第一章绪论 汇建立相关联系,构造词义一词汇对应表,并称这些词汇为“指示词”。词义消 歧过程通过计算词汇上下文中包含的“指示词”的个数,以选择“指示词”出现 次数最多的词义为正确词义。l u a 【3 1 1 构造了一个无指导学习的中文词义自动标注 器,其中利用了同义词词林的语义分类,取得了很好的效果。 2 基于定量的方法 基于定量的方法通过计算每个词汇候选词义在上下文条件下的概率权值,选 择最大概率权值的词义作为结果输出。该方法很大程度上依赖于带标语料库的规 模,同时采用无指导或有指导学习算法获取概率模型参数。w j i s s i 3 1 】从具有词义 标注的语料库中学习获得消歧规则,但其研究规模较小,共消歧了5 个词汇,每 个词汇构造包含2 0 个句子的训练集、3 0 个句子的测试集。b l a c k 【3 1 】构造了一个 基于决策树的词义自动消歧模型,从2 0 0 0 万语料库中采用基于有指导学习 ( s u p e r v i s e d l e a r i l i n g ) 方法自动获取决策规则。h e a r s t 嗍提出一种在训练阶段自 动从手工词义标注的语料库中获取用于消歧的上下文统计信息的算法。b a s i l i 3 1 1 提出了一种基于类的自举( b o o ts t r a p p 协g ) 方法,用于特定领域的词义自动消歧 过程。为了避免手工标注训练语料库中的每一个词,s c h u t z e 【3 1 】提出了一种采用 向量空间模型( v e c t o r s p a c em o d e l ) ,自动从文本完成词汇聚类过程,这种方法 大大减少了人工干预的工作量。b r o w n 、g a l e 、c h u r c h 、w s k 严1 】提出了一种 利用双语料库进行词义消歧工作,这种方法避免了人工标注训练数据。 1 5本文的研究范围及研究观点 面向真实文本的词义消歧系统,应该是对文本中所有多义词进行的。汉语中 大多数虚词的作用仅仅用于表示关联和语气,而实词的意义及其语义搭配关系则 对汉语理解起着重要的影响作用。因此,本文的一个重要特点在于着力对文本中 的实词( 名词、动词、形容词) 进行词义消歧。本文试图结合知网,从语义的 角度解决词义消歧问题。本文的主要研究工作是建立一个适应于文本中实词( 名 词、动词、形容词) 的词义消歧模型,着眼于对汉语真实文本的词义消歧。 1 6 本文的内容和组织 论文主要包括六章内容。 第一章绪论 第一章主要介绍了本课题的研究背景及其意义、国内外研究现状和w s d 主 要的研究方法,将目前的研究重点定位于面向汉语真实文本的词义消歧。 第二章给出了语义分析的意义,探讨了语义知识在词义消歧中的作用。 第三章首先对汉语歧义词的特点进行了分析,然后对构建语义资源所需知识 资源知网( 2 0 0 0 ) 和现代汉语辞海分别进行了介绍,并利用其构建了适合 本文词义消歧系统的语义资源,分别为:动态优先组合库、词库( 包括多义词词 库和单义词词库1 和筛选库。 第四章是全文的核心部分。详细介绍了整个w s d 系统的实现。针对汉语真 实文本的特点,先给出了系统总体设计的思想。在消歧知识库的基础上,给出了 系统的详细设计,架构了一个w s d 模型,并对各个模块的实现原理进行了详细 地说明和分析。最后给出一个实例来说明和验证本文所提出的w s d 方法的合理 性和正确性。 第五章对本文提出的w s d 系统进行了详细地评测与分析。 第六章对全文进行了总结。概述了系统的局限与改进,同时给出了进一步研 究工作和展望。 第二章语义知识在词义消歧中的作用 第二章语义知识在词义消歧中的作用 2 1语义分析的意义 自然语言理解就是如何让计算机能正确处理人类语言 3 3 。为了使机器能够 理解自然语言,只考虑句法是不够的,必须要考虑语义,并进一步引进一般世界 知识及上下文信息。当杌器分析语言时,首先接触到文字、语音,其次是语法, 然后就是语义。如果说语法分析是试图找出句子中各个部分以及部分之间的结构 关系的话,那么语义分析则是试图解释各部分( 词、词组及句子) 的意义。语义分 析是自然语言处理过程中的一个层次,在句法分析之上,是计算机理解语言的基 础,因而十分重要。从自然语言处理的应用来看,不管是信息抽取、信息检索、 机器翻译、自动文摘,还是人机交互,都要先对语言进行理解,确定语言所要表 达的正确含义后,才能进行后续操作,得出结果。从自然语言处理的发展来看, 正是由于在实际应用中旬法分析还达不到令人满意的效果,研究者们才纷纷转向 语义研究,提出各种语义学理论。语义分折技术主要来源于两个方面:数理逻辑 与语义学【3 5 】。数理逻辑包括“两演算”、“四论”。“两演算”即命题演算与谓词 演算;而“四论”即模式论、集合论、证明论、递归论。利用逻辑理论可以对语 言的含义进行有效地、形式化地解释。 语义学是语义分析技术的一个重要基础。近年来,语义分析技术不断取得进 展。从2 0 世纪二三十年代开始,相继涌现了许多语义学流派。德国语言学家特 雷尔( j t r i e r ) 于2 0 世纪3 0 年代提出语义场理论( t h et h c o r yo fs c m a n t i c f i e l d s ) 。语义场理论把语言的意义看作系统。解释语义学吲( h l t 唧r e t a l i o n a l s e m a n t i c s ) 是乔姆斯基( c h o m s k y ) 所提出的转换生成语法的一个组成部分,它是 对句子的深层结构做出语义解释,即运用一些符号和规则对语义进行形式的描 写。生成语义学( g e n e r a f i v es e m a n t i c s ) 则认为句法和语义是不可分的,在语言 分析中,要把句法和语义结合起来。随后美国语言学家菲尔默( c j f i l l m o r e ) 提出 了格语法f 4 9 1 ( c a s eg r a m m a r ) ,对语义分析产生了重大的影响。蒙塔古语法 ( m o n t a g u eg r 黝a r ) 是美国逻辑学家蒙塔吉于2 0 世纪7 0 年代提出的,它认 为自然语言和形式语言之间没有本质的区别,对自然语言也可以用数学方法、逻 第二章语义知识在词义消歧中的作用 辑方法进行研究,对其形式化。此后的工作还有美国斯坦福大学j b a 懈i s e j p e h y 提出的情景语义学( s i t u a t i o ns e m a n t i c s ) ,西蒙斯( r f s i m m o n s ) 总结的语 义网络理论( s e m a m i cn e t w j r k ) 、香克( r ,c s c h a l l l ( ) 创立的概念依存理论 ( c o n c e p t i l a ld 印e n d e n c yt h c o 呦以及维尔克氏( y a w i l k s ) 的优选语义学 ( p r c f c r e n t i a ls e m a n t i c s ) 3 1 1 。 对语言进行语义分析,也就是让计算机掌握语义知识,这无疑对语言的理解 会有很大的帮助。语义分析在语言的分析中主要有三个重要用途: 1 词义的消歧 汉语的同形歧义现象十分常见。一个词即使只有一个词类,也可以有不同的 义项,这时仅靠句法知识来解决就显得能力不足。词义本就属于语义的范畴,词 在与其它词搭配的过程以及在相关的上下文环境中,总受到一定的语义约束。因 此,语义知识的一个重要应用就是解决词义消歧问题。 2 句法结构的消歧 汉语句法成分的构成方式十分灵活,而又缺乏形态变化,这使得汉语的句法 结构分析十分困难,会产生很多错误的结果,而且句法分析得到的合法的句法结 构不一定有正确的逻辑意义。语义知识可以用来对句法结构进行语义检验,排除 意义不正确的句法结构。 3 语义关系的获取 对言语的理解不仅要确定言语中词的含义,还要确定词间的逻辑关系,这样 才能得到正确的言语义。在语义分析中用语义知识可以帮助获得语言片断各成分 问的语义关系,有利于语言的理解和语言的翻译。 2 2语义知识在词义消歧中的作用 语义知识可以用在统计模型中。早期,人们在研究利用概率模型进行句法结 构和词义消歧时,通常在模型中只考虑句法知识,这样模型会遇到参数过多的问 题。目前,在利用统计学方法进行消歧的研究中,语义知识的使用十分普遍,这 样做可以达到更好的消歧效果。s t e p h e nc l a r k 【4 2 j 研究用统计的方法对介词短语附 着结构进行消歧,在消歧时对统计值利用语义层级进行评估。j a n ”ew i c b e l 4 纠把 从肋,刎垤f 中获取的贝叶斯网络和从带标注语料中获取的概率模型结合起来进 第二章语义知识在词义消歧中的作用 行词义消歧。李涓子等利用现代汉语辞海提供的搭配实例作为多义词的 初始搭配知识,再通过统计和自组织的方法扩大搭配集,然后用最终得到的搭配 集进行消歧。 语义知识也可用于语义距离计算中。语义距离是表示词汇概念间语义相关程 度的一种方法,语义相关和语义相似不同,前者是更一般的概念,语义相似一定 是语义相关的,反之则不然。a l e x a n d e rb u d 趿i t s k ,4 1 1 比较了五种在肋棚v 酣中计 算语义距离的方法。其中,r e s n j k 【2 9 】的方法首次在语义相似的计算中结合了概率 知识,对特定语料库中概念的实现出现的概率进行了计算;j i a n g c o l l r a t h 【州的方 法和l i n 【4 5 】的方法同样结合了概率知识,并且能够得到较好的结果,但前者是针 对语义相关的,而后者是计算语义相似的。另外,许多学者m 也提出了各种 语义距离的计算方法,并用于词义消歧中。 语义知识除了用在统计模型和语义距离计算中,还可以用于规则的方法描 述,并用以消歧。s a n d a m h a r a b a g i u 删利用肋瓜e f 建立启发式规则,进行介词 附着的消歧。k u a l l g _ h u ac h e n 【6 5 】等在规则的描述中结合了语义的知识,利用规则 进行介词结构附着消歧。 2 。3小结 语义分析在自然语言理解应用中占有很重要的地位,而传统的句法分析技术 并不能有效地表达和处理语义信息。对于汉语这种缺乏语法形态的语言来说,语 义知识就更加重要了,并且语义分析对于词义消歧具有重要的作用。 第三章汉语歧义词特点分析及知识库获取 第三章汉语歧义词特点分析及知识库获取 3 1 汉语词语特点分析 汉语是不同于印欧语的一种独特的语言f 4 7 】。首先,汉语是一种孤立语,同 一词类可以担任多种句法成分且没有形态变化。其次,汉语句子的构造原则与短 语的构造原则基本一致,各种短语的组成成分又可以是各种的短语。汉语表现这 种普遍递归性的特殊之处在于,短语担任不同的句法成分时,形态不发生任何变 化。再次,汉语的语序相当灵活。汉语的这些特点,给汉语分析造成了很大的困 难。然而汉语以下特点使得汉语比印欧语在语义方面具有更大的优势。 汉语的特点:在汉语中字同字组合,词同词组合,词同词组组合,以及词组 同词组组合,方式和手段是一致的,组合起来产生的关系是一致的,从字到词, 到词组,到句子,就是一个组合过程,而组合的原理是“一以贯之”。各级的组 合,虽有小异,不失大同【4 8 】。 汉语是一种“义合”语言。字同字、词同词、词同词组以及词组同词组等各 级组合,只要意义相合就可以组合,这就是汉语生命力之所在。几千个汉字的不 同组合,使得汉语中新词和新概念的层出不穷,很好地适应了当今信息革命和科 技发展的需要。另外,由于汉字强大的组合功能,“词”在汉语中是一个很难确 定的概念,到现在为止也很难找到一个为大家所公认的权威词表。 3 1 1 歧义词的分类 词的多义现象分为以下三种类型: 1 意义相关的多义:指一个词的多个意义彼此在意义上有一定的联系或近 似。如“搭”的两个意义“支;架”和“连接在一起”。 2 意义无关的多义:指一个词的多个意义彼此在意义上没有相关性,如“打” 的两个意义“殴打;攻击”和“编织”。 3 词性不同的多义,指一个词在不同词性下的不同意义。如“别”的两个意 义,为名词词性时意义为“差别”,为动词词性时意义为“转动;转变”。 第三章汉语歧义词特点分析及知识库获取 从语言学角度,汉语词语可分为单义词、类别歧义词、非类别歧义词( 即含 有同形异义或语义歧义的多义词) 和混合歧义词( 即同时含有类别歧义和同形异 义或语义歧义的多义词) 。其中,单义词和类别歧义词可分别根据词典定义和词 语词性对应关系直接标出正确的词义标记。 本文提出的词义消歧算法主要是针对后两种歧义词的,目的是为其标注出正 确的义项。 3 1 2 汉语歧义词分布特点 汉语歧义词有以下几个分布特点: 1 在汉语词汇中,绝大多数的词为单义词,约占词典全部词的8 0 左右。 2 多义词的数量虽然不多,但多义词的实际使用频率却很高。在对语料的统 计中发现多义词出现率在6 0 以上,也就是说,词典中2 0 左右的多义词在语 料中出现率是6 0 以上。比如“打”字是一个常用词,它在知网中的义项则 多达2 8 个。这说明越是常用的词,它的语义往往就越多,词义歧义现象越严重。 3 各种类型的多义词在词典和语料中的分布并不一致。类别歧义词、非类别 歧义词和混合歧义词的词典分布,与相应的语料分布不一致。其中,混合型歧义 词实际使用的频度最高,非类别歧义词的静态分布突出,而类别歧义词无论是静 态还是动态,只占少数。 4 在实际使用中,汉语多义词随词性的分布并不一致。多义词在语料中多以 动词、名词和助词的词性出现,且频率比较高。用作实词的多义词大多数为非类 别型,而虚词则多数为混合型。因此,对于整个词义消歧来讲,如何解决实词的 歧义问题是非常重要的。 5 词类分类粒度对词义歧义分布影响较大。词类分类粒度越小,一方面,多 义词所占比例上升,平均词义数量增大;另一方面,非类别多义词占的比例升高, 类别型则相对减小,混合多义词影响不大,因而词义歧义问题越来越严重。 第三章汉语歧义词特点分析及知识库获取 3 2相关资源简介 3 2 - 1 知网( h o w n e t ) 知网【4 9 】( 英文名称为m w p f ) 是一个以汉语和英语的词语所代表 的概念为描述对象,以揭示概念与概念之间以及概念所具有的属性之间的关系 为基本内容的常识知识库【4 9 1 。在知网中,概念是由词表示的概念标识符,一个 词有多种语义,就对应有多个不同的概念。 知网中引入了义原,义原是最基本的、意义不能再分割的最小语义单位。 由于词语的概念是由义原组成的,义原之间又存在着复杂的关系,所以可以通 过义原褥到概念之间的关系以及概念属性间的关系,并且可以利用这些关系中 所蕴涵着的丰富的语义信息,来帮助进行词义消歧。 3 2 - 1 1 知网的特色 计算机化是知网的重要特色h 9 1 。知网是面向计算机的,是借助于计算机建 立的,将来可能是计算机的智能构件。知网作为一个知识系统,名副其实是一个 网而不是树。它所着力要反映的是概念的共性和个性,例如:对于“医生”和“患 者”,“人”是它们的共性。知网在主要特性文件中描述了“人”所具有的共性, 那么“医生”的个性是他是“医治”的施事,而“患者”的个性是他是“患病” 的经验者。同时知网还着力要反映概念之间和概念的属性之间的各种关系。细分 来说,知网描述了下列关系【4 9 】: f 1 ) 上下位关系( 由概念的主要特征( 1 ) 和概念的主要特征( 2 ) 体现) ( 2 ) 同义关系( 可通过d e f 和双语对译关系获得) ( 3 ) 反义关系( 可通过反义关系表获得) ( 4 1 对义关系( 可通过对义关系袁获得) ( 5 1 部件一整体关系( 由在整体前标注体现,如“心”,“c p u ”等) ( 6 ) 属性一宿主关系( 由在宿主前标注& 体现,如“颜色”,“速度”等) ( 7 ) 材料一成品关系( 由在成品前标注? 体现,如“布”,“面粉”等) f 8 1 施事经验者关系主体一事件关系( 由在事件前标注+ 体现,如“医生”, 第三章汉语歧义词特点分析及知识库获取 “雇主”等) ( 9 ) 受事内容领属物等一事件关系( 由在事件前标注$ 体现,如“患者”,“雇 员”等) ( 1 0 ) 工具一事件关系( 由在事件前标注+ 体现,如“手表”,“计算机”等) ( 1 1 ) 场所一事件关系( 由在事件前标注 体现,如“银行”,“医院”等) ( 1 2 ) 时间一事件关系( 由在事件前标注 体现,“假日”,“孕期”等) ( 1 3 ) 值一属性关系( 直接标注无须借助标注符,如“蓝”,“慢”等) ( 1 4 ) 实体一值关系( 直接标注无须借助标注符,如“矮子”,“傻瓜”等) ( 1 5 ) 事件一角色关系( 由加角色名体现,如“购物”,“盗墓”等) ( 1 6 ) 相关关系( 由在相关概念前标注撑体现,如“谷物”,“煤田”等) 知网是
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025河南洛阳栾川钼业集团股份有限公司招聘笔试参考题库附带答案详解
- 2025江苏徐州市华坤医药江苏有限公司招聘9人笔试参考题库附带答案详解
- 2025年甘肃海林中科科技股份有限公司招聘30人笔试参考题库附带答案详解
- 2025年江西省金控科技产业集团社会招聘4人(第一批次)笔试参考题库附带答案详解
- 2025年山西省晋中市昔阳县国有资本投资运营有限公司及子公司公开招聘16人笔试参考题库附带答案详解
- 2025年国网辽宁省电力有限公司高校毕业生招聘(第二批)安排笔试参考题库附带答案详解
- 2025年中国联合网络通信有限公司楚雄州分公司招聘37人笔试参考题库附带答案详解
- 2025四川南充临江东方建设集团有限公司招聘11人笔试参考题库附带答案详解
- 2025内蒙古电力集团内蒙古康远监理公司成熟型电力工程监理人才招聘61人笔试参考题库附带答案详解
- 2025中国铁建昆仑投资集团有限公司经营机构有关岗位招聘26人笔试参考题库附带答案详解
- DB65-T 4803-2024 冰川厚度测量技术规范
- 护理专业新进展介绍
- 大疆无人机培训课件
- 中级消防员维保培训课件
- 小儿推拿进修总结汇报
- 2025公司应急预案演练计划(5篇)
- 医疗机构医院全员培训制度
- 2025仓库保管员试题及答案
- 生猪养殖场实施方案
- 矛盾纠纷化解培训课件
- 2025年成人高考语文试题及答案
评论
0/150
提交评论