(信号与信息处理专业论文)汉语词和短语的歧义消解研究.pdf_第1页
(信号与信息处理专业论文)汉语词和短语的歧义消解研究.pdf_第2页
(信号与信息处理专业论文)汉语词和短语的歧义消解研究.pdf_第3页
(信号与信息处理专业论文)汉语词和短语的歧义消解研究.pdf_第4页
(信号与信息处理专业论文)汉语词和短语的歧义消解研究.pdf_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电大学博- i ? 学位论文摘要 汉语词和短语的歧义消解研究 摘要 信息网络技术的飞速发展使信息的发布和共享超越了时空限 制,基于自然语言处理技术的文档高质量自动处理成为热点研究课 题。自然语言中普遍存在着歧义现象。计算机处理自然语言文档时, 必然要面对和解决各种歧义问题。歧义消解成为自然语言处理中的 核心任务之一。 语言中的歧义错综复杂,本文认为,简单的单一分析不可能认 识语言歧义的全貌,因而也就不可能高质量地消解歧义,只有对歧 义进行多视角综合考察,才能达到此目标。为此,本文从纵横两个 视角进行歧义研究。 一、基于全信息理论的横向视角:信息有语法、语义和语用三 个层次,语言信息同样如此。而每个层次都存在歧义,即有语法歧 义,语义歧义和语用歧义。这个角度有助于从语言逻辑层面更清晰 地研究歧义特征。 二、基于语言单元的纵向视角:汉语的主要语言单元包括词、 短语及句子等。而歧义在每一级单元都存在,即有词汇层歧义、短 语层歧义以及句子层歧义等。纵向角度便于研究的具体实现,并有 可能探索通用的消歧方法。 综合这两个角度,本文研究的内容包括,从语法层看的词汇边 界歧义和短语边界歧义,从语义层看的词汇多义歧义、短语功能歧 义及短语结构歧义。 在各种歧义的研究中,本文主要围绕歧义分类、歧义侦测和歧 义消解三个问题进行。歧义分类研究各种歧义的特征,歧义侦测是 为了发现歧义及确定歧义的位置,而基于歧义特点对侦测出的歧义 进行消解则是语言处理的中心任务。 从两个视角出发,集中解决三个问题构成了本文的研究框架。 本文的主要研究成果包括以下几点: 1 对汉语语言信息自动处理时的歧义在特征上进行了分类。将 词汇级语法歧义分为交叠歧义和包络歧义两大类。提出了新 的歧义侦测和消歧方法; 北京邮电大学博i :学位论文 摘要 2 利用级联分类方法改进了基于经验定义的短语识别的性能, 有效降低了学习器训练时间,进一步从语义角度研究了复合 名词短语定界歧义问题,同时实现了跨语料的短语识别及歧 义研究; 3 用粒度短语的观点处理汉语短语定义模糊的问题,实现了粒 度名词短语的定义和识别方法; 4 从短语功能角度完成句子骨架成分的识别,消解短语在句子 中的句法功能歧义口 关键词:交叠歧义包络歧义中文切分词义消歧短语识别粒 度短语功能短语 h 北京邮电大学博士学位论文 r e s e a r c ho nd i s a m b i g u a t i o no f c h i n e s ew o r d sa n dp h r a s e s a b s t r a c t t h eb o o mo fn e t w o r kt e c h n o l o g yc a u s et h ei s s u a n c ea n ds h a r i n go f i n f o r m a t i o nt os p a nt h el i m i t a t i o no fs p a c ea n dt i m e ,w h i c hs p u r s r e s e a r c h e so na u t o m a t i ch i g h - q u a l i t yp r o c e s s i n go fd o c u m e n t sb a s e d n a t u r a ll a n g u a n gp r o c e s s i n ga n dm a k e st h e mh o t a m b i g u i t yi sp o p u l a r i nn a t u r a ll a n g u a g e c o n s e q u e n t l yt h ec o m p u t e rm u s tf a c ea n dr e s o l v e v a r i o u s a m b i g u i t i e s w h e n e n c o u n t e r i n g n a t u r a l l a n g u a g e f i l e s a c c o r d i n g l ys t u d y0 nd i s a m b i g u a t i o ni so n e o fv i t a lp r o b l e m so fn a t u r a l l a n g u a g ep r o c e s s i n g b e c a u s eo fc o m p l e x i t yi nl a n g u a g e ,w ed e e mt h e r ei sn os i n g l ea n d s i m p l ea n a l y s i s c a nc o p ew i t ht h ew h o l eo fa m b i g u i t ya n dh i g h p e r f o r m a n c eo fd i s a m b i g u a t i o n r e s e a r c ho na m b i g u i t yf r o ms e v e r a l a n g l e sm a yr e a c ht h eg o a l t h e r e f o r ew et r yt om a k e t h er e s e a r c hi nt w o a n g l e s f i r s t l yh o r i z o n t a la n g l eb a s e do nt h e o r yo fc o m p r e h e n s i v ei n f o r m a t i o n a c c o r d i n gt ot h et h e o r y , i n f o r m a t i o nc o n s i s t so fs y n t a c t i c ,s e m a n t i ca n d p r a g m a t i ci n f o r m a t i o n s od o e sl a n g u a g e t h e r ei sa m b i g u i t yo ne a c h l e v e l ,t h a ti s ,s y n t a c t i ca m b i g u i t y , s e m a n t i ca m b i g u i t ya n dp r a g m a t i c a m b i g u i t y t h i sa n g l ec a ng u i d eu sf r o ml a n g u a g el o g i c a l i t yt oc l e a r l y s t u d yc h a r a c t e r i s t i c so fa m b i g u i t y s e c o n d l yv e r t i c a la n g l eb a s e do nc h i n e s es y n t a xs y s t e m t h em a i n s y n t a c t i cu n i t sc o n s i s to fw o r d ,p h r a s e ,s e n t e n c ea n ds u c h a m b i g u i t y o c c u r so ne a c hu n i t ,t h e r ei sl e x i c a la m b i g u i t y , p h r a s a la m b i g u i t ya n d s e n t e n t i a la m b i g u i t y i nt h i sp o i n td i s a m b i g u a t i o nc a nb ec a r r i e do n e x p e d i e n t l y a n dw ea l s oh o p et o h a v ec h a n c et of i n dt h eg e n e r a l d i s a m b i g u a t i o na p p r o a c h c o m b i n i n gt h e s et w oa n g l e s ,t h ec o n t e n to ft h i sp a p e rm a i n l yc o n s i s t s o fw o r da n dp h r a s eb o u n d a r ya m b i g u i t yo ns y n t a c t i cl e v e la n dp o l y s e m y o fw o r da n df u n c t i o n a la n ds t r u c t u r a la m b i g u i t yo fp h r a s eo ns e m a n t i c 北京邮电大学博上学位论文a b s t r a ( 了r l e v e l i nr e s e a r c h ,w ef o c u so u rs t u d yo nc a t e g o r i e so fa m b i g u i t y , d e t e c t i o n o fa m b i g u i t ya n dd i s a m b i g u a t i o n r e s e a r c ho na m b i g u i t yc a t e g o r i e si st o f i n dc h a r a c t e r i s t i c so ft h e m d e t e c t i o no f a m b i g u i t yi s t h et a s ko f m a k i n gc l e a ro ft h ep o s i t i o no fa m b i g u i t yo c c u r r e n c e f i n a l l yb a s e do n d e t e c t i o n ,d i s a m b i g u a t i o nt u n e dt oa m b i g u i t yc h a r a c t e r i s t i c si s t h e p r i m a r yt a s ko fl a n g u a g ep r o c e s s i n g t h et w oa n a l y s i sa n g l e sa n dt h r e et a s k sd r a wt h eo u t l i n eo ft h i sp a p e r t h eo u t c o m e so ft h i sp a p e ra r el i s t e da sf o l l o w s 1 s t u d yo nc a t e g o r i e so fc h i n e s ea m b i g u i t y t h e r ea r et w oc l a s s e si n s y n t a c t i ca m b i g u i t y , t h a ti so v e r l a p p i n ga m b i g u i t ya n de m b e d d i n g a m b i g u i t y s t u d yo na u t o m a t i cc o l l e c t i o na p p r o a c ho fa m b i g u o u s c l u s t e r sa n dd i s a m b i g u a t i o ni nc h i n e s ew o r ds e g m e n t a t i o n 2 i m p r o v i n g t h e p e r f o r m a n c e o fc h i n e s e c h u n k i n g c a s c a d e d c l a s s i f i e r sa r ea p p l i e dt oc h u n k i n gt a s k ,l e s s e n i n gt r a i n i n gt i m eo ft h e l e a r n e rs h a r p l y f u r t h e rr e s e a r c hi sd o n eo nt h es e m a n t i cc o l l o c a t i o n a m o n gw o r d si n n o u np h r a s ef o r r e c o g n i z i n gb o u n d a r yo fn o u n p h r a s e t h e r ea r ea l s os o m ew o r k so nc h u n k i n gs p a n n i n gd i f f e r e n t c o r p u sa n dd i s a m b i g u a t i o na l o n gw i t hi t 3 p u t t i n gf o r w a r do nt h ei d e ao fg r a n u l a rp h r a s e st oc o p ew i t ht h e v a g u e d e f i n i t i o no fc h i n e s e p h r a s e f u l f i l l i n g t h ed e f i n i t i o no f g r a n u l a r i t yn o u np h r a s e sa n dt h es e p a r a t er e c o g n i t i o na p p r o a c h 4 f u l f i l l i n gs e n t e n c es k e l e t o nr e c o g n i t i o nb a s e do nf u n c t i o n a lp h r a s e f u n c t i o n a lp h r a s e so f s u b - s e n t e n c e sa r e r e c o g n i z e df o rs y n t a c t i c f u n c t i o n so fp h r a s e s k e y w o r d s :o v e r l a p p i n ga m b i g u i t y ,e m b e d d i n ga m b i g u i t y ,c h i n e s e w o r ds e g m e n t a t i o n ,w o r ds e n s ed i s a m b i g u a t i o n ,c h u n k i n g ,g r a n u l a r i t y p h r a s e ,f u n c t i o np h r a s e i l 北京邮电火学博上学位论文 符号说明 符号说明 1 彬在位置f 的词语,w o 为当前词 2 g在位置f 的字符,c o 为当前字符 3 号在位置f 的词的词性,晶为当前词的词性 4 五在位置珀勺短语,z o 为当前短语 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或 其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所 做的任何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 摩勉 日期:边里:堙 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即: 研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅 和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印 或其它复制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密 论文注释:本学 本人签名: 导师签名: ,适用本授权书。 日期:坦选:芝l 仁 日期:笾:笸:堡 北京邮电丈学博: :学位论文第一章绪论 第一章绪论 1 1 自然语言处理的歧义问题及研究意义 自然语言中存在各种各样的歧义,如:“这个人好( h a 0 3 h a 0 4 ) 说话。力属 于语音歧义。“打”在“打电话”、“打车”,“打水”中意义不同,属于词的多义 歧义。“中国语言研究”则在结构上有歧义,不同结构的短语意义不同。后两者 均为书面语中的同形歧义。 同形歧义指同一形式的语言符号序列有两种或两种以上不同的意义时产生 的歧义n 1 。歧义一般是静态分析的结果,当处于特定语言环境中,一个形式的 意义往往又是确定的。确定特定语境下语言符号序列的意义或与意义相应的表 示形式是歧义消解的目的。只有消除各种歧义才能正确处理和理解语言。 以搜索引擎为代表的信息检索系统,需要对网页内容分析,以正确理解用户 检索意图。消除歧义是目前搜索引擎性能提高的关键因素之一。例如,利用著 名的中文搜索引擎一百度( b a i d u c o m ) 1 检索“什么人才可以做空姐”,返回的 结果有: 在北京找工作,就上中关村人才网 手机招聘第一品牌找好人才掌中招聘网 为什么人才市场招的人要求那么高 这里的“人才一是汉语切分中一个常见的组合歧义字段。从返回结果中看, 本应作为两个词的“人才被处理为一个词,未能得到由一个条件问句限定的 准确内容,检索结果与用户意图有了偏差。 有时歧义会导致检索结果和检索意图相差甚远。同样利用百度搜索,欲查 找“江津的教练的相关信息时,得到前三项结果却是: 从国门一路竞争到俱乐部区楚良挤掉江津任教练一新闻走马灯一: 上海热线体育频道( 助理教练江津) 九城:有耐心等祁宏彻底康复希望江津向门将教练发展一国内足坛 “江津的教练 不同于“江津任教练”和“教练江津”。但目前基于关键词的 搜索引擎中,“的 字通常作为停用词被忽略,“江津的教练 和“江津教练” 的检索结果是相同的。短语识别上的歧义导致检索结果和意图的迥然不同。 此外,机器翻译( m a c h i n et r a n s l a t i o n ) 要实现语言的正确互译,对多义 1 检索时间2 0 0 8 - 4 - 1 8 北京邮电大学博j :学位论文 第一章绪论 词词义的正确处理也至关重要,例如: 我刚买了一台笔记本,配置很不错。 译为英文时,“笔记本“的正确译文是l a p t o p ,而不是普通的n o t e b o o k 。 词的多义歧义处理是理解语言的一种表现。 其他应用如信息抽取( i n f o r m a t i o ne x t r a c t i o n ) ,文本主题分析( t h e m e a n a l y s i s ) ,文本挖掘( d a t am i n i n g ) ,自动文摘( a u t o m a t i ca b s t r a c t i o n ) 等 同样需要处理好各种歧义问题。可见,分析解决语言中普遍存在的歧义,是进 一步提高与语言相关的应用系统性能的必由之路,也是系统智能化一种体现。 歧义研究在理论上对语言认知、自然语言理解、智能信息处理同样有着极其重 要的意义。 实际上,语言学上对于歧义的研究由来已久,焦点问题有:歧义界定、歧 义分类、歧义成因、歧义分化、歧义消解和歧义度等。自然语言处理是以计 算机为工具研究和处理自然语言的技术( 偏重理论研究时则被称为计算语言 学) ,与语言学从人理解的角度研究歧义有很大的不同1 。本课题研究的正是 计算机处理书面语时产生的歧义及歧义的消解问题。 文献口1 从面向计算机的语言学角度详细讨论了现代汉语短语的结构歧义类 型和基于语言规则的歧义消解方法,但没有论及面向计算机和面向人的歧义研 究具体的不同。本文认为,计算机歧义处理的主要特点有: 1 、 计算机不具备人的语言理解能力:人对于歧义的理解主要从“义”的角 度出发,而“义 是抽象和难以形式化的。语义的机内表示是目前仍未很好解 决的问题,运用语义分析处理歧义在目前计算机的水平下很难进行。不具备语 言理解能力和认知能力的计算机对歧义的处理主要在语言符号的形式上进行, 甚至更多地体现为对人来讲无歧义的“伪歧义 的处理上心,。比如,“门把手坏 了“,对人理解来说并没有歧义,计算机进行词切分处理时却可能将“把手 分为“把手”,出现错误是因为没有处理好“把手”这个组合歧义字段。当然, 也存在对人和对计算机来讲都是歧义的“真歧义 。比如在短语结构中,相同的 结构可能对应不同的意义,“踢破球”是指“ 踢破 球 还是“ 踢 破 球 ? 瞳3 没有特定的语言环境,两种理解都是合理的。计算机处理此类真歧义 是有较大难度的,要利用较形式信息更深层面的语义和语用信息。 2 、计算机不能主动发现歧义:本质上不具备侦测和报告歧义的能力,是否 出现歧义需要人工设定检测方法。发现歧义是歧义处理的第一步,也是关键的 一步。例如,在词的多义歧义消解中,有监督学习方法通常是事先设定哪些词 存在多义,各个义项如何表示等,再进行消歧工作。对于其他词汇则不予处理。 目前的歧义发现还有赖于指定的规则。 2 北京邮电大学博。t 学位论文第一章绪论 3 、 通常,自然语言处理中的歧义问题数目远远大于人理解时产生的歧义数 目,这正是前两个特点决定的。如:“邓小平等国家领导人一在切分时可能被分 为“邓4 , 平等国家领导人。“平等 有可能被错误地视作一个词。而人由 于具备相关的知识,不存在专有名词理解上的歧义。机械地运用知识、常识的 缺乏等因素使得计算机处理语言时遇到大量的歧义。 4 、自然语言处理的歧义是与任务相关的,不是抽象和一般化的。文献瞳,研 究现代汉语短语识别利用的是短语句法格式规则,处理的是有相同句法格式的 短语结构歧义,同时文献也考察了句法歧义格式和具体实例之间的对应关系, 进一步将歧义格式分为真歧义、准歧义和伪歧义三类。文献h 1 利用归约法识别 短语,遇到的是短语结构组合的歧义,重点解决了交段型短语歧义问题。另外, 汉语词切分任务中大量研究的歧义是交集歧义、组合歧义及未登录词识别等问 题睁刀。可见,不存在抽象的一般化的歧义定义。 5 、歧义消解需要的知识与任务也是有关的。计算机的歧义消解是通过计算 或给定的知识完成。消歧的知识是面向任务和动态、词例化的砸1 。另外,消歧 对上下文环境的粒度要求也不同,如交集歧义,绝大多数歧义利用局部上下文 即可消除,而指代歧义通常则要借助语篇环境才能明确含义。人的歧义消解通 过语言现象的分析完成,消解歧义的知识存在人的头脑中,人能灵活地选择上 下文和特征消除歧义。计算机消歧的知识可以是隐式的( 标注语料) ,也可是显 式的符号体系。 歧义的任务相关性,歧义发现的困难及消解歧义所需各种知识的表示,都成 为自然语言处理中的歧义研究的挑战内容。目前已有一些具体的研究工作在开 展。 1 2 自然语言处理歧义研究的现状 纵向看,歧义消解研究多以语言单位为基准,不同语种研究的内容和方法 不尽相同。英语的歧义研究包括新词( u n k n o w nw o r d ) 歧义,词汇句法歧义 ( 1 e x i c a ls y n t a c t i ca m b i g u i t y ) ,结构歧义( s t r u c t u r a la m b i g u i t y ) ,介词短语附 着歧义( p pa t t a c h m e n ta m b i g u i t y ) 嘲及词类歧义( p a r t - o f - s p e e c h a m b i g u i t y ) n 们,指代歧义( a n a p h o r aa m b i g u i t y ) 口嵋和词的多义歧义( p o l y s e m y a m b i g u i t y ) n 羽,语义搭配n 3 1 等问题。汉语中几乎没有介词短语附着歧义问题, 但由于词和词之间没有明显的界限,词语切分往往是进一步语言分析的基础, 随即出现的是切分中各种歧义。 横向看,语法层面歧义研究居多。汉语在词语一级歧义消歧研究也最多, 有:切分的交集歧义、组合歧义、未登录词识别。1 ,词性兼类n 铂等。在短语一 3 北京邮电人学博卜! ;乏位论文第一章绪论 级主要有短语定界歧义n 扣1 7 1 ,短语结构歧义幢1 蝴等。语义方面的研究相对较少, 主要有词的多义歧义消解n 9 1 ,指代歧义消解1 等,在短语一级有短语的多义现 象比研究等。语用方面的歧义研究仍处于起步阶段。 与具体任务相关的歧义研究情况是:交集歧义在切分中发生率相对较高, 研究也较多啤喇1 。由于大多数场合根据歧义字段本身或局部上下文的统计信息 就可以消除歧义,因此得到较好地解决。但是切分中另一种歧义一组合歧义仍是 难点问题,原因有两点,一是组合歧义字段不能自动侦测。组合歧义字段的收 集主要靠“人脑认定+ 语料库验证一啮1 ,是一种离线式方法。切分系统也只限于 消除已经收集的歧义字段的歧义。从掌握的文献对组合歧义的研究看,歧义字 段的规模和内容都不尽相同:艄1 。组合歧义的消解目前大多借鉴了词义消歧的 做法,用分类的观点处理歧义一1 。 交集歧义和组合歧义都是针对基本词汇而言,实际交叠情况同样发生在基 本词汇和命名实体以及命名实体和命名实体之间嘲。例如:女足队长孙雯, 邓颖超生前住过,丁衡高于珍( 着重号部分也构成词或专名) 。这些交叠严 重影响了切分及实体识别的性能。对于这种广义交集歧义的处理在参考文献中 较少明确涉及。 在语义层面的歧义研究中,词义消歧是一个子课题。词语义项的划分大致有 依据词典定义咖1 和自动聚类口妇两种方法,也有试图根据双语或多语语料构建异 语词典来划分词义的研究。词义消歧有多种方法,根据利用的信息源划分,大 致分为基于词典的方法【3 2 1 ,基于特征的方法1 3 3 确】和基于各种知识的方法。基于 词典的方法从机读词典中得到词义的定义或比照的例句作为消除新语境下词语 多义歧义的依据,相似度是决定义项选择的关键参数。但是这种方法的准确度 只有5 0 一7 0 n0 3 0 1 ,原因主要有:词典中词义的定义一般较短,可能每一种定义 和上下文的覆盖均为零,一般只能提供词一级的信息,未能利用搭配、例句等 有用信息,忽视了歧义词出现的语境信息等。基于特征的方法重点是对多义词 上下文信息的挖掘和利用上。基于知识的词义消歧则是利用形式化的规则区分 词义。从学习方式上消歧方式可分为有监督学习【3 1 j ,半监督学习i 川,无监督聚 类【3 3 】等。从利用语料的语种上可分为基于单语的消歧【3 1 - 3 5 1 和基于多语的消歧 1 3 6 1 o 近年来,大规模语料库的建设为消歧知识的获取提供了新的途径,基于语 料的方法成为目前研究最多、效率最高的方法之一d 7 1 。根据任务的性质,词义 消歧通常视为分类任务。多种学习方法,如b a y e s 算法、决策列表法( d e c i s i o n l i s t ) 、k 近邻法( k n n ) 、基于转换学 - j 的方法( t r a n s f o r i l l b a s e dl e a r n i n g ,t b l ) , b o o s t i n 9 1 3 3 筇,3 7 。3 9 】等构建的分类器都曾用于词义消歧任务。 4 北京邮电大学博l 学位论文第一章绪论 对特征空间的不同利用是导致单一消歧算法差异的主要原因,但是每一种 算法体现了对特征空问的某些角度的利用,没有一种算法对所有的特征均适用 。( p e r r o n ea n dc o o p e r1 9 9 3 ) 1 4 1 】证明,如果单一分类器的错误是不相关 ( u n c o r r e l a t e d ) 和无偏( u n b i a s e d ) 的,组合分类器的错误可以降低为单个分类 器错误的1 n ( n 是分类器个数) 。近年来的研究结果也表明,组合分类器能够 提高系统的性能,并成为一个重要的研究方向【加,4 2 , 4 3 | 。 在短语一级的研究中,为降低深层句法分析难度,( a b n e y ,1 9 9 1 ) 提出了 用短语( 组块) 识别做浅层句法分析的观点洲,被普遍采纳为一种可以实现的、 在实际应用中够用的浅层句法分析方法。汉语语言学界也认为,对短语的描写 既验证、深化对词类的认识,又为句子的结构分析奠定基础嘲。英语短语的识 别已有较多的研究成果一1 ,但汉语短语同英语短语有不少差异。汉语短语研 究上詹卫东圆从面向计算机的语言学处理角度出发,在句法和语义两个层次上 对现代汉语短语的组合规则进行了较全面研究,并对短语结构歧义进行了分类, 指出了一些消除结构歧义的规则方法。其次,清华大学的周强h 3 在1 3 0 万词的 平衡语料库基础上组织构建汉语语块库,旨在用语块描述句子的基本结构框架, 并研究了最长名词短语的自动识别问题。近几年,国内计算语言学研究者多借 用组块( c h u n k ) 定义和观点研究汉语短语,并利用各种机器学习方法,如m a x e n t , s 、r l , t s ,c r f ,m e m m 等研究组块识别问题n 纠7 4 蝴3 ,其中( s u n ,2 0 0 6 ) 呻1 对2 3 类中 文组块的平均识别结果( 基于c t b 5 0 语料) 最高为f 。= 9 1 0 2 。上述研究将短 语类别识别和边界识别统一进行,短语的类别一般较多,使得分类器分类的空 间和时间复杂度都很高。汉语短语具有层次结构,边界定义也较模糊,由此带 来的歧义问题还缺乏研究。从语义角度处理短语定界歧义的研究也很少隋。 句子骨架成分分析是对完整句法分析的简化,以提取句子主要成分为目标, 忽略成分内部构成的分析魄1 。短语识别基础上的句子骨架成分分析也就是短语 句法功能的判断。文献3 1 利用骨架依存算法提取句子的骨架依存树,用于机器 翻译中语句相似度的计算,取得了较好的成果。文献嘲1 以体育新闻语料为主, 提出了在浅层句法分析后利用模板匹配实现句子主干成分提取的方法。人工构 建句子模板的工作繁重且受领域限制。另外,汉语复杂长旬的成分识别也是一 项十分困难的任务。 总的看来,目前自然语言处理对歧义的研究基本是面向具体应用,歧义的 分类体系和研究方法也存在很大差异,缺少语法和语义相结合的消歧方法的研 究,不同语言单位之间歧义的对比和通用消歧方法的研究工作也较少。 5 北京邮电人学博士学位论文 第一章绪论 1 3 本文的研究方法 书面语言是信息的一种表现形式。全信息理论晦祧j 指出,认识论信息根据性 质分为三个层次:语法信息,语义信息和语用信息。语法信息即形式信息,语 言上的语法信息就是文字的形态及文字之间的顺序等浅层信息。语义信息即含 义信息,在语言信息中指语言单位的意义、指代或在旬中承担的角色等。语用 信息体现的是信息对于主体的价值或效用,文章作者的倾向、喜恶等就是语言 中的语用信息的一类。 本文认为,自然语言中复杂的歧义问题也分为三个层面,即语法歧义( 形 式歧义) ,语义歧义( 含义歧义) 和语用歧义( 效用歧义) 。这种划分有助于从 语言逻辑层面的不同深度上研究歧义及消解。语法歧义是浅层歧义,语义歧义 较深,语用歧义最深。实际中各层面的歧义又是相互联系的,形式歧义往往在 含义上有多种合理的解释;含义的不同也会造成形式表现的不同。完全消解歧 义往往要同时利用语法、语义和语用多层次的信息。 汉语语法体系由语素、词、短语、句子和篇章组成7 1 ,不同语言单元的研 究内容不同。成分分析的方向是自下而上,从字词到句子语篇分析。汉语语法 中对于“词、“短语 甚至“句子的定义都是模糊的,存在一个字串既可以 看作是词又可以看作是短语的问题,这也从另一个角度说明,语言处理时不同 语言单位之间的研究方法是相通的,可以相互借鉴。本文的歧义研究也是基于 语言单位进行,但同时也注意了共通的观点和方法。比如组合歧义字段的侦测 是构建歧义字段格式模板,这与短语歧义格式有类似之处;再如,词语和短语 虽然是不同的语言单位,却都可以看作是对句子的切分,因此,本文在短语识 别模型中加入新的特征,提高了识别性能。本文的消歧基于不同语言单位分别 进行,同时也探索了歧义消解与语言单位无关的一些特征和方法。 以语言单位着手,从语法和语义层面研究和消除歧义构成了本文的整体思 路。 自然语言处理的方法阵营分基于规则和基于统计两大类,基于规则的方法 依赖的是人工构建语言学规则,将规则转换为符号体系,利用计算机的逻辑计 算能力完成语言处理的各项工作。基于统计的方法把语言问题看成可以计算的, 对其进行数学建模,利用的是计算机的数值运算能力完成语言的处理工作。研 究结果表明,两种方式都不能独立完全地消除语言歧义现象。实际语言中存在 较多不合规则的现象或规则不易以符号的形式表示出来,而且大量规则间存在 不相容的成分、以及规则的组合爆炸等问题,限制了大量使用规则,而且领域 相关性较重。统计方法的问题在于数学模型的建立对语言做了相应的假设,一 6 北京邮电大学博: 学位论文第一章绪论 些假设在语言现象中是不成立的,如词语序列之间的独立性假设等。另外,语 言的可计算性及可计算程度也是开放研究课题之一。 规则和统计结合的方法是目前普遍认同的方法,但是两者结合的方式,顺 序等具体问题也亟待研究。先统计后规则,先规则后统计,在统计学习方法中 融入基于规则的特征等结合方式在本文中均有应用。无论哪种结合方式,本文 消歧的指导原则是全信息的“三位一体的方法嘲:即语法、语义和语用结合 的方法。 1 4 主要创新点 本文主要在语法和语义层面研究汉语的词和短语的歧义问题,包括歧义的 类别,歧义产生的原因及歧义消解的方法,具体内容是:语法歧义层面的词和 短语边界歧义( 又分别包括交叠歧义和包络歧义两种) ;语义层面词的多义歧义、 短语功能歧义2 、短语语义复合歧义。研究内容及相互关系如图卜1 所示: 隔丽l 图i - i 课题内容及相互关系 课题的目的是试图为汉语词和短语的歧义处理提供系统的思路,探讨适合 计算机歧义处理的方法,进一步提高汉语信息处理的水平。课题在以下几点研 究有创新性: 1 提出将词汇和短语在语法层面的歧义分为交叠歧义和包络歧义两大类,其 中交叠歧义不仅包括基本词汇之间的交叠,也包括专名和基本词汇、专名 2 短语功能在语言分析中通常作为句法分析的一种,由于功能角色同时又能给出句子语义框架,因此图中 将其放置在语法歧义和语义歧义之间。 7 北京邮电大学博:j :学位论文第一章绪论 和专名之间的交叠。交叠歧义消解应用在命名实体识别任务中,提高了识 别性能:包络歧义指词语切分的组合歧义和短语粒度歧义两项内容。 2 发现了一些导致组合歧义的语法结构规律,基于此提取出了9 8 种双字歧 义字段的格式,构建模板自动发现和采集组合歧义字段。将最大熵算法用 于组合歧义消解,取得了较好的性能。 3 分别从对训练样本的使用和学习算法的组合两个角度研究了组合词义消 歧方法。实验表明,两种方法均能较好地消解词的多义歧义。 4 改进了短语识别方法,利用级联分类提高了短语识别的性能,明显减少了 学习器训练的时间复杂度,探索了词汇边界歧义和短语边界歧义消解共同 的一些特征。 5 针对汉语短语定义模糊的问题提出了粒度短语的观点,实现了名词短语不 同粒度的定义和识别;利用同义词词林研究了复合名词短语语义搭配, 从语义角度消解名词短语的定界歧义。 6 从短语功能角度完成句子骨架成分的识别,将复杂长句分析简化为子句分 析,识别短语功能。 7 为有效利用带标语料,实现了人民日报和宾州中文树库语料库的 标记转换问题,给出了转换结果的评测方法,并成功运用到跨越语料标注 标准的短语识别任务中。 1 5 内容安排 本文的研究内容包括两个层面的歧义,语法歧义和语义歧义,语言单位主要 涉及词和短语级。由于时f s j 限制,将语用歧义及其他语言单位的歧义研究作为 未来的研究内容。 下面将根据语言单位和歧义层次安排章节,顺序是从词语到短语,从语法 到语义。根据图1 - 1 的内容,具体安排是:第二章为词语的语法歧义,即词语 定界歧义,介绍汉语切分及词边界的交叠歧义、包络歧义的消解。第三章为词 语的语义歧义,即词的多义歧义,介绍组合词义消歧的方法和实验结果。第四 章开始为短语级歧义,首先是短语的语法歧义,即短语定界歧义。短语定界歧 义包括三项内容:首先介绍基于有监督统计分类方法的级联短语识别,是对现 有短语识别的改进;第二项内容为粒度短语的定义和识别,以解决短语定义模 糊带来的边界歧义问题;第三,由于本文中统计方法主要采取了有监督的学习 方法或称做经验学习,为充分利用宝贵的标记语料,扩大实验语料规模,本文 对语料库标记和不同语料标记的转换也开展了一些工作,并实现了跨语料的短 语识别,相应的歧义研究也在这一章。第五章为短语结构歧义,试图从短语内 8 北京邮电人学博士学位论文第一章绪论 部结构关系上寻求消解短语边界歧义的方法,介绍名词短语的复合方法,尝试 从语义搭配角度消解连续名词构成的名词短语的定界歧义。第六章是短语功能 歧义消解,即基于短语的句子骨架成分识别,是从外部句法功能上研究短语歧 义。第七章是总结与展望,对各层面歧义及消歧方法的总述和对未来研究内容 的展望。 9 北京邮l 乜大学博 学位论文 第二章词汇定界歧义及消解 第二章词语定界歧义及消解 汉语语言学中词的定义是:由语索构成的、最小的能够独立活动的有意义的 语言成分i 翮。但是汉语文本是由字( c h a r a c t e r ) 、标点等组成的连续字符串。 与英文文本不同,汉语没有明确的词( w o r d ) 界限,因此汉语词切分是汉语信 息处理的重要基础工作,是进行短语、句子、篇章分析的前提潮。本章主要研究 汉语词切分中的歧义问题。从本论文观察歧义的两个视角来看,显然,词语切 分歧义是在语法层次、词汇单元上的闽题。本章是这样安排的:在第一节首先 介绍切分问题及现有规范,第二节介绍切分中的歧义类型,第三节提出几种歧 义消解方法并进行实验评估,基于这些方法建立的切分系统参加了最近两届国 际汉语切分评测( s i g h a nb a k e o f f ) ,第四节介绍了评测结果,最后是本章小 结。 2 1 汉语词切分任务及困难 虽然有上述关于词的语言学定义,但在许多具体的问题上,确定一个字串 是否是词有争议,比如,“洗澡”是一个词还是一个词组,就存在不同的观点。 而在计算机处理中,除了这些争议仍然存在之外,由于不同的应用系统对于词 的“粒度要求又有所不同,对于什么是词、一个字串是否成词等问题就存在 更多的争议。所以,在有关词切分酶穰多文献中,避兔用“词”这个有争议的 概念,而代之以分词单位( s e g m e n t a t i o nu n i t ) 啪1 这一术语。分词单位体现 了切分是露向应麓的,不存在唯一的 霹的评价标准。本文谈为采麓“切分单位 这这一术语更科学,只是为叙述简洁,下文中仍沿用“词”这一记号来表示“切 分单位 。 切分规范的制定是具体实施切分工作的开始,也是评价切分结果的标准。 目前,我囡已有了一个汉语词切分的基本规范信息处理用现代汉语分词规 范( 中邈国家标准g b l 3 7 1 5 ,1 9 9 2 年,以下简称规范) ,台湾地区也于1 9 9 5 年也提出了资讯处理用中文分词规范。由于语言是在不断发展过程中的, 相应的栽范也在不断完善中。切分规范中明确规定了哪些字串能够成词,但是, 个静态的规范显然不能涵盖并解决汉语切分中的歧义问题,比如,“产品 秘“晶质都是规范中的溺,但是,当“产龋质”这一字串出现在一个文本孛 时,规范并不能确定到底是应该切成“产品质还是“产品质 ,为此 需要大规模真实切分语料对规范进行补充,帮助说明在具体语言环境下如何进 l o 北京邮电大学博士学位论文第二章词汇定界歧义及消解 行切分。从目前的研究来看,大规模切分语料已成为汉语词切分的黄金标准 ( 6 0 l ds t a n d a r d ) ,相应也就成为比较切分系统能力的评估平台。近年来,由计 算语言学学会( a c l - a s s o c i a t i o no fc o m p u t a t i o n a ll i n g u i s t i c s ) 的汉语兴趣 组( s i g h a n :s p e c i c a li n t e r e s t i n g6 r o u po fn a n ) 发起的国际汉语切分评测中, 都有几个由不同机构提供的不同的切分规范和语料,系统在不同的规范下分别 评测。而一个能在所有语料上和规范上都优于其他系统的切分系统还没有鹋删。 切分规范的差异反映了人们对于词的认识的差异。 即使在确定的切分规范和大规模切分标注语料条件下,汉语切分研究仍存 在不少问题没有彻底解决。主要困难有两点:一是切分歧义,二是未登录词识 别哺1 。切分歧义是指一个字串存在一种以上的组词可能,比如上述的字串“产 品质行,需要在具体的语言环境中才能唯一确定切分方式。未登录词则指词典 中未收录的词,比如:基于事实成词的数字符号、时间、层出不穷的专有名词、 新词等。这两个难点的关键就是词语定界歧义问题。 2 2 切分歧义成因及类别 2 2 1 切分歧义成因 基本切分方法有三类:基于字符匹配的方法口1 、无监督无词表切分肺妇和机 器学习方法2 删。 一、基于字符串匹配的方法常需要一个切分词典隋一1 。主要匹配的方法有: 1 ) 前向最大匹配( f o r w a r dm a x i m u mm a t c h i n g ,f m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论