(计算机应用技术专业论文)中文人称代词指代消解系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)中文人称代词指代消解系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)中文人称代词指代消解系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)中文人称代词指代消解系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)中文人称代词指代消解系统的研究与实现.pdf_第5页
已阅读5页,还剩46页未读 继续免费阅读

(计算机应用技术专业论文)中文人称代词指代消解系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要指代是自然语言中常见的语言现象,大量出现在篇章或对话中。指代词的使用可以使语篇的表述不显累赘,简明清晰。指代消解是文本信息处理中的一个重要任务。随着篇章处理相关应用日益广泛,指代消解也显示出前所未有的重要性,成为一个文本信息处理的研究热点。它在机器翻译、自动摘要、问答系统、信息抽取等许多自然语言处理技术应用领域中发挥着重要作用,并已经成为m u c 和a c e 中的重要评测任务。本文在深入分析突发事件语料中人称代词指代特点的基础上,提出了一种基于语料库的,机器学习方法与优先选择策略相结合的指代消解模型。该模型充分考虑了与指代相关的若干属性,利用决策树算法构建过滤器,有效的降低了噪音,大量减少了进入优先选择策略待消解对的数量。而优先选择策略可以将通过滤器不能很好处理的指代现象利用统计学的方法消解出来。二者互相补充,相辅相成。该模型具有以下特点( 1 ) 机器自学习模型。该方法是从大规模语料库中自动训练出来的指代消解系统模型,很少需要人工干预,所有特征属性都可以直接从训练语料中获得。( 2 ) 减少了非先行语噪音的干扰。利用决策树算法构建的过滤器降低了候选互指对的噪音,剔除了许多非互指的待消解对,提高了指代消解的效率和准确率。( 3 ) 统计与规则相结合的方法。充分利用优先选择策略对指代消解的特征属性综合考虑,使他们对消解效果的影响更加趋于合理,弥补了利用规则进行指代消解的不足。在该模型的基础上,本文详细描述了中文文本人称代词指代消解试验系统的设计与实现,并且对算法和各个特征属性进行了全面的测试评估。从该算法目前所取得的一些初步试验结果看来,这是行之有效的。在突发事件新闻文本中,对中文人称代词的消解特别是第三人称的消解获得了较好的效果。指代消解系统具有一定的先行语和特征属性的可扩展性,保证了系统拥有良好的健壮性,方便应用系统的移植。本文对人称代词的指代消解进行了初步的研究,从中我们认识到了进一步的研究内容,为今后的研究奠定了基础。关键词:语料库;人称代词;指代消解;决策树:最优选择a b s t r a c ta n a p h o r ai sac o r 砌o np h e n o m e n o ni nt h er e s e a r c ho nn l p ( n a m m ll a n g u a g ep r o c e s s i n g ) ,i t 印p e a r sal o ti nt h ed i s c o u r s e so r t h ed i a l o g u e s t h eu s eo fa 1 1 印h o r i cw o r d sm a k e sd i s c o u r s el o o k sb r i e fa 皿印h o mr e s 0 1 u t i o np l a y sa ni m p o r t a n tr o l ei nt e 斌i n f 0 瑚a b o np r o c e s s i n g w i mt h ei n c r e a s i n gd e v e l o p m e mo fd e a l i n gw i t ht h ed i s c o u r s e s ,a 1 1 印h o r ar e s o l u t i o ns h o w st h eu n p r e c e d e n t e di m p o r t a n c e ,a n db e c o m e sah o tr e s e a i ho np r o c e s s i n gt h ei n f o n n a t i o no ft e 赋i ti sv e 巧i m p o r t a n ti nm a c h i n en a n s l a t i n g ,a u t o m a t i cs u m m a r i z a t i o n ,q u e s t i o na n s w e r ,i n f o r m a t i o ne x t r a c t i o na n do t h e rn a t u r a ll a n g u a g ep r o c e s s i n ga r e a ,a 1 1 di tb e c o m e sa ni m p o r t a me v a l u a t i n gt a s ko fm u ca i l da c ei n t h i sp a p e r ,b a s e do nt h ei n - d e p t ha j l a l y s i so fa 1 1 a p h 硎cf e a t u l so fp r o n o u ni nt h ep a r o x y s m a lc h i n e s et e x t s ,w ep r e s e n ta 1 1 印p r o a c ho fa i l 印h o r ar e s o l u t i o n ,w h i c hi sb a s e do nc o r p l l sa d o p t i n gt h es t a t i s t i c a lm a c h i n el e a m i n ga r i t h m e t i ca n dc o m b i n i n gw i t ht h ep r e f e r e n c es e l e c t i o ns n a t e g yt h em e t h o dt d k e si m oa c c o u n ta l lk n d so fa n 印h o r i cf j a t l l r e s ,a n du s e st h ed e c i s i o n 仃e ea r i t h m e t i ct oc o n s t r u c tt h ef i l t e fi ti sat 0 0 i r e d u c i n gt h en o i s eo fm es y s t e m ,w h i c hc a nd e c r e a s et h en u m b e ro fw a i t i n gr e s o l u t i o nw o r d s t h ep r e f e r e n c es e l e c t i o ns t r a t e g yc a nr e s o l v eo t h e ra n 印h o r i cp h e n o m e n a ,w h i c hc a i l l l o tb er e s o l v e db yt l l ep r e v i o u sm e t h o dt h e s en v om e t h o d sc o o p e r a t ew e l l t h ef e a t u r e so ft h i sm o d e la r es h o w na sf o l l o w :( 1 ) t h em o d e lo fm a c h i n ea u t o m a t i cl e 锄i n g t h i sm e t h o di sa l la n a p h o r ar e s o l u t i o ns y s t e mt r a i n e da u t o m a t i c a l l yi i ll a r g e s c a l ec o r p u s i to n l yn e e d sf e wi n t e r v e n t i o n so fp e o p l e a 1 lo ft h er e l a t e df e a t u r e so fa n t e c e d e mc 柚b eg a i n e di nt r a i n i n g ( 2 ) d e c r e a s i n gt h en o i s eo fn o n c o r e f e r e n c ew o r d s t h i sm e t h o du s e st h ed e c i s i o n 仃e ea r “h m e t i ct oc o f l s t m c tt h e 虹1 t e r w h j c hr e d u c e st h en o i s eo fm es y s t e m ,e l i m i i l a t i n gm a j l yn o n - c o r e f e r e n c ew o r d sa i l d i n c r e a l s e st i l ee f f i c i e n c ya 1 1 dp r e c i s i o no fa n 印h o r ar e s 0 1 u t i o n ( 3 ) t h em e t h o do fs t a t i s t i c si n t e 黟a t e dm l e s t h ep r e f e r e n c es e l e c t i o ns 仃a t e g yt h i n k se n o u 曲o v e r f h ea l l a r o u n de 艉c t so ff e a t u r ei na n 印h o r ar 。s o l u t i o n m a k e sm e i re f ! f b c t so nr e s o l u t i o nb e t t e rr e a s o n a b l e ,a n dc a nm a k eu pm ed i s a d v a n t a g eo fr e s 0 1 v i n gs o m ea n 印h o r ap r c l b l e m sb yf h er 试e d m e t h o d o nt h eb a s i so ft h i sm o d e l ,t h ep a p e rd e s 嘶b e sl h ed e s i g l la n dr e a l i z a t i o no fp r o n o m i n a la n a p h o r ar e s o l u t i o nt e s ts y s t e mi nc h i n e s et e x t ,a n de v a l u a t e st 1 1 ea r i t h m e t i ca n d 秭碍r 、rc h a f a c t e rf e a t u r ei nt h er o u n d f r o ms o m ep r e l i m i n a r yr e s u l t st h a tt h i sa l g o r i t h mi sm a d ea tp r e s e n t ,t h a ti se 丘b c t u a li to b t a i n sa c h i e v e st h ed e s i r e dr e s u l t ,a i m i n ga tc h i n e s ep e r s o n a lp r o n o u ne s p e c i a lt h et h i r dp e r s o n a lp r o n o u ni nt h ep a r o x y s m a lc h i n e s et e x t s t h i sa 1 1 a p h o r ar e s o l u t i o ns y s t e mi se x t e i l s i b l ei nb u i l d i n gm ea f l t e c e d e n tc a l l d i d a t e sa i l dc h a r a c t e rf e a t u r e s ,w h i c hc a l le n s u r eb e n i g ns y s t e mr o b u s ta i l dm a l ( et h es y s t e me x p e d i e n t l y 仃a i l s p l a n t t h i sp 印e rm a k e sap r e p a r a t o r y 、r e s e a r c ho np r o n o m i n a la i l a p h o r ar e s o l u t i o nf m mi t ,w eu n d e r s t a n dw h a tw es h o u l ds t u d yf a t h e r ,a n de s t a b l i s ht h ef o u l l d a t i o no f r e s e a r c hf o r l h ef h t u r e ,k e yw o r d :c o r p u s ;p e r s o n a lp r o n o u n ;a n 印h o r ar e s o l u t i o n ;d e c i s l o nt r e e :p r e f e r e n c es e l e c t i o n山西大学2 0 0 5 届硕士研究生学位论文1 1 自然语言处理第一章引言自然语言是指人们日常使用的语言,如汉语、英语、日语、法语等,它是人类学习环境和互相通讯的工具。在人类历史上以语言文字形式记载和流传的知识占到知识总量的8 0 以上。就计算机的应用而言,据统计,用于数学计算的仅占l o ,用于过程控制的不到5 ,其余8 5 左右都是用于语言文字的信息处理。所谓自然语言处理( n a t u r a ll a n g u a g ep r o c e s s i n g ,n l p ) 从广义来说是指利用计算机来处理自然语言的音、字、词、句、篇章的各种技术,包括输入输出、识别、分析、理解、生成等i ”。这里的自然语言是指人类日常交流所使用的语言,如汉语、英语等,它是相对于人工语言( 如各种程序设计语言) 而言的。在信息化社会中,语言信息处理的技术水平和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。在这样的需求下,自然语言理解作为语言信息处理技术的一个高层次的重要方向,一直是人工智能界所关注的核心课题之一。自然语言处理已经形成一门专门的边缘性交叉学科,涉及语言学、数学和计算机科学,横跨文科、理科和工科三大知识领域。自然语言处理既是起源于应用语言学,又是人工智能( a n i f i c i a l i n t e l l 逗e n c e ,a j ) 的主要内容之一吼显然,如果计算机能够理解自然语言,人机间的信息交流能够以人们所熟悉的本族语言来进行,那将是计算技术的一项重大突破。自然语言处理研究在电子计算机问世之初就开始了,并于5 0 年代初开展了机器翻译试验。当时的研究方法还不能称作带有“智能”。到了6 0 年代m c h o m s k v的转换生成文法( t r a n s f o r m a t i o n a lg e n e r a t i v eg r a m m a f ,t g ) 的出现使语言学进入了定量研究阶段,导致语言学和计算机科学之间相互渗透,出现计算语言学这门交叉学科。但是对于c h o m s k y 的早期理论来说,还不具备足够的能力处理极其复杂的自然语言闻题p 】。由于认识到生成文法缺少表示语义知识的手段,在7 0 年代随着认知科学的兴盛,研究者又相继提出了语义网络、c d 理论、格框架等语义表示理论。这些语法和语义理论经过各自的发展,逐渐开始趋于相互结合。到8 0 年代批新的语法理论脱颖而出,具有代表性的有词汇功能语法m e x i c a lf u n c t i o n a lg f a m m a r ,l f g l 、功能合一语法( f u n c t i o n a lu n m c a t i o 研a m m a r ,f u g ) 和广义短语结构语法中文人称代词指代消解系统的研究与实现( g 它n e r a l i z e dp i l r a s es t m c t u r eg 衄m a r ,g p s g ) 等n 这些基于规则的分析方法可以称之为自然语言处理中的“理性主义”。现有的手段虽然基本上掌握了单个句子的分析技术,但是还很难覆盖全面的语言现象,特别是对于整个段落或篇章的理解还无从下手。与“理性主义”相对的是“经验主义”的研究思路。主要是指针对大规模语料库的研究。语料库语言学( c o r p u sl i n g u i s t i c s ) 是8 0 年代才崭露头角的一门计算语言学的新的分支学科。它研究机器可读的自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析,以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。语料库语言学研究的基础是机器可读的大容量语料库和一种易于实现的统计处理模型,两者是相辅相成缺一不可的。从本质上讲语料库语言学的研究采用的是一种基于统计的经验主义处理方法,它与传统的基于规则的理性主义处理方法是很不相同的。对语料库的研究分成3 个方面:工具软件的开发、语料库的标洼、基于语料库的语言分析方法。采集到的未经处理的生语料不能直接提供有关语言的各种知识,只有通过词法、句法、语义等多层次的加工,才能使知识获取成为可能。加工的方式就是在语料中标注各种记号,标注的内容包括每个词的词性、语义项、短语结构、句型和句间关系等。随着标注程度的加深,语料库逐渐熟化,成为一个分布的、统计意义上的知识源。利用这个知识源可以进行许多语言分析工作,如根据从己标注语料中总结出的频度规律可以给新文本逐词标注词性,划分句子成分等,语料库提供的知识是用统计强度表示的,而不是确定性的,随着规模的扩大,旨在覆盖全面的语言现象。但是对于语言中基本的确定性的规则仍然用统计强度的大小去判断,这与人们盼常识相违背。这种“经验主义”研究中的不足要靠“理性主义”的方法来弥补。两类方法的融合也正是当前自然语言处理发展的趋势【4 j 。我国自然语言理解的研究起步较晚,比国外晚了1 7 年,国外在1 9 6 3 年就建成了早期的自然语言理解系统,而我国直到1 9 8 0 年才建成了两个汉语自然语言理解模型,并且都是以人机对话酌方式来实现的。八十年代中期在国际新代计算机激烈竞争的影响下,自然语言理解的研究在国内得到了更多的重视。“自然语言理解和人机接口”列入了疆一代计算机的研制规划,研究单位增多了,研究队伍也壮大了f ”。2山西大学2 0 0 5 届硕士研究生学位论文1 2 项目背景突发事件文本信息抽取系统随着互联网的迅猛发展,所产生的信息量也同样以惊人的速度膨胀。但是与此同时,人们获取信息的能力却并没有因此而对应成比例的增长,人们往往是被淹没在信息的海洋里。一方面人们不能对巨大的信息资源予以合理高效的运用,另一方面人们去查找感兴趣的内容时找到的却是大量的含金量很低的源文档,需要花大力气去整理和分析。计算机技术的发展己决定了对高效率的信息获取技术的需求是越来越迫在眉睫。人们不仅要求计算机技术对信息要有自动获取的能力,而且还要求信息必须经过分析处理,形成高质量的满足用户需求的信息,以便于用户查询或者能以推导的方式主动传递给用户。目前已有的技术包括:信息检索、搜索引擎、全文索引等等,都不能很好的解决这个问题。信息抽取( i n f o 珊a t i o ne x t r a c t i o n ,正) 技术正是这样一种新型的能满足上述要求的自然语言处理技术。它通过对原文档信息内容的分诉,抽取出有意义的事实,生成满足用户要求的简洁的信息 ”。信息抽取系统不仅能帮助人们方便地找到所需信息,而且信息的内容经过合理的分析和组织,人们可以高效地获取所感兴趣的信息内容。一方面信息抽取系统从文档( 例如w 曲文档) 中抽取指定领域的信息,并使用信息模板来刻画原文档信息;另一方面信息抽取系统将非结构化的文本结构化,并将结构化的信息组织存储到信息库中,使用户能够方便地迸行进一步的数据分析和查询工作。信息抽取的任务就是将源文档所包含的信息内容析构出来,并按模板的结构组织存储,形成结构化的信息库。在信息抽取得到的结构化信息库的基础上,可以进一步完成信息搜索( i n f o r m a t i o ns e a r c h ) 、数据挖掘( d a t am i n i n g ) 、机器翻译( m a c h i n et r a n s l a t i o n ) 、文本生成( t e x tg e n e r a t i o n ) 等后续信息处理f ”。所谓信息抽取( 正) 就是从大量的文本中抽取出相关的信息。信息抽取的来源可以是多种多样的,比如可以是网页文件、声音文件、图象文件等等,我们定义的信息提取的来源是文本文件。传统的信息提取是从单文本中抽取信息,我们的研究以同事件、多文本的突发事件为处理对象。突发事件,是指突然发生的、公众难以预料和控制的,具有较大社会冲击力的事情。突发事件有着非常明显的特征,主要有以下几点:突然性是突发事件的一个重要特征。在事情发生之前没有任何预示,而3中文人称代词指代消解系统的研究与实现且没有记载。突发事件是公众难以预测和控制的事件。譬如,9 1 1 恐怖事件,西班牙3 ll 恐怖事件等都是典型的突发事件,它太出乎人们的意料,难以为公众预测和有效控制。突发事件是具有社会冲击力的事件,事件发生后短时间能够迅速成为舆论关注的焦点。如西班牙3 1 l 恐怖事件一经发生,就为全球所瞩目,成为全球关注的焦点。在国内,这两年发生的非典型性肺炎事件以及近期发生的苏丹红事件,都在短时间里成为社会和人们关注的话题 i “。由于突发事件具有以上鲜明特点,因此针对突发事件构建信息抽取系统有着非常大的社会价值和应用价值。在信息社会高速发展的现在,突发事件发生后,必然会有很多相关新闻报道出现,这些新闻报道的内容涉及突发事件的各个方面,内容多,信息量大,并且不同新闻报道可能会出现相同的内容。如何快捷、准确地获取感兴趣的信息,同时滤除信息垃圾已成为人们面对巨量信息急待解决的问题。突发事件信息抽取系统就是建立在这一需求的基础上,特别关注突发事件信息,把最有价值,最有代表性的信息提供给人们。而且信息抽取系统得到的结构化信息模板,也为后续进行信息处理提供了非常有价值的信息内容,有很大的应用价值。我们在以上应用需求的基础上研究建设“突发事件文本信息抽取系统”,目的在于建立一个以各类突发事件为关注焦点的具有领域可扩充性和可移植性的信息提取系统,为其他应用系统提供信息服务。整个系统的基本模型如图1 1 所示。4山西大学2 0 0 5 届硕士研究生学位论文预处理模块文分档类主模题块1 舌塞曩n 一匿1 二二二二二二二历二二二二i 二二j j图1 1 突发事件文本信息抽取系统模型本模型的详细介绍请参阅文献 1 l 】,这里只介绍一下跟本论文有直接关系的预处理模块。预处理模块包含许多功能不同的子模块,在本文中将详细介绍指代消解模块。该模块功能就是把代词等的指代对象标注出来,使得信息抽取的结果中不含有指代对象不确定的指代词。这些信息对正系统来说,往往是关键的。所有这些子模块都是相互独立的功能模块,可以方便灵活地重用,根据不同的需要将这些子模块以流水线的方式组合起来。1 3 指代消解问题研究的意义大量出现在篇章或对话中的指代,是自然语言中常见的语言现象,它使得句子更加简洁明了,主题更加鲜明突出,但这也给计算机理解自然语言增加了难度。在计算语言学领域,随着篇章处理的相关应用日益广泛,指代消解也显示出前所未有的重要性,并成为自然语言处理上热门的研究问题。1 9 9 7 年的e a c l 和1 9 9 9年的a c l 年会都设立了指代消解的专题会议,2 0 0 1 年的c o m p u t a 曲眦il i n g u i s t i c s还出了指代消解的专辑。首先,指代消解具有很重要的应用价值。例如在进行文本摘要的过程中,往5中文人称代词指代消解系统的研究与实现往采取从文本中直接抽取句子的做法,抽取的句子中难免会含有人称代词,可是包含这些代词的先行词的句子却不一定也被抽取了。这样,在形成的摘要中就很可能会含有某些无先行词的代词,从而使得摘要变得非常难于理解。因而需要通过代词的消解来确定其先行词,从而替代摘要中的代词,以改善文本摘要的可读性。在人机对话系统中,当会话主题确定后,在后续对话中言及会话主题时往往使用代词。这就要求机器明确代词所指。再如,在机器翻译中,各语种中代词的用法各异,并不一一对应,因而在翻译前不进行代词消解就直接进行翻译,将很难保证翻译的质量。所以在自然语言信息处理中,代词的消解是非常重要的,特别是文本中出现的人称代词的消解有着更为实际的应用。其次,指代消解是m u c 和a c e 信息抽取评测体系中的子任务。下面分别介绍m u c 和a c e 的相关任务。从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系列会议( m e s s a g eu n d e r s t a l l d i n gc o n f e r e n c e ,m u c ) 的召开。正是m u c 系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展。从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究计划委员会( t h e d e f e n s e a a n c e d r e s e a r c h p r o j e c t s a g e n c y ,d a r p a ) 资助。m u c 的显著特点并不是会议本身,而在于对信息抽取系统的评测吲。m u c 的进行,也是评测任务逐步规范化的过程。整个评测可以看作由三部分组成:由组织者给出评测任务的详细描述及训练数据;参评单位按照任务定义对自己的系统进行移植;组织者按照评价指标进行评测,公布结果、召开研讨会。因此,每一次的任务定义实际上部代表了对正的热点技术问题的关注。综合起来,m u c 定义的评测任务包括以下六个方面:1命名实体任务( n a m e de n t i t yt a s k ) 【n e 在历届m u c 中,所识别的命名实体的种类包括:人名、组织机构名、地名、日期、时间、货币名称、数字。2多语言实体任务( m u l t i 1 i n g u a le n t i t yt a s k ) m e t 】对应于汉语和日语的命名实体任务。3共指( c o - r e f e r e n c et a s k ) 【c o 】该任务仅限于对命名实体任务和模板元素任务中规定的对象的共指识别。同一个实体,在篇章中可以有多种指代方法,该任务就是将不同的指代都连接到同6山西大学2 0 0 5 届硕士研究生学垃论文一实体上。4模板元素任务( t e m p l a t ee i e m e n t 髓k ) t e 】该任务限定从一个文本中找到所有关于规定的实体的基本信息,包括一些描述性的信息,从而形成实体的完整的描述。5模板关系任务( t e m p l a t er e l a t i o nt a s k ) 【t r 】在m u c 中,只规定了三种关系:人物的任职关系( e m p l o y e eo f ) 、产品的制造厂商关系( p r o d u c to f ) 、机构所在地点关系( 1 0 c a t i o no f ) 。6场景模板任务( s c e n 盯i ot e m p l a t et a s k ) s t 该任务是建立在n e 、t e 、t r 任务之上的。是信息提取系统输出的原型,要将实体、及其关系按照事先规定的事件信息有机的组织在一起。从m u c 的评测任务可以看到,共指评测是信息抽取评测中的一项子任务,这里的共指( c o ) 任务就是指代消解任务。随着m u c 会议的停办,美国国家标准技术研究院( n i s t ) 组织了自动内容抽取( a u t o m a n cc o m e me ) ( t r a c t i o n ,a c e ) 评测f 2 3 | 。它从1 9 9 9 年开始继续进行信息抽取方面的评测。a c e 评测1 9 9 9 年7 月开始酝酿,2 0 0 0 年1 2 月正式开始启动,迄今已经举办过五次评测( 2 0 0 0 年5 月,2 0 0 2 年2 月,2 0 0 2 年9 月,2 0 0 3 年1 0 月,2 0 0 4 年8 月) ,其研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容。目前a c e 评测主要有三大任务:实体识别( e n t i t yd e t e c t i o na n dr e c o g n i t i o n ,e d r ) 、实体检测和跟踪( e m i t yd e t e c t i o na n dt r a c k i n g ,e d t ) 和关系识别( e l a t i o nd e t e c t i o na 1 1 dr e c o g n i t i o n ,r d c r ) 。与m u c 相比,a c e 评测不针对某个具体的领域或场景,而是采用基于漏报( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e mp r o c e s s i n g ) 能力进行评测。a c e 评测直到最近次才将中文纳入评测范围,目前a c e 评测提供的语料不仅是英文,而且还包括中文和阿拉伯文。这新的评测会议必将把信息抽取技术研究引向新的高度。基于信息抽取的指代消解问题评测包含在a c e 评测中的实体检测和跟踪( e d t ) 任务中。e d t 要求检测人名、一般代词、代词等命名实体,然后将指向同一真实实体的命名实体合并到一个实体里面,也就是对文本中出现的指代关系进行处理。例如,在a c e 的训练语料中将对以下文档进行指代关系的处理。“壤赫糕接港2 号接受菲律宾一家电台访问时说,三军参谋总长雷耶丝打电话向弛报告说,阿美达和其随行者已经在和落岛塔里班的马巴”7中文人称代诃指代消解系统的研究与实现 埃斯特拉达 埃斯特拉达 他 他 埃斯特拉达 埃斯特拉达r山西大学2 0 0 5 届硕士研究主学位论文 c h a r s e qs t a r t = 6 5 e n d = 。6 9 ”,菲律宾总统( e ) ( t e n t 总统 埃斯特拉达 埃斯特拉达通过分析,我们可以看出指代消解是中文信息处理中的重要任务,同时这项任务也是非常困难的,因为指代消解是一个需要知识资源支撑的任务,但是现在能有效支撑指代消解的知识资源还很匮乏,而且建立这样的知识资源是一个长期的过程,因此在目前的基础上,我们还没有办法对所有的指代现象进行消解,只能针对指代消解中的若干问题进行探索性的研究,逐步地、渐进地解决指代消解问题。对突发事件的新闻文本的统计分析后,可以发现,代词的消解效果将直接影响着篇章的理解准确度,是指代消解任务中需要重点解决的问题。我们选取了五十篇有关2 0 0 4 年3 月2 0 日西班牙恐怖爆炸事件的新闻文本,这五十篇共包含1 9 3 2 8 4个中文字符,其中人称代词包括1 0 1 2 处( 第一人称3 7 5 处,第二人称5 l 处,第三人称5 8 6 处) ,其他代词,如这、那等指示代词共2 7 9 处。人称代词的消解占全部需要进行消解的代词的7 84 ,尤其第三人称代词占全部的4 54 ,由此可见做好人称代词的消解,特别是做好第三人称代词的消解,将在很大程度上影响着突发事件新闻文本中的指代关系,尤其是人物关系的理解,对中文文本的信息抽取起着至关重要的作用。所以,在突发事件新闻文本的中文信息处理中,我们把人称代词作为重点消9中文人称代词指代消解系统的研究与实现解对象应该是非常有意义的。1 4 本文的主要工作和结构安排整个突发事件文本信息抽取系统的研究工作是一项较大的工程,我所做的主要工作是针对信息抽取系统预处理模块中的子任务人称代词指代消解进行研究,目标是建立一个指代消解( a n a p h o r ar e s o l u t i o n ) 的模型,并使用这个模型为卜节介绍的信息抽取系统构造一个中文文本人称代词指代消解系统。所建立的模型应具有以下主要特征:1面向实际应用。应该具有容易开发和部署的特点。2模块化的设计。通过对语言资源模块和控制模块的良好划分和封装,使人称代词指代消解模型具有较强的扩展性。3可移植性。包括跨平台的移植和跨应用领域的移植本文的完成的工作主要有:在介绍了有关研究背景及研究意义的基础上,详细介绍了各种指代消解及其相关技术,分析对比了各种指代消解技术的优缺点。在上面分析的基础上,吸收了各种指代消解的优点,结合突发事件文本人称指代消解的特点,提出了一个人称代词指代消解模型,这个模型充分利用了规则消解法和基于语料库统计学技术的消解法的优点,创建了特征属性可以动态添加、修改和删除,并把属性之间相互影响加以考虑,使得模型可以在使用过程中不断提高自己的消解能力。在此模型的基础上,初步实现了一个突发事件文本人称指代消解系统。论文章节安排以上述研究及实践为基础,作者撰写了本文。全文共分为六章:第一章引言对论文研究背景及涉及到的技术作简要介绍。第二章介绍了指代消解的相关概念,分析了指代消解的有关技术,并且介绍了目前指代消解的研究现状和应用情况。第三章详细分析了中文文本人称代词指代消解的主要困难和关键问题。,第四章提出中文文本人称代词指代消解的模型。针对中文文本指代消解的关键问题和难点,给出了自己的解决方法,包括消解特征属性的选择、计算策略等。介绍了决策树过滤器和优先选择消解的基本思想,最后通过分析对比1 0山西大学2 0 0 6 届硕士研究生学位论文阐述了本模型的优点。第五章介绍了突发事件文本人称代词指代消解系统的具体设计与实现。首先介绍了自然语言文本的预处理,详细介绍了特征属性的可扩充性与解决方案。结合实例详细说明了指代消解过程,最后对消解系统进行了评估。第六章总结与展望。对本文所作工作进行总结,分析了本文提出的突发事件文本人称代词指代消解模型的优缺点,说明进一步的完善和改进的方向。中文人称代词指代消解系统的研壳与实现第二章指代消解技术现有的许多自然语言应用系统,如文本摘要、信息抽取、机器翻译等,采取从文本中直接抽取句子式一种常见的方法,而这种方法的结果可能会含有某些无先行语的照应语,使得理解变得非常困难。指代词的使用使得语篇的表述不显累赘,简明清晰,同时,指代关系反映了语篇中各语句之间的语义联系,是语篇成其为语篇的重要特征【3 9 1 。本章是对指代消解的概念、问题、方法和技术的综述。第一节介绍指代消解的基本概念,指代的必要条件等。第二节是指代消解技术简介。首先介绍国外有关指代消解的理论,然后又介绍了指代消解主要的实现方法,最后介绍了国内对中文指代消解问题研究的现状。第三节是对以上介绍的有关方法和技术的总结分析,并介绍了指代消解问题研究的发展趋势。2 1 指代消解相关概念21 1 指代消解的定义指代( a n a p h o f a ) 是指在语篇中用一个指代词回指某个以前说到过的语言单位。在语言学中,指代词称为照应语 o b j e c t 0 t h e r s 排序,这与它们成为u n + 1 的中心的可能性大致相对应。列表中的第一个元素称为优选中心( p r e f e r r e dc e n t e r ) ,记为c p ( u 。) 。实际上,c 口( u 。) 表示的是该旬中最有可能成为下旬主题的概念。唯一的一个后向中心记为c e ( u n ) ,在u 。中被言及的un 的各前向中心,其在c l ( u 。1 ) 中顺序最前的一个称为u n 的后向中心。c b ( u 。) 实际表示的是该句的主题。在该模型中将从一个话段到另一个话段的过渡类型定义为如下的几种:连续( c o n t i n u i n g ) :该句的中心继承了上句的中心而且很可能被下旬继续继承( c b ( u n 1 ) = c b ( u 。) c p ( u ) ) 。停顿( r e t a i n i n g ) :该句的中心继承了上句的中心但可能不被下旬继承( c b ( u 。i ) = c b ( u n ) c p ( u 。) ) 。转变( s h i r i n g ) :该句没有继承上句的中心( c b ( u 。1 ) c b ( u n ) ) 。b r e n n a n ,f r i e d m a n 和p o l l a c k ( b f p ) 【1 9 8 7 】扩展了中心理论,将话语过渡类型中的“转变”按c b ( u 。) 是否等于c ,( u n ) 进一步分为:“缓变( s o f i - s h i r i n g ) ”和“突变( r o u 曲一s h i 盘i n g ) ”用以分清当中心转变后,新的中心是否可能被下文继承。几种过渡关系可以用下图表示表2 1 中心理论过渡关系c b ( u ) = c b ( u 。i )c b ( u n ) c b ( u i )c b ( u n ) 2 c 。( u 。)c o n t i n u i n 窖s o r s h i 崩n gc b ( u n ) c p ( u n )r e t a i n i n gr o u 曲- s h i 硒n g几种过渡类型的优先级别有如下偏序关系:c o n t i n u i n g r e t a j n i n g s o 最s h i r i n g r o u g h s h i 丘i n gg r o s z 拟定了两条有可能符合人们话语习惯的规则:t只有当c b 是用代词形式言及时,c ,( u n - ) 中其它元素才可能用代词形式言及。选择话语过渡类型时,倾向于:连续 停顿 转变。1 7中文人称代诃指代消解系统的研究与实现2 22 指代消解的实现方法l基于句法的方法基于句法的指代消解是较早采用方法,这种方法试图充分利用句法层面的知识,并以启发式的方式运用到指代消解中。比较典型的系统是1 9 9 4 年由l a p p i n l e a s s 提出的算法r a p ( r e s o l u t i o no f a n a p h o r ap r o c e d u r e ) ,该算法用于识别第三人称代词和具有反身特征( 如“自己”) 与互指特征( 如“彼此”) 的先行语,算法主要使用了句法知识。r a _ p 先通过槽文法( s l o tg r a m m 神分析,再通过句法知识消解指代。l a p p i n l e a s s 的算法,指代消解准确度( a c c u r a c y ) 达到了8 6 。但他们事先通过人工方式对句子作过简化处理,同时,也只考虑了三人称形式。1 9 9 6 年,k e n n e d y b o g u r a e v 对l a p p i n l e a s s 的算法作了简化。他们只作浅层分析,即,用l r n g s o f t 工具预处理后,得到必要的文法信息,主要有两类:词性标注和句法功能标识( 如,主语、直接宾语等) 。再根据所得到的句法信息对各实体( 先行语候选) 赋权值( 如在当前句权值赋1 0 0 ,主语再赋8 0 ,直接宾语5 0 ,) ,并计算权值的总和( 突显性) ,最后,利用突显性确定先行语。该算法对第三人称代词消解的准确度( a c c u r a c v ) 为7 5 。1 9 9 8 年m i t k o v 提出了一种“有限知识”的指代消解方法。该方法只需要进行词性标注,再利用一些指示符f 如,有定描述为o ,无定为一l ,是否重复,在同一段内重复多于2 次,则为2 ,一次则为l ,否则为o ) ,计算先行语候选的突显性,再经过性、数的一致性检验后,选取较高值的先行语作为最后的先行语。测试结果表明,成功率为8 9 7 。r e n a t a 通过句法语义知识消解英语的有定描述( t h e + n p ) 。她提出了一系列的启发式知识,在p e n n 树库的基础上进行指代消解。该方法达到了7 2 的召回率和8 2 的正确率。2基于语料库的方法随着语料库语言学的发展,基于语料库的指代消解方法也相继出现。主要有统计方法,统计机器学习方法等。简单的同现方法1 9 9 0 年,d a g a n & i t a i 提出了通过角色同现消解h 代词,用那些同现频率较高的先行语可以作为代词的先行语。使用这种方法消解“i t ,精确度( a c c u r c y ) 达到了8 7 。统计方法上述方法只考虑了代词的文法角色。1 9 9 8 年,n i y u g e ,18山西大学2 0 0 5 届硕士研究生学位论文j o h h a i e e u g e n e c h a r n i a l 【建立的统计模型考虑了更多的因素,如代词与先行语的距离关系,文法角色,性数语义类别( 比如,是否是动物) 以及先行语候选重复的次数等,并提出了如下的概率模型:f ( p ) = a r s :m a x p ( 彳( p ) = a ip ,h ,w ,t ,i ,s d ,m )口其中,( 尸) 表示代词p 所对应的先行语的函数值。( 力为一随机变量,表示为代词p 的参照体,这里,假定a 为其先行语。在条件事件中, 是p 的中心成分,向量w 表示先行语候选集,是假定的先行语短语口的类型( 总表示名词短语n p ) ,是中心成分的类型,s 。是p 所位于句子的句法结构,向量d 表示代词p 与它的各先行语间的距离。向量m 表示各先行语在p 前重复的次数。决策树1 9 9 5 年,美国麻省大学的m c c a r t h v l e h n e r t 运用决策树的方法进行共指消解,通过决策判断先行语候选部分是或不是真正的先行语。她们通过1 2 3 0对例子( 先行语丰旨示语) 作为训练语料,选用了8 个属性,测试的结果,召回率( r e c a l l )达到了8 0 1 ,而正确率( p r e c i s i o n ) 则达到9 24 ( 但从c c a r d i e 等人对该系统的测试报道,召回率和正确率分别为4 4 和5 1 ) 。w e e ms o o n 等采用相同的方法,取l o个特征来建立决策树,测试结果,召回率为5 2 ,正确率为6 8 。聚类1 9 9 9 年,c a r d j e & w a n g a t a 碳出

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论