(模式识别与智能系统专业论文)基于同义词词林的自动文摘系统的研究.pdf_第1页
(模式识别与智能系统专业论文)基于同义词词林的自动文摘系统的研究.pdf_第2页
(模式识别与智能系统专业论文)基于同义词词林的自动文摘系统的研究.pdf_第3页
(模式识别与智能系统专业论文)基于同义词词林的自动文摘系统的研究.pdf_第4页
(模式识别与智能系统专业论文)基于同义词词林的自动文摘系统的研究.pdf_第5页
已阅读5页,还剩47页未读 继续免费阅读

(模式识别与智能系统专业论文)基于同义词词林的自动文摘系统的研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 进入2 0 世纪9 0 年代,随着互联网的迅猛发展,信息的爆炸式增长满足了人 们对信息需求的同时,也使人们快速、准确地找到真正需要的信息变得更加困难。 自动文摘是解决这一问题的一种非常有效的技术,因此目前成为了人们日益关注 的研究热点。 本文首先介绍了自动文摘的发展历史与研究现状,并说明了目前几种主要的 自动文摘系统模型和方法:基于统计的机械文摘、基于理解的文摘、基于篇章结 构的自动文摘以及它们的研究处理过程,对它们的优点和缺点进行了讨论,归纳 出各自的特点。 接着本文对自然语言处理的技术基础进行了阐述。介绍了语料库的发展现 状,并对本文所采用的来自北大计算语言研究所标注的人民日报语料库进行 了说明,在其基础上进行了词典的建立,以及词性转移概率统计;介绍了本文采 用的分词切分方法:正向、逆向以及双向结合得方法;针对出现的交集型切分歧 义,本文采用基于互信息的消歧方法,并通过对语料库中歧义现象的统计建立了 歧义信息统计表,避免了对整个语料库的重复搜索,提高了消歧的效率;词性标 注方面,本文介绍了马尔科夫相关模型,借助其特征转移的性质对己切分完毕的 语句进行标注,取得了很好的效果。 随后,本文利用同义词词林进行了词语概念的提取,构建文本概念的向量空 间,并利用相似度的理论计算出其中的参数值,即段落重要度,从而在此基础上 计算出了句子的重要度,最后利用f is h e r 分类方法对重要度较高的语句进行提 取,从而形成文摘。 本文尝试将句子格作为描述句子的特征,在句法依存的基础上进行格的提 取,提出了粗糙集的决策方案,并进行了探索性工作。 关键词:互信息 消歧 同义词词林向量空间模型粗糙集 a bs t r a c t t h ei n t e r n e td e v e l o p e df a s t e ra n df a s t e ri n19 9 0 s ,t h ee x p l o s i v ei n c r e a s ei n i n f o r m a t i o ns a t i s f i e dp e o p l e sr e q u i r e m e n t s ,h o w e v e r , i t sm o r ed i f f i c u l tf o rp e o p l et o q u i c k l ya n dp r e c i s e l yf m dw h a tt h e yr e a l l yn e e d a u t o m a t i ct e x ts u m m a r i z a t i o n b e c a m eah o tt o p i cw h i c ha t t r a c t sm u c ha t t e n t i o nb e c a u s eo fa l le f f e c t i v es o l u t i o nt o t h ep r o b l e m t h ed i s s e r t a t i o ni n t r o d u c e dt h eh i s t o r i c a ld e v e l o p m e n ta n dr e s e a r c hs t a t u so f a u t o m a t i ct e x ts u m m a r i z a t i o n ,t h e nn a r r a t e dt h em a i nm o d e l sa n dm e t h o d s ,s u c ha s s t a t i s t i c sb a s e d ,m e a n i n gb a s e d ,c o n c e p tb a s e de t c a n dt h ed i s s e r t a t i o nd i s c u s s e d t h e i rm e r i t sa n dd e m e r i t sa n dc o n c l u d e dr e s p e c t i v ec h a r a c t e r i s t i c s t h ed i s s e r t a t i o nn a r r a t e dt h et e c h n o l o g yo ft h en l p ( n a t u r a l l a n g u a g e p r o c e s s i n g ) a n dd e v e l o p m e n ts t a t u so ft h ec o r p u s ,w h a t sm o r e ,r e f e r r e dt h ef a m o u s c o r p u s p e o p l e sd a i l 妒l a b e l e db yt h ei n s t i t u t eo fc o m p u t a t i o n a ll i n g u i s t i c so f p e k i n gu n i v e r s i t y , t h ed i c t i o n a r yw a se s t a b l i s h e da n dt h et r a n s i t i o np r o b a b i l i t yt a b l e o fp o sw a sc o u n t e d i na d d i t i o n ,t h ed i s s e r t a t i o ni n t r o d u c e dt h es e g m e n tm e t h o do f t h ew o r d ,s u c ha sf o r w a r da n db a c k w a r da sw e l la sb i d i r e c t i o n a lm e t h o d ,a tt h es a m e t i m e ,t h em e t h o do fd i s a m b i g u a t i o nb a s e do nm u t u a li n f o r m a t i o nw a sa p p l i e df o rt h e o v e r l a p p i n ga m b i g u i t ys t r i n g ,m e a n w h i l e ,t h ea m b i g u i t yi n f o r m a t i o nt a b l ew a s e s t a b l i s h e di no r d e rt oa v o i ds e a r c h i n gi nt h ew h o l ec o r p u s ,w h i c hc a ni m p r o v e dt h e e f f i c i e n c y ;t h ed i s s e r t a t i o na l s oi n t r o d u c e dt h em a r k o vm o d e l w h i c hw o r k e dw e l lo n t h ep o st a g g i n gw i t ht h eh e l po ft h ec h a r a c t e r i s t i c so fp h a s et r a n s i t i o n t h ed i s s e r t a t i o ne x t r a c t e dt h ec o n c e p t i o n so ft h es e n t e n c e sb a s e do nt h et o n g y i c i c i l i na n dc o n s t r u c t e dv e c t o rs p a c eo ft e x tc o n c e p t i o n ,a n dc a l c u l a t e dt h e p a r a m e t e r , n a m e l yp a s s a g ei m p o r t a n c e ,w i t hs i m i l a r i t yt h e o r y , c o n s e q u e n t l yt h ei m p o r t a n c eo f e a c hs e n t e n c ew a so b t a i n e d f i n a l l y ,也ec l a s s i f i e dm e t h o dw h i c hw a sc a l l e df i s h e r w a su s e dt oe x t r a c t e dt h eh i g h l yi m p o r t a n c ei no r d e rt oc r e a t et h es u m m a r y t h ed i s s e r t a t i o na t t e m p t e dt od e s c r i b et h ec h a r a c t e r i s t i co ft h es e n t e n c ew i t ht h e s e n t e n c ea g e n tw h ow a se x t r a c t e db a s e do nt h es y n t a c t i cd e p e n d e n c y , a n de x p l o r e st h e m e t h o db a s e do nr o u g hs e t k e yw o r d s :m u t u a l i n f o r m a t i o n ,d i s a m b i g u a t i o n ,t o n g y i c ic i l i n ,v e c t o r s p a c em o d e l ,r o u g hs e t 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的 研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表 或撰写过的研究成果,也不包含为获得鑫盗盘鲎或其他教育机构的学位或证 书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 学位论文作者签名:柚氛 签字同期: 细7 年弓月同 学位论文版权使用授权书 本学位论文作者完全了解盘盗盘堂有关保留、使用学位论文的规定。 特授权墨鲞盘堂可以将学位论文的全部或部分内容编入有关数据库进行检 索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校 向国家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:硒苏 签字同期:珈印年;月彳门 导师签名:争怎,乌已 签字f | 期:跏7 年;月i j l 第一章引言 第一章引言 二十一世纪正处在信息爆炸的时代,人们在享受多样信息所带来的各种便 利的同时,人们越来越迫切地希望能够对信息进行标引、提炼与浓缩,以较少的 文字表达主要内容和中心意思,从而减少信息获取的时间【1 1 。因此,人们把注意 力转向了文摘,文摘所具备的简洁性、准确性和清晰性正好满足了人们的这一要 求。 自动文摘是自然语言处理的一个重要分支,在信息检索领域中有着重要的 用途。自动文摘的目标为:从信息源中提取内容,采用压缩的形式和与用户( 或 应用) 需求相关的方式,将最重要的内容呈现给用户【2 j 。 文摘( a b s t r a c t ) 是准确地反映某一文献中心内容的简洁连贯的自然语言段 落。自动文摘( a u t o m a t i c a b s t r a c t i n g ) 是利用计算机自动编写文摘的应用技术。 自动文摘是计算语言学和情报科学共同关注的课题,计算机文摘系统被认 为是信息资源处理的有效手段之一,它为人们快速浏览信息确定自己的兴趣点提 供了强有力的帮助。因此设计精确有效的自动文摘系统已经成为当前的研究热点 之一,它己经渗透到计算机应用的各个方面,各种通用型自动文摘系统和有关各 领域的专业型自动文摘系统逐渐发展起来,并显示出强大的生命力。 1 1 国内外研究状况 1 1 1 基于统计的机械式方法口1 基于统计的自动文摘将文本视为句子的线性序列,将句子视为词的线性序 列。它通常需要对词的权值进行计算,在此基础上,可以进一步计算句子的重要 度;对原文中的所有句子按重要度高低降序排列,重要度最高的句子被确定为文 摘句:最后将所有文摘句按照它们在原文中的出现顺序输出。 在基于统计的自动文摘中,计算词权、句子重要度、选择文摘句的依据是文 本的词频、段落、位置等形式特征。 高频词能够有效地指示文章主题,这些词叫做有效词( s i g n i f i c a n tw o r d s ) 。根 据句子中有效词的个数可以计算句子的重要度,这是l u h n 首先提出的自动摘录 的基本依据。v a o s w a l d 主张句子的重要度应按其所含代表性“词串”的数量 来计算,而d o y l e 则重视共现频度最高的“词对”。美国i b m 公司在1 9 6 0 年前 第一章引言 后研制了一套文摘自动生产程序a c s l 2 m a t i c ,该程序在重要度的计算方面对 l u h n 的方法【4 j 进行了改进。1 9 9 5 年美国g e 研究与开发中心的l i s a e r a u 等人 完成了a n e s ( a u t o m a t i en e w se x t r a c t i o ns y s t e m ) 系统,该系统采用相对词频作为 词的重要度【引。 文章的段落位置信息是文摘句的一个重要特征。美国的e e b a x e n d a l e 的调 查结果显示:段落的论题是段落首句的概率为8 5 ,是段落末句的概率为7 t 6 1 。 因此,有必要提高处于特殊位置的句子的重要度。 句式与句子的重要性之间存在着某种联系,比如文摘中的句子大多是陈述 旬,而疑问句、感叹旬等则不宜进入文摘。 e d m u n d s o n 的文摘系统中有一个预先编制的线索词词典,词典中的线索词分 为3 种:取正值的褒义词( b o n u sw o r d s ) ,取负值的贬义词( s t i g m aw o r d s ) 和取零 值的无效词m u l lw o r d s ) 。句子的重要度就等于旬中每个线索词的权值之和。7 0 年代初,俄亥俄州立大学的j a m e sa r u s h 教授和他的学生开发了 a d a m ( a u t o m a t i cd o c u m e n ta b s t r a c t i n gm e t h o d ) 系统。a d a m 强调的是排斥句子 的标准而不是选择句子的标准,词控表( w c l ) 中大多数词是否定性的。r u s h 重 视文摘的连贯性标准,在a d a m 系统中,如果某个候选句需要有一个先行词, 那么位于该句子前面的那一句也要选入文摘。a d a m 是第一个真正意义上的文 摘系统,在它之前的系统只能成为摘录系统。 1 9 7 7 年,英国l a n c a s t e r 大学的p a i c e 提出根据各种“指示性短语来选择文 摘句的方法。和线索词相比,指示性短语的可靠性要强得多。 以上所述的文本特征作为自动摘录的依据,从不同角度指示了文章的主题, 但都不够准确,不够全面。如果能够将上述各种特征“有机”地结合起来,以综 合的方式来计算句子重要度,那么摘录的质量可望进一步提高。 在国内,基于统计的自动文摘系统包括复旦大学吴立德教授等人研制的中文 文本摘要系统f d a s c t ,北京邮电大学研制的非受限领域复合式自动摘要系统, 其中f d a s c t 采用最大似然估计法对每个句子内各个词进行了词性标引,对标 引语料库进行了研究。北京邮电大学研究的系统根据词频统计、自由词标引的结 果计算句子的重要性,然后运用依存关系树和语义框架法进行文摘候选句子的加 工。 1 1 2 基于自然语言理解的方法 基于统计的机械式自动文摘通常能够抓住文献的关键所在,并用作者的原句 加以概括,有的系统已获得了实际应用。然而它的缺点也是明显的,其中最为突 出的是:摘要的质量不稳定,缺乏旬间的连贯性及摘要内容的冗余。为此从7 0 年 第一章引言 代中期至8 0 年代末人们探索了利用自然语言理解技术进行自动文摘的方法。由 于受到知识不足的限制,基于理解的文摘技术只能适用于某一些狭窄的领域,例 如用于处理有关地震情况的新闻等,但摘要的质量【7 】明显优于传统的统计文摘。 基于理解的文摘技术的基本原理是:在某一特定领域的文章中,必然存在着特 定的信息焦点,即读者感兴趣的内容。1 9 7 8 年,原捷克斯洛伐克j i r ij a n o s 提出 了依据句子语用功能理论进行文本压缩的方法。通过对句子语用功能的分类将文 本的主干和枝叶区别开来,以不同的主题推进方式相互衔接,是需要重点分析和 摘录的内容,而枝叶则可以排除在文摘之外。根据语用功能提炼出来的文摘更符 合科技文献编写的标准。由于科技文献存有各种类型,如理论文章、试验文章和 综述文章,它们的结构有很大区别【8 】,因此如果想把这种方法推广到科技文献的 文本中去,则需要对各类文摘的结构进行深入研究。 y a l e 大学的d e j o n g 于1 9 7 9 年研制了f r u m p 系统,该系统用于快速阅览英 文新闻资料。f r u m p 由预言器和验证器两部分组成,预言器利用梗概剧本预测 当前情形下可能出现的一个或一组事件,验证器的任务是去证实这些被预测的事 件,并给出实际信息。该系统是典型的有目的的文摘系统,如果文章中没有该系 统所期望的内容,则无法生成任何摘要。 j 1 t a i t 的s r a b b l e 系统对f r u m p 系统进行了改进,但它要求输入资料在处 理前要先转换成c d 结构,这使得该系统很难实用。意大利的d a n i lo f u m 等人 在8 0 年代初研制了s u s y 缩写系统,采用一阶谓词作为文本的机内表示形式。 香港城市理工大学采用脚本知识表示,通过与用户交互获取文摘。 8 0 年代末,美国g e 研究与开发中心的l i s a f r a u 等研制了s c i s o r 概念信 息缩写、组织和检索系统。 哈尔滨工业大学的王开铸教授等人于1 9 9 2 年研制了基于理解的自动文摘实 验系统m a t a s ,9 4 年研制出自动摘录性的非受限领域的自动文摘系统h i t - 8 6 3 , 9 7 年提出了基于信息抽取和文本生成的自动文摘系统。 1 1 3 基于篇章结构的方法 篇章是一个有机的结构体,篇章中的不同部分承担着不同的功能,各部分之 间存在着错综复杂的关系。篇章结构分析清楚了,文章的核心部分自然能够找到。 但是语言学对于篇章结构的研究还很不够,可用的形式规则就更少了,这使得基 于结构的自动文摘到目前为止还没有套成熟的方法,不同学者用来识别篇章结 构的手段也有很大差别。 1 9 9 3 年p a i c e 正式提出称为“选择与生成”的文摘方法。该方法先从原文中 提取有关内客填入摘要框架,再利用已有的带有空槽的摘要摸板将摘要框架中的 第一章引言 短语和句子组织起来生成一篇连贯的摘要。 前苏联的e f s k o r o x o d k o 将文章视为句子的关联网络,旬间的关系建立在词 间的同义关系基础之上,和很多句子都有联系的中心句被确认为文摘句【9 1 。而美 国c o m e l l 大学的s a l t o n 等人则将文章视为段落的关联网络【1 0 】。 对于篇幅较长的文章,句子之间的关联网络将十分庞大,其时空开销都将是 难以承受的。相比之下,段落之间的关联网络要小得多。另外,和由句子组装起 来的文摘相比,由段落拼接起来的文摘连贯性显著提高。不过,由于最重要的段 落中也可能包含一些无关紧要的句子,所以基于段落抽取的文摘显得不够精练。 日本t o s h i b a 公司的k e n j io n o 等研究了基于修辞结构自动文摘系统。他们将 修辞关系归纳为举例( e g ) 、原因( r s ) 、总结( s m ) 等3 4 种,首先依据连接 词等推导出一种类似于句法树的修辞结构树,然后对修辞结构树进行修剪,将保 留下来的内容根据它们之间的修辞关系组织成一篇连贯的文摘。这种方法的不足 在于:修辞关系的识别依赖于连接词,如果文章中连接词的数量很少,那么数修 辞关系就无法识别了。 和用其它方法生成的文摘相比,根据语用功能提炼出来的文摘更符合科技文 献文摘编写的标准。如果想把这种方法推广到科技文献以外的文本中去,则需要 对各类文章的结构深入研究。其实即使是科技文献也有各种类型,理论文章、实 验文章和综述文章的结构区别也很大。 1 2 本课题的研究内容及主体框架 1 2 1 研究的主要内容 关于自动文摘系统的研究,主要有基于意义的理解文摘和基于统计的机械文 摘两种主要的研究方法。关于它们的理论的研究远远滞后于信息社会中信息处理 的发展要求。产生这种现象的主要原因是由于这两种方法都存在着一些弊端,如: 基于意义的理解文摘,由于知识库建立的困难性,知识表示的复杂性,使得 它只能面向某一应用领域,并且文摘质量并不十分令人满意; 基于统计的机械文摘,大多采用的是基于词形统计的向量空间模型法。这种 方法以词形作基础,认为词形是文章的最小意义单元。但是向量空间模型最基本 的假设是向量各义项之间要正交,也就是意义不相关,而在真实文本中,存在着 相当多的一词多义与一义多词现象,使作为义项的词语之间往往有很大的相关 性。从而导致文摘的质量不高。 为此,我们提出基于同义词词林得到文本的主题语义概念,建立概念向量空 第一章引言 间模型,并引入句子格的概念来表示句子特征,设想以粗糙集为基础建立决策分 类器,并作了探索性研究。本课题研究的主要内容包括: 1 语料库处理,词典、词性转移词典的获得。 2 分词及消歧方法研究。 3 马尔科夫及隐形马尔科夫词性标注 4 基于同义词词林的概念获取,以及句子相似度、重要度的计算分析; 3 文本句子格的提取研究。 4 粗糙集分类器在文摘句提取上的研究。 1 2 2 主体框架 本系统主要分为两大框架,分词模块与文摘提取模块如图1 - 1 。 图卜1 系统模块图 1 分词阶段首先对语料库进行了先期处理,然后对语句进行了分词、歧 义消除、词性标注。 2 文摘提取阶段在采用句子向量的方法计算出重要度进而提取出一定质 量文摘句之后,尝试引入了粗糙集分类的方法,并采用了哈工大依存句法分析的 方法对其进行了句子格的提取,在文摘句提取方法上做了开拓性工作。 语料库采用的北大语言实验室制作的标注熟语料库,并在它的基础上还原了 生语料库,进而得到了标注词典,歧义统计库,以及用于马尔克夫词性标注参数 的概率转移表。 第一章引言 1 3 本文结构 本文各章安排如下: 第一章绪论,概述了文本自动文摘的意义和应用背景,介绍了文本自动文 摘的国内外研究现状。 第二章是文本自然语言处理技术基础的介绍,综述了汉语词语切分的几种重 要的方法,并介绍了马尔科夫与隐性马尔科夫词性标注方法。 第三章是基于概念向量空间模型的中文自动文摘研究。介绍了词语概念获取 的主要词典同义词词林,以及在概念获取的基础上对文章的重要度等参数计算的 关键技术实现。 第四章是提出了基于粗糙集的文摘提取的设想,在句子格提取的基础上进行 决策表的建立,然后利用粗糙集的分类算法进行规则提取,通过规则匹配进行文 摘提取。本文在该处进行了探索性研究。 第五章对系统的框架及界面进行了介绍。 第六章对全文进行总结并展望了未来的工作。 第二章自然语言处理基础 第二章自然语言处理基础 自然语言处理是计算机科学领域与人工智能领域中的一个重要研究方向。它 研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语 言处理是一门融语言学、计算机科学、数学于一体的科学,因此,这一领域的研 究将涉及自然语言,即人们日常使用的语言,包括中文、英文、俄文、日文、德 文、法文等等,所以它与语言学的研究有着密切的联系,但又有重要的区别。自 然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信 的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。 用自然语言与计算机进行通信,这是人们长期以来所追求的。因为它既有明 显的实际意义,同时也有重要的理论意义:人们可以用自己最习惯的语言来使用 计算机,也可通过它进一步了解人类的语言能力和智能的机制。 无论是自然语言理解的实现,还是自然语言生成的实现,都远不如人们原来 想象的那么简单,而是十分困难的。从目前的理论和技术现状看,通用的、高质 量的自然语言处理系统,仍然是较长期的努力目标,但是针对一定应用,具有相 当自然语言处理能力的实用系统已经出现,有些已商品化,甚至开始产业化。典 型的例子有:各种数据库和专家系统的自然语言接口、各种机器翻译系统、全文 信息检索系统、自动文摘系统等。 下面本文将介绍语言研究的处理依据语料库。 2 1 语料库 语料库顾名思义就是放语言材料的仓库。现在人们谈起语料库,不言而喻是 指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本,。 如标注过的电子报刊,电子书籍等。 现在世界上已经有了不少规模较大的语料库,有些是国家级的,有些由大学 和词典出版商联合建设。另外,由于个人微机的迅猛发展和存贮数据的硬盘造价 持续下降,研究者个人也开始建立适合于自己研究的小型语料库。 第二章自然语言处理基础 2 1 1 语料库的历史与现状 语料库语言学n 1 1 2 1 ( 英文c o r p u sl i n g u i s t i c s ) 这个术语有两层主要含义。 一是利用语料库对语言的某个方面进行研究,即“语料库语言学”不是一个新学 科的名称,而仅仅反映了一个新的研究手段。二是依据语料库所反映出来的语言 事实对现行语言学理论进行批判,提出新的观点或理论。 语料库和语料库语言学在当今语言研究由高度抽象转向语言的实际使用这 个过渡中起着十分重要的作用:一是提供真实语料;二是提供统计数据;三是验 证现行的理论;四是构建新的理论。这些可以说是语料库和语料库语言学的实用 价值。提供真实语料可以说是词典编纂的生命线。现在流行的英语词典几乎全部 是基于大规模语料库编纂而成的。 在2 0 世纪7 0 年代,美国制作了著名的b r o w nc o r p u s n 3 3 。当时语料库的规模 大约在百万词左右n 副,语料的种类也仅限于文本。进入8 0 年代后,英国制作了 标注语料库l o bc o r p u s ,同时还制作了语音语料库b i r m i n g h a mc o r p u s 。9 0 年 代之前的语料基本上英语的。9 0 年代以后,英语以外的语料也出现了,比如日 本的e d r 语料,n h k 的新闻稿语料,日本经济新闻1 0 年语料,以及人民日报5 0 年语料。随着我国经济的发展,科研经费的增加,汉语语料库的建设得到了开展。 在语料库语言学的研究上,以及语料库的实际运用上,我国已经进入世界前沿的 行列。富士通和北京大学共同制作的半年人民日报( 约1 ,3 0 0 万汉字) 标注语料 库是迄今为止世界上规模最大的之一。 语料库大体上有以下几个种类:文本语音、口语书面语、单语种多语种 ( 多语种的又分对译的与可比较的) 、带标注不带标注。已有的标注有:词性标 记,短语标记,格关系,依存关系,语法树,语义。 汉语标注语料制作的必要性: 汉语书面语文本和其它语言相比,有以下特点:1 基本上都是汉字,词与 词之间没有间隔。2 词没有形态变化。英语和日语的动词、形容词都有词尾变 化。这些词尾变化为词性标注提供了较多的信息。3 汉语的词条在使用时,又 表现出多功能性。 由于汉语有这些特点,人工编写适用于大规模文本的词语切分规则和词性标 注规则几乎是不可能的,这一定程度上制约了汉语自然语言处理技术的发展和应 用,所以为了满足汉语词语切分和词性标注软件精度的要求,必须制作汉语标注 语料。 制作大规模汉语标注语料库的目的之一是从中抽取词的频度信息和细粒度 的语法规则,把这些基于大规模语料统计的知识放入词语切分和词性标注系统 第二章自然语言处理基础 中,制作高精度的汉语处理软件。由于富士通已有适用于日语的软件,其算法是 独立于具体的语言的,通过同汉语知识的结合,探讨制作多语种词切分系统的可 能性。 2 1 2 语料库的使用 本文采用的人民日报标注语料库是由北京大学计算语言学研究所和日本 富士通公司合作,从1 9 9 9 年开始,到2 0 0 2 年完成,原始语料取自1 9 9 8 年全年 的人民日报,共约2 7 0 0 万字( 到2 0 0 3 年又扩充到3 5 0 0 万字) ,是我国第一个 大型的现代汉语标注语料库。利用这个语料库加工可以完成词语切分和词性标 注,专有名词( 人名、地名、团体机构名称等) 标注、语素子类标注、动词和形 容词的特殊用法标注以及短语型标注。下面是对1 9 9 8 年1 月1 日人民日报 第5 版第1 篇文章的第1 1 段内容进行语料标注的示例。 我国的国有企业改革见成效。位于河南的中国一拖集团有限责任公司面向市 场,积极调整产品结构,加快技术改造和新产品研制步伐。图为东方红牌履带拖 拉机生产线。( 赵鹏摄) 标注后的形式是: 1 9 9 8 0 1 0 1 0 5 0 0 1 0 11 m 我国n 的u 国有v n 企业n 改革v 见v 成效n 。 w 位于v 河南n s 的u 【中国n s 一拖j 集团n 有限a 责任n 公司n n t 面向 v 市场n ,w 积极f a d 调整v 产品,n 结构n ,w 加快v 技术n 改造、,n 和 c 新a 产品n 研制 r i l 步伐n 。w 图n 为v 东方红牌n z 履带n 拖拉机n 生 产线n 。w ( w 赵缸鹏甜摄g ) w 在每一个切分出来的词和标点符号后面,是该词语的标记。譬如词性标记( n , v ,a ,u ,m ,w 等) ,专有名词标记( n r ,n s ,n z 等) ,词性子类标记( v g 等) , 动词和形容词特殊用法标记( v n ,a d ) 。所有的标记都是以北京大学的现代汉 语语法信息词典为基础,在现代汉语语料库加工规范指导下完成标注的。 利用人民日报标注语料库【15 1 ,人们可以从各个角度考察和分析语言事实, 统计各种语言单位出现的频率。 本文中所设计的系统集成了语料库处理的多种技术操作,其界面图如图2 1 。 经过处理标注语料库得到了分词标注词典如表2 1 所示,词性标注集如表2 - 2 所 示,词性转移统计如表2 3 ,互信息歧义统计表如表2 - 4 ,其中,互信息歧义统 计表可在切分歧义分析过程中不断更新。 第二章自然语言处理基础 表2 1 分词标注词典 词组词性词频词组词性词频词组词性词频 鞍山 n s7 内河 n 2嫩黄色nl 鞍山市璐4内华达州n s2 嫩江 n s4 氨化池 nl 内话 j l 嫩叶 n3 标志牌n7内江n s1 嫩竹 n1 标志物 n1 内疚 a2 能 n g 6 标志性n 6 内科n5能v 1 4 3 6 标致 al 内科瓦西尔 n r1 能标 n fl 标致n z1内控v n2能筹n r2 泥泞 a1 年底 t4 6 鸟 n1 9 泥泞 n4 年度n7 7鸟岛n s l 泥沙 n2 年发电量 n1 鸟儿 n8 泥石n 1 年饭 n 1 5鸟害n 1 泥石流n3 年份 n1 2 鸟类 n1 0 表2 2 词件标滓集 标注字符频度标注字符频度标注字符频度 a g 3 2 1n z 3 7 0 1 d 4 7 8 1 1 b g 8o7 0e2 7 d g 1 3 5 p 3 9 9 2 5f1 7 2 0 1 m g 7 q 2 4 2 4 4h4 7 n g 4 5 6 2r3 2 3 2 7l5 0 3 3 r g l os3 8 3 6 j 1 0 3 2 3 t g 4 9 6t2 0 6 8 0k9 2 8 v g 1 7 4 9 u 7 4 8 2 9l6 0 1 5 y g l v 1 8 4 7 6 5m6 0 8 5 4 a3 4 4 7 3 v d5 2 8n2 3 6 8 1 3 a d5 9 3 3v n4 2 7 3 4n al a n2 8 3 7v v n1n r3 5 2 6 7 b8 7 1 5w1 7 3 0 4 8n s2 7 8 9 0 c2 5 4 8 0y】8 8 9n t3 5 7 3 n x4 5 9 1 0 第二章自然语言处理基础 表2 3 词性转移统计 词性词性 词性词性词性 统计统计统计统计统计 转移符转移符 转移符转移符转移符 a g _ b g l v gv 2 1 2av d3a nv 2 5 7bs1 9 a g _ n g 1 7 v gv n 2 0av n2 2 6 7a nv n2 1 8bt6 a v g 8 v g _ w 5 1 3aw6 4 8 6a nw1 3 7 3bu8 1 8 a g _ a 1 2 v g _ _ y 4 a - y 3 5 9 a n _ y 7bv1 2 3 a gb 1 v gz 3a z3 6a nz2bv n 8 0 6 a g _ e 9 y gw 1 a d _ t g 1 b _ a g l bw5 8 8 a g _ d 1 0 a _ a g 7 a d _ v g 2 3 b _ n g 2 0 b _ y 5 a g _ f 3 a d g 2a da7 6 也y g 3 bz 3 表2 - 4 百信息歧义统计 词条词频词条词频 印机 3 国1 7 9 0 0 机场8 9 厶 8 5 1 2石 印 1 4 1 0 歪 2 4 5 2 印有1 2场4 0 0 0 英国 2 8 1 笑容 1 0 国队8 9银行7 2 5 英8 7 0引资1 5 - i 9 4 阱库撩作- 搴田俺砖镥咻之髓做好备份一 。 统计生语料库 l 生成词典、词性、转移嘏辜文件l 互信息2 宇统计 2 字频统计表 i j _ _ _ - _ _ - _ _ _ _ _ _ _ _ _ _ - _ - - _ - _ _ _ _ _ _ _ _ - - - - _ _ _ _ - _ _ j 厂厂 相邻两字互信息计篁l 一广一厂一 相郐3 宇t 一测试计篁l 厂厂广一r 一 相邻4 字t 一铡试差计茸! 图2 1 语料库操作界面 第二章自然语言处理基础 2 2 词语切分与消歧 汉语分词一直是中文信息处理的一个最基础又最重要的问题。所谓分词就是 把一个句子按照词的含义进行切分。值得注意的是,汉语与英文不同,构成汉语 语句的最小单位不是词,而是字。另外,中文文本在书面表达或者在计算机内部 表示时,字与字之间、词与词之间并没有明显的切分标志。因而,中文信息处理 的诸多重要领域( 如篇章理解、机器翻译、文本检索等) 都需要以分词处理为基 础,因此汉语分词技术已经成为中文信息处理技术中最为基础的课题。 一般来讲,在汉语文档分词过程中,首先根据标点符号及其段落结束符将文 本切分成若干小段,然后对于每一小段采用某种算法进行切分,最后再将各小段 的分词结果组合起来,就可得到该文档的具体切分结果。 现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分 词方法和基于统计的分词方法。 对于基于字符串匹配的分词方法,也叫机械分词方法【16 】,它是按照一定的策 略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配。按照扫描方 向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹 配的情况,可以分为最大( 最长) 匹配和最小( 最短) 匹配:可以将上述各种方 法相互组合,例如,将正向最大匹配方法和逆向最大匹配方法结合起来构成双向 匹配法。 对于基于理解的分词方法,它是通过计算机模拟人对句子的理解,达到识别 词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和 语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、 总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和 语义信息来对分词歧义进行判断,这样也是在模拟人对句子的理解过程。这种分 词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难 以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统 还处在试验阶段。 对于基于统计的分词方法,从形式上看,词是稳定的字的组合,因此在上 下文中,相邻字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻 共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个 字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合 关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一 个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又日q 做无词典分词法或统计取词方法。但这种方法有定的局限性,会经常抽出些 第二章自然语言处理基础 共现频度高、但并不是词的常用字组( 例如:“这”、“之一”、“有的”、“我的”、 “许多的”等) ,影响了对常用词的识别精度,时空开销大。 实际应用的统计分词系统都要使用一部基本的分词词典( 常用词词典) 进行 串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起 来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下 文识别生词、自动消除歧义的优点。 有了成熟的分词算法,是否就能容易的解决中文分词的问题呢? 事实远非如 此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词 过程中,仍存在歧义识别、新词登陆等难题一直没有完全突破。 本节采用了正向与逆向结合的机械分词方法,其具体内容将在下文中阐述。 在歧义识别问题上,本文分析了切分歧义的原因与分类,并着重介绍了基于互信 息的分词歧义识别法。 2 2 1 正向最大匹配一嗍法( t h em a x i m u mm a t o h i n gm e t h o d ) 在机械分词方法中,对于待切分的一段文字符,首先以该段的语句首字作为 起点开始搜索,直到找到以该字为起点,在字串中长度最大的词,并以此为标志 切出第一个词,并将剩余字符串作为另一待切分文本进行同样处理。 正向最大匹配算法的具体过程是:设d 为词典,m a x 表示d 中的最大词长, s t r 为待切分的字符串。m m 法是每次从s t r 中取长度为m a x 的子串与d 中的词 进行匹配。若成功,则该子串为词,指针后移m a x 个汉字后继续匹配,否则子 串从右边逐次减少一字进行匹配。设m _ 蟠r 5 ,s t r = - 今天天气真好”,首先从s 仃 左边取出长度为5 的子串w = ”今天天气真”,然后查词典进行匹配,查找失败, 去掉w 最右边的一个字,得到w - 今天天气”,再查词典,如此反复,直至将“今 天”作为一词切分出来。接下来对剩余字符串“天气真好”做同样处理,最后得 到的切分结果是:“今天天气真好”。具体实现代码如下: v o i dc w d i c :d e p a r t w o r d ( c h a r 水t e x t ) i f ( n m a x ) 最大匹配字串个数,本文m a x 为1 5 个汉字,i p 3 0 字节。 l e n = m a x ; i n t i - 0 ; f o r ( i = 0 ;i 时, 吸引z 同时w 吸引 ,产生竞争,若,y 0 y

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论