




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于句法分析的中文事件抽取方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
上海大学硕上学位论文 摘要 在目前信息爆炸的时代,迫切需要一些更加自动化、智能化的工具帮助人们 在海量文本数据中迅速找到真正需要的信息。信息抽取技术应运而生,成为自然 语言处理研究领域的重要方面。 事件抽取是信息抽取中的一个重要的研究方向。事件抽取能从非结构化文本 中抽取出事件信息并以结构化的形式呈现出来,是信息抽取研究中最具挑战性的 任务之一。目前,国内外对该问题已经进行了一些研究或探讨,还没有一种成熟 的事件抽取技术在实际中广泛应用。 本文以微观粒度的事件作为研究对象,描述了一种对中文文本的基于句法分 析的事件信息抽取方法。主要的研究内容及创新点如下: ( 1 ) 根据汉语句法的特点,提出了一种新的基于句法分析的事件抽取方法 及相关的一系列算法,首先对文本信息进行词法分析和句法分析得到句法分析 树,然后根据归纳的规则对句法分析树进行处理,从中自动地抽取事件的元素信 息,摆脱了对大量事件模板的依赖,在保证较高的抽取准确率的同时,又增强了 通用性。 ( 2 ) 在进行句法分析时,针对句法分析器对长句处理效率低下甚至无法进 行处理的问题,提出了拆分句子的算法,即当长句子的字数超过设置的阈值时, 以句子中最接近中点的标点符号为标识将长句一分为二,分别进行事件抽取,大 大提高了对长句的事件抽取效率。 ( 3 ) 对于句子中存在隐含主体的情况,根据句法分析树的结构特点提出了 隐含主体抽取算法,采用向上回溯的方法查找与事件最相关的名词作为事件的主 体,并对常见的两种情况分别讨论处理,以保证事件信息的完整性,提高了事件 抽取的准确性。 ( 4 ) 采用中科院的i c t c l a s 分词工具和s t a n f o r dp a r s e r 句法分析器,根据 提出的中文事件抽取方法及相关算法,设计实现了原型系统,可以对批量文本自 动进行事件抽取,达到了较高的效率和准确性,验证了该事件抽取方法的可行性。 另外,为了实验方便有效地进行,我们对分词工具做了添加新词到字典库和 批量文件分词等改进;在实验数据的统计阶段,由于从每个语句抽取的事件信息 上海大学硕士学位论文 都需要人工判断以进行统计,我们做了一个小工具以减少统计出错的几率和提高 工作效率。 实验结果表明了本文提出的方法是切实可行的,对于中文事件的抽取达到了 较高的准确率和召回率,且该方法不需依赖于大量的模板,具有更高的通用性。 关键词:事件抽取、中文信息处理、事件元素识别、信息抽取、句法分析 i i 上海大学硕士学位论文 a b s t r a c t i nt h ea g eo fi n f o r r n a t i o n i a le x p l o s i o n ,s o m em o r ea u t o m a t e da n di n t e l l i g e n tt o o l s a r eu r g e n t l yn e e d e dt oh e l pp e o p l eq u i c k l yf i n dt h et r u l yn e c e s s a r yi n f o r m a t i o nf r o m m a s s i v et e x td a t a i n f o r m a t i o ne x t r a c t i o nt e c h n o l o g ye m e r g e st ob ea ni m p o r t a n t a s p e c ti nt h ef i e l do fn a t u r a ll a n g u a g ep r o c e s s i n gr e s e a r c h e v e n te x t r a c t i o ni sa ni m p o r t a n tr e s e a r c ha r e ao fi n f o r m a t i o ne x t r a c t i o n e v e n t e x t r a c t i o n ,b ye x t r a c t i n ge v e n ti n f o r m a t i o nf r o mt h eu n s t r u c t u r e dt e x ta n dp r e s e n t i n g i n f o r m a t i o na ss t r u c t u r e df o r m ,i so n eo ft h em o s tc h a l l e n g i n gt a s k si nt h ef i e l do f i n f o r m a t i o ne x t r a c t i o nr e s e a r c h a tp r e s e n t ,t h o u g hp r o g r e s s e se x i s ti nt h es t u d yo f e v e n te x t r a c t i o n ,t h e r ei ss t i l ln o tam a t u r ee v e n te x t r a c t i o nt e c h n o l o g yw i d e l yu s e di n p r a c t i c e i nt h ed i s s e r t a t i o n ,m i c r o g r a n u l a re v e n t sa r ec h o s e na sr e s e a r c ho b i e c t ,a n da c h i n e s ee v e n te x t r a c t i o nm e t h o di sd e s c r i b e d ,w h i c hi sb a s e do ns y n t a c t i cp a r s i n g t h er e s e a r c hc o n t e n t sa n di n n o v a t i o np o i n t sm a i n l yi n c l u d et h ef o l l o w i n g : ( 1 ) a c c o r d i n gt ot h ec h a r a c t e r i s t i c so fc h i n e s eg r a m m a r , an e we v e n te x t r a c t i o n m e t h o di sp r o p o s e da n das e r i e so fr e l e v a n ta l g o r i t h m si sg i v e n ,w h i c ha r eb a s e do n s y n t a c t i cp a r s i n g f i r s to fa 1 1 1 e x i c a la n a l y s i sa n ds y n t a c t i cp a r s i n ga r em a d eo nt e x t s t og e tt h e i rs y n t a c t i cp a r s i n gt r e e s ,a n dt h e nt h e s es y n t a c t i cp a r s i n gt r e e sa r ep r o c e s s e d t oa u t o e x t r a c te v e n te l e m e n ti n f o r m a t i o ni na c c o r d a n c ew i t hs u m m a r i z e dr e g u l a r s t l l i sm e t h o dg e to u to ft h ed e p e n d e n c eo nal a r g en u m b e ro ft e m p l a t e s t h e r e f o r ei t c a ne n s u r eh i g h e rp r e c i s i o na tt h es a m et i m ei n c r e a s em e t h o d su n i v e r s a l i t y ( 2 ) i no r d e rt os o l v et h es y n t a c t i cp a r s e r sl o we m c i e n c ya n de v e nc r a s hp r o b l e m f o rl o n gs e n t e n c ep r o c e s s i n g ,as e n t e n c es p l i t t i n ga l g o r i t h mi sg i v e n t h a ti s ,w h e na l o n gs e n t e n c e sl e n g t he x c e e d st h r e s h o l d t a k ei t sc e n t r a lp u n c t u a t i o na sad i v i s i o n m a r k ,t h e nt h i ss e n t e n c ew i l lb ec u ti n t ot w op a r t st om a k ee v e n te x t r a c t i o ns e p a r a t e l y t h er e s u l t ss h o wt h a tt h ea l g o r i t h mc a ng r e a t l yi m p r o v et h ee v e n te x t r a c t i o n s e f f i c i e n c yf o rl o n gs e n t e n c e s ( 3 ) i nc a s et h a tt h e r ei si m p l i e ds u b j e c ti ns e n t e n c e s ,a na l g o r i t h mn a m e de v e n t i n f o r m a t i o ne x t r a c t i o nf o ri m p l i e ds u b j e c ti sg i v e n ,a c c o r d i n gt ot h et r e es t r u c t u r e c h a r a c t e r i s t i c so ft h es y n t a c t i cp a r s i n gt r e e s t h cn o u nt h a tr e l a t e st oe v e n tm o s t l yi s s e a r c h e df o ra se v e n ts u b j e c tb yu s i n gab a c ku pm e t h o d t w od i f f e r e n tc o m m o nc a s e s a r ed i s c u s s e da n dd e a l tw i t h t h u st h i sm e t h o dn o to n l ye n s u r e st h ee v e n t i n f o r m a t i o n sc o m p l e t e n e s s b u ta l s oi m p r o v e st h ee v e n te x t r a c t i o n sp r e c i s i o n ( 4 ) a c c o r d i n gt ot h ea b o v ec h i n e s ee v e n te x t r a c t i o nm e t h o da n dr e l a t e d a l g o r i t h m s ,b yu s i n gi c t c l a ss e g m e n t a t i o nt o o l sa n ds t a n f o r dp a r s e rap r o t o t y p e s y s t e mi sr e a l i z e d ,w h i c hc a na u t o m a t i c a l l ym a k ee v e n te x t r a c t i o nf o rb a t c ho ft e x t s a n da c h i e v e h i g h e re f f i c i e n c ya n dp r e c i s i o n t h ep r o t o t y p es y s t e mw e l lv e r i f yt h e f e a s i b i l i t yo ft h i se v e n te x t r a c t i o nm e t h o d i na d d i t i o n ,i no r d e rt om a k et h ee x p e r i m e n tp r o c e s sm o r ec o n v e n i e n ta n d e f f e c t i v e ,s o m eo p t i m i z a t i o n sf o rs e g m e n t a t i o nt o o l sa r ef i n i s h e d ,s u c ha sa d d i n gn e w w o r d st ot h ed i c t i o n a r yd a t a b a s e , s e g m e n t i n gw o r d sf o rb a t c hf i l e s ;d u r i n gt h e i e x p e r i m e n td a t as t a t i s t i c s ,a st h e e v e n ti n f o r n l a t i o ne x t r a c t e df r o me a c hs e n t e n c en e e d t ob em a n u a l l yd e t e r m i n e df o rs t a t i s t i c s ,as m a l lt o o li sd e v e l o p e df o rr e d u c i n ge r r o r p r o b a b i l i t ya n di m p r o v i n gw o r ke f f i c i e n c y t h ee x p e r i m e n tr e s u l t sp r o v et h a tt h em e t h o dp r o p o s e di nt h i sp a p e r i sp r a c t i c a b l e a n da c h i e v e sh i g h e rp r e c i s i o nf o rc h i n e s ee v e n te x t r a c t i o n m o r e o v e r , t h i sm e t h o d d o e s n ,tr e l yo n al a r g en u m b e ro ft e m p l a t e s ,t h u si ts h o w sh i g h e ru n i v e r s a l i t y k e yw o r d s :e v e n te x t r a c t i o n ,c h i n e s ei n f o l r m a t i o np r o c e s s i n g ,e v e n t a r g u m e n t r e c o g n i t i o n i n f o r m a t i o ne x t r a c t i o n , s y n t a c t i cp a r s i n g , i v 上海大学硕上学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他人已发表 或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何 贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 期: 本人完全了解上海大学有关保留、使用学位论文的规定,即:学 校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 1 1 1 日期: 上海大学硕上学位论文 第一章绪论 1 1 研究背景和意义 1 1 1 信息抽取简介 随着计算机在各个领域的广泛应用及i n t e m e t 的迅猛发展,越来越多的信息 以电子文档的形式在计算机中存储和处理。信息的过量增长带来一定负面影响: 面对巨量的信息,难以发现真正需要的信息。信息检索技术虽然能够从大量的文 档集合中找到用户感兴趣的相关文档,但是这些文档都是以自然文本的形式提供 给用户,用户还需要花费大量的时间来阅读这些文档,然后找到自己所需要的信 息,同时这些文档也不能直接被应用程序理解,后期的信息再利用就显得比较困 难。为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量 信息中迅速找到自己真正需要的信息。信息抽取技术应运而生,成为自然语言处 理领域重要的研究课题。 信息抽取的定义是直接从自然语言文本中抽取事实信息,并以结构化的形式 描述信息,为人们提供有力的信息获取工具【李向阳2 0 0 4 。信息抽取的对象可以 分为自由文本,结构化文本和半结构化文本。因为结构化文本和半结构化文本其 自身格式的特定,抽取技术相对简单,准确率也较高。目前的信息抽取研究主要 集中在自由文本的信息抽取。目前,自由文本信息抽取技术可分为三类:基于 n l p ( 自然语言处理) 的方式、基于规则的方式和基于统计学习的方式。基于n l p 的方式是早期的信息抽取方法,一般效率较低,现已较少使用。基于规则的方法 是一种知识工程的方法。在早期,一般以手工的方式设置抽取规则。随着应用范 围的扩大,手工获取规则突兀成为知识工程的瓶颈。近期大量语料库的涌现,为 规则的自动学习和获取提供了可能,这使得机器学习的方法在规则的( 半) 自动 获取中得到广泛应用。基于统计学习的方式主要有基于h m m ( 隐马尔可夫模型) 的方法等。 信息抽取作为自然语言处理中的一个发展很快的研究领域,其特征是:首先, 信息抽取是当前文本挖掘中最为突出的一项技术,这一技术结合了自然语言处 上海大学硕士学位论文 理、语料资源以及语义技术,目前正趋于成熟;其次,信息抽取不是从文件集中 选取一个与用户需求相关的子集,而是从文献中直接抽取与用户需求相关的事实 或信息;再次,信息抽取是一个从无结构的自由文本或其他信息资源中抽取出结 构化,无二义性信息的过程。 1 1 2 事件抽取简介 事件抽取是信息抽取领域一个重要的研究方向。信息抽取的主要目的是将无 结构的文本转化为结构化或半结构化的信息,并以数据库的形式存储,供用户查 询以及进一步分析利用。信息抽取系统的主要功能是从文本中抽取特定的事实信 息,我们称之为实体( e n t i t y ) ,例如时间( t i m e ) 、组织机构( o r g ) 、人物( p e r ) 等等。多个实体在一定的条件下可组成各种不同类型及子类型( t y p e s u b t y p e ) 的事件。确定事件的类型、子类型以及所包含的实体在事件中扮演的角色( r o l e ) , 我们称之为事件抽取 a c e2 0 0 5 。事件抽取能把含有事件信息的非结构化文本以 结构化的形式呈现出来,在自动文摘,自动问答,信息检索等领域有着广泛的应 用。 目前,不少组织和个人也在从事事件抽取的相关工作,如:结合句法分析和 手工模板的方法完成足球事件的抽取系统;基于限定域o n t o l o g y 的气象事件抽 取系统。一般来说,主要使用两种方法来实现对事件类别的识别。一是基于规则 的方法,二是基于模板的方法。前者需要专家构筑大规模的知识库,这不但需要 有专业技能的专家,也需要付出大量的劳动;后者虽然解决了浪费劳力的缺点, 但却同样不能跨领域使用。 1 1 3 相关国际评测 m u c 评测: m u c 会议是美国政府支持的一个信息抽取的例会,从1 9 8 7 年开始每两年举 办一次,至1 9 9 8 年结束共举办了7 次会议。到m u c 7 为止,共定义了5 个抽 取任务,其关系是递进的: n e ( n a m ee n t i t y ) 命名实体识别是最为基本的任务,实现从众多信息中表 示并分离出相关的命名实体,这是正确理解文本的基础。 2 上海大学硕士学位论文 t e ( t e m p l a t ee l e m e n t ) 模板元素信息抽取:需要能够从文本中抽取特定类 型的实体信息,并将这些信息填写到预先定义的小型属性模块之中。 c o ( c o r e f e r e n c e ) 指代的解析:将n e 或t e 任务中得到的对同一实体的不 同描述信息连接起来,同时分析实体在文本中不同地方出现的情况,以及此实体 在不同场合与其他实体之间的关系。 t r ( t e m p l a t er e l a t i o n ) 模板关系的抽取:在t e 基础上表示出模板元素的关 系。 s t ( s c e n a r i ot e m p l a t e ) 场景模板抽取:抽取指定的事件,包括参与这些事 件中的各个实体、属性或关系。 m u c 的显著特点并不是会议本身,而在于对信息抽取系统的评测。只有参 加信息抽取系统评测的单位才被允许参加会议。在每次m u c 会议前,组织者首 先向各参加者提供样例消息文本和有关抽取任务的说明,然后各参加者开发能够 处理这种消息文本的信息抽取系统。在正式会议前,各参加者运行各自的系统处 理给定的测试消息文本集合。由各个系统的输出结果与手工标注的标准结果相对 照得到最终的评测结果。最后才是所谓的会议,由参与者交流思想和感受。后来, 这种评测驱动的会议模式得到广泛推广,如1 9 9 2 年开始举行的文本检索会议 t r e c 等。 在m u c 中,衡量信息抽取系统的性能主要根据两个评价指标:召回率和准 确率。召回率等于系统正确抽取的结果占所有可能正确结果的比例;准确率等于 系统正确抽取的结果占所有抽取结果的比例。为了综合评价系统的性能,通常还 计算召回率和准确率的加权几何平均值,即f 指数。 a c e 评测: m u c 会议之后,美国国家标准技术研究院( n i s t ) 组织了自动内容抽取( a c e , a u t o m a t i cc o n t e n te x t r a c t i o n ) 评测。a c e 评测19 9 9 年7 月开始酝酿,2 0 0 0 年 1 2 月正式开始启动,迄今已经举办过八次评测。其研究的主要内容是自动抽取 新闻语料中出现的实体、关系、事件等内容。目前a c e 评测主要有三大任务: 实体识别e d t ( e n t i t yd e t e c t i o na n dt r a c k i n g ) ,关系识别r d c ( r e l a t i o nd e t e c t i o n a n dc h a r a c t e r i z a t i o n ) 和事件识别v d c ( e v e n td e t e c t i o na n dc h a r a c t e r i z a t i o n ) 。 3 上海大学硕士学位论文 其中,e d t 定义了较为详细的命名实体类别,包括7 个大类和若干子类,7 个大类分别是:人名( p e r s o n ) 、组织名( o r g a n i z a t i o n ) 、地名( l o c a t i o n ) 、地理 政治区域名( g e o p o l i t i c a le n t i t y ) 、建筑设施( f a c i l i t y ) 、交通工具( v e h i c l e ) 、 武器( w e a p o n ) 。而v d c 基于e d t 中实体在事件中参与的状况,定义了事件的 5 个类别:交互( i n t e r a c t i o n ) 、运作( m o v e m e n t ) 、转移( t r a n s f e r ) 、创造( c r e a t i o n ) 以及摧毁( d e s t r u c t i o n ) 。由于最初基于命名实体的识别,v d c 中定义事件有两 类参数:事件的参与者( p a r t i c i p a n t s ,即命名实体) 和事件的属性( a t t r i b u t e s , 即时间、地点等) ,并根据上述的事件类别建立模板。v d c 的目标即从文本中抽 取出这两类信息。 与m u c 相比,a c e 的评测指标上不仅针对某个具体的领域或场景,采用基 于漏报( 标准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出 中有) 为基础的一套评价体系,还对系统对多文档的处理能力进行评测。这一新 的评测会议将把信息抽取技术研究引向新的高度。 1 2 课题来源和研究目的 本文的研究内容主要来源于国家自然科学基金项目“面向本体的形式概念分 析扩展模型和算法”( 项目批准号:6 0 5 7 5 0 3 5 ) 和国家特种信息产品动员中心项 目“国家特种信息产品情报分析处理系统”( 项目编号:s n m c f i p 2 0 0 6 s 0 0 1 ) 。 本文描述了一种对中文文本的基于句法分析的事件信息抽取方法。对分词后 的文本进行句法分析得到句法树,然后根据提出的事件抽取算法抽取出事件的相 关元素信息,这种方法既提高了事件抽取的准确性,又可以更为通用地应用在事 件抽取的各个相关领域中,因此该方法在事件抽取、事件本体构建等领域具有广 阔的应用前景,具有继续深入研究以在实际中大规模推广的价值。 1 3 研究内容及安排 1 3 1 研究内容 为了应对信息爆炸带来的挑战,迫切需要一些自动化的技术帮助人们在海量 信息中迅速找到自己真正需要的信息。信息抽取技术应运而生,成为自然语言处 4 上海大学硕士学位论文 理领域重要的研究内容。事件抽取是信息抽取领域一个重要的研究方向,事件抽 取把含有事件信息的非结构化文本以结构化的形式呈现出来,在自动文摘、自动 问答、信息检索等领域有着广泛的应用。 现有的词性分析技术和句法分析技术越来越成熟,句法分析树中含有的事件 信息比文本中的有更高的可识别性,因此结合词法分析、句法分析进行事件抽取 的方法可以有较好的通用性和准确性。 本文主要研究基于句法分析的事件抽取技术,处理的对象为中文文本信息, 主要针对新闻报道文本。因此,本文研究了以下内容: ( 1 ) a c e 的事件抽取算法是先获取触发词来确定事件的类别,并根据事件 的类别来确定事件模板,根据所属事件模板抽取事件的元素信息,该方法依赖于 大量模板,而且应用于汉语句法有局限性,因此我们提出了基于句法分析的中文 事件抽取方法,在保证较高的抽取准确率的同时,又提高了通用性; ( 2 ) 有的文本中一个句子因包含多个子句而较长,在进行句法分析时严重 影响句法分析的效率,甚至无法进行处理,针对这一问题我们提出了长句拆分算 法,对拆分过的句子分别进行事件抽取,提高了事件抽取效率; ( 3 ) 对文本进行句法分析后,从得到的句法树中抽取事件信息时,有的事 件信息的主体不明显,需要找出合适的主体以保证事件信息的完整性,我们基于 句法树的树状结构提出了隐含主体抽取算法,采用向上回溯查找与事件最相关的 名词的方法获取隐含的主体,并对常见的两种情况分别讨论处理,较好的解决了 这个问题; ( 4 ) 我们根据提出的基于句法分析的中文事件抽取方法及相关算法,设计 实现了原型系统,可对批量文本自动进行事件抽取实验,达到了较高的效率和准 确性,验证了该事件抽取方法的可行性。 1 3 2 论文结构安排 本文共分为六章,各章内容安排如下: 第一章概括地阐述信息抽取和事件抽取的研究背景及意义以及本课题的研 究内容和全文的结构安排。 第二章详细介绍了中文分词、句法分析和事件及其提取的相关工作。阐述 5 上海大学硕上学位论文 了现有的四大类中文分词算法:基于字符串匹配的分词方法、基于理解的分词方 法、基于统计的分词方法和基于语义的分词方法;通过对汉语语言自身特点的介 绍,阐述了基于规则和基于统计的两种句法分析方法;介绍了事件的概念、微观 粒度的事件组织与宏观粒度的事件组织,以及各种事件的表示模型与抽取技术。 同时指出本文研究的事件是微观粒度的事件,采用的是基于统计的句法分析方法, 以事件多元组的存储结构作为事件的表示模型。 第三章首先阐明了本文要讨论的事件的概念和表示模型,接着详细描述了基 于句法分析的时间抽取方法以及流程。对文本信息进行词法分析和句法分析得到 句法分析树及其文本表示,并对得到的句法树进行研究,归纳出确定事件和进行 事件抽取的规则,最后依据这些规则提出了事件抽取的相关算法即事件抽取算 法、n p 核心词获取算法、v p 核心词获取算法。应用上述算法进行事件抽取实验, 得到事件元素信息,但有的事件信息并不完整,有待进一步研究以改进算法。 第四章描述了在应用第三章的事件抽取算法进行实验时碰到的问题,然后 分别对问题进行分析研究并找到了解决这些问题的方法。在进行句法分析时,针 对句法分析器对长句处理效率低下甚至无法进行处理的问题,提出了拆分句子的 算法,并通过实验证明该方法大大提高了对长句的事件抽取效率。对于句子中存 在隐含主体的情况,根据句法分析树的结构特点提出了隐含主体抽取算法,并通 过实验证明该方法能有效的抽取事件的隐含主体,提高了事件抽取的准确性。 第五章阐述了整个中文事件抽取系统的实现方法,详细说明了各个功能模 块的设计思路与设计过程。在对词法分析工具i c t c l a s 和s t a n f o r dp a r s e r 句法 分析器的改进以及原有事件抽取算法的改进的基础上构建了原型系统,对1 0 3 篇语料进行事件信息抽取,获得的f 值为6 6 1 1 ,验证了我们的基于句法分析 的事件抽取方法是切实可行的。并进行了相关评测,该系统获得了较高的抽取准 确率和通用性,具有继续深入研究和在实际中大规模推广应用的价值,可广泛应 用于各种描述类中文文本信息如新闻报道等领域。 第六章总结全文并展望未来。 6 上海大学硕士学位论文 第二章相关研究工作 2 1 中文分词 词是最小的能够独立活动的有意义的语言成分。在汉语中,词与词之间不存 在分隔符,词本身也缺乏明显的形态标记,因此中文信息处理的特有问题就是如 何将汉语的字串分割为合理的词语序列,即中文分词。中文分词是句法分析等深 层次处理的基础,也是机器翻译、信息检索和信息抽取等应用的重要环节。 随着中文信息处理的发展,中文分词也得到了很大的发展,出现了众多的算 法。根据其特点,可以将现有的分词算法分为四大类:基于字符串匹配的分词方 法、基于理解的分词方法、基于统计的分词方法和基于语义的分词方法。 2 1 1 基于字符串匹配的分词方法 这种方法又叫作机械分词方法、基于字典的分词方法,它是按照一定的策略 将待分析的汉字串与一个“充分大的 机器词典中的词条进行匹配。若在词典中 找到某个字符串,则匹配成功( 识别出一个词) 。该方法有三个要素,即分词词 典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫 描。匹配原则主要有最大匹配( m m ) 、逆向最大匹配法( r m m ) 、最小匹配、 逐词匹配和最佳匹配。 赵曾贻等改进了m m 算法 赵曾贻2 0 0 2 ,采用了一种新的分词词典,支持 首字h a s h 查找和标准的不限词条长度的二分查找算法,既改进了歧义处理,又 提高了分词速度。 郭祥吴等改进了m m 算法 郭祥昊1 9 9 8 ,利用汉语中两字词占7 5 的统计 规律,提出了两字词根和两字词簇的概念,对于两字词只需通过主扫描就可切分 出来,把长词的匹配限制在其二字词簇内部进行,把传统m m 分词方法的全局 长词优先匹配改进为局部变长长词匹配,提高了分词的效率。 杨建林等把词库进行索引 杨建林2 0 0 2 ,词库是按照词条的区位码值从小到 大进行存放的,单字词另外存放于一个词库中。词库中的特性代码采用三字歧义 7 上海大学硕上学位论文 链自动分词方式。分词时优先处理两字词,不考虑最大词长,将传统的最短匹配 法改进成在全局或者局部范围内均不依赖最大词长的最短匹配法,进一步提高了 分词速度和精度。 张李义等在改进传统的反序词典、优化逆向最大匹配算法的基础上,设计并 实现基于逆向最大匹配的中文分词系统 张李义2 0 0 6 】,试验结果表明:不统计 词频时平均每秒钟处理3 7 9 8 个汉字,统计词频时平均速度为每秒钟处理2 6 9 0 余词,而精度都保持在9 9 以上。 骆正清等提出了一种改进的m m 分词方法 骆正清1 9 9 6 ,采用“正向扫描+ 增字最大匹配( 包括跳跃匹配) + 词尾歧义检查+ 归右原则( 对连续型交集,需左部 结合) ,可以消除某些类型的歧义,提高了切词的精度。 马玉春等以m m 法为基础,采用机械分词与上下文分析相结合的方法解决歧 义字段 马玉春2 0 0 4 ,在不考虑未知人名和地名,该方法的错误切分率大约为 1 7 0 8 ,比m m 和r m m 法的准确率要高得多。 吴建胜等将词典的词尾部分以自动机形式存储,提出了一种基于自动机的分 词方法 吴建胜2 0 0 5 ,提高了分词效率。 张科提出一种新的词典结构 张科2 0 0 7 ,不仅对首字进行h a s h 查找,对于 词余下的字仍然采用采用h a s h 查找的方式来确定。理论和实验结果证明,新的 词典结构和算法使分词系统在速度上有了很大的提高,时间复杂度为1 0 6 9 。 2 1 2 基于理解的分词方法 该方法又称基于人工智能的分词方法,其基本思想就是在分词的同时进行句 法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分: 分词子系统、句法语义子系统和总控部分。在总控部分的协调下,分词子系统可 以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人 对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理 解的分词方法主要有专家系统分词法和神经网络分词法等。由于汉语语言知识的 笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基 于理解的分词系统还处在试验阶段。 8 上海大学硕士学位论文 尹锋以b p 算法为基础,设计了基于神经网络的汉语自动分词系统【尹锋 1 9 9 8 。何嘉等针对b p 算法收敛速度慢等难题,提出利用l e v e n b e r ym a r q u a r t 算 法优化神经网络分词模型 何嘉2 0 0 6 。 张利等对典型歧义中所蕴含的语法现象进行了归纳总结,建立了供词性编码 使用的词性代码库 张利2 0 0 7 】。对歧义字段中的字、词进行代码设定,转化为 输入向量,通过改进的b p 神经网络进行训练。训练结果表明算法在歧义字段分 词上达到了9 3 1 3 的训练精度和9 2 5 0 的测试精度。 2 1 3 基于统计的分词方法 该方法的主要思想:词是稳定的组合,因此在上下文中,相邻的字同时出现 的次数越多,就越有可能构成一个词。因此字与字相邻出现的概率或频率能较好 反映成词的可信度。可以对训练文本中相邻出现的各个字的组合的频度进行统 计,计算它们之间的互现信息。互现信息体现了汉字之间结合关系的紧密程度。 当紧密程度高于某一个阈值时,便可以认为此字组可能构成了一个词。该方法又 称为无字典分词。 该方法所应用的主要的统计模型有:n 元文法模型、隐马尔可夫模型和最大 熵模型等。在实际应用中一般是将其与基于词典的分词方法结合起来,既发挥匹 配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、 自动消除歧义的优点。 李家福等提出一种根据词的出现概率、基于极大似然原则构建的汉语自动分 词的零阶马尔可夫模型 李家福2 0 0 2 】,采用e m 算法训练模型。通过在一个 1 0 0 m b 的生语料库上训练模型,算法的回调率与精度分别达到6 5 6 5 和7 1 9 1 。 经过预处理,分词处理的回调率和精度分别达到9 7 7 2 和9 1 0 5 。 王伟等提出了一种基于e m 非监督训练的分词歧义解决方案和一种分词算法 王伟2 0 0 7 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 8 5 3 6 ( 以句子为单位) 。 高军改进了n - g r a m 方法,提出变长汉语语料自动分词方法 高军1 9 9 7 ,以 信息理论中极限熵的概念为基础,运用汉字字串间最大似然度的概念进行自动分 词。对1 0 万字的新闻类语料分词,正确率可达到9 4 2 。 9 上海大学硕士学位论文 2 1 4 基于语义的分词方法 语义分词法引入了语义分析,对自然语言自身的语言信息进行更多的处理, 如扩充转移网络法、知识分词语义分析法、邻接约束法、综合匹配法、后缀分词 法、特征词库法、矩阵约束法、语法分析法等。 张素智等的研究 张素智2 0 0 7 显示,基于矩阵约束法的系统能够把分词的准 确率提高l o 左右。 综上,很多专家学者对中文分词算法的研究取得了一定的进展,但由于中文 的独特性,还没有完美的分词算法。中文分词算法的进一步完善应该在已经取得 的成绩的基础上,综合运用多种方法,并引入新的模型和方法,通过不断探索, 使中文分词算法越来越完善。 2 2 句法分析 句法分析在自然语言处理领域中具有十分重要的地位,同时它也是公认的一 个研究难题。数十年内出现了很多著名的算法,如c h a r t 算法 k a t h e r i n e2 0 0 2 , t a n a k a1 9 9 3 、e a r l e y 算法 k a l t e2 0 0 2 ,t a n a k a1 9 9 3 、t o m i t a 算法 李仁发2 0 0 3 , t a n a k a1 9 9 3 1 等,这些算法都是基于规则的,用于上下文无关文法。2 0 世纪9 0 年代以来,基于统计的方法发展很快。上述基于规则的算法都是全解析算法,即 生成所有符合语法的句法树,要在这些句法树中选出一颗正确的句法树是一件十 分困难的事。于是,将规则方法与统计方法相结合。一种常用的方法就是使用概 率上下文无关文法,即给上下文无关文法加上概率信息。 目前国内很多有代表性的汉外机译系统的汉语句法分析模块都是通过改进 已有的经典句法分析算法设计的,不少已在实践中取得了很好的效果。例如,【白 硕2 0 0 3 结合广义l r 算法和c h a r t 算法的优点,把广义l r 算法的预读机制引 入c h a r 算法中,提出了角色反演算法,减少了c h a r 算法中的垃圾边的生成,提 高了分析的速度和效率;【朱胜火1 9 9 8 1 提出并实现了一种有效的概率上下文无 关文法分析算法,该算法对g l r 分析表进行了改造,利用分析过程的控制结构 来计算有关的概率,并对状态增加下标以区分不同归约路径,引入了状态的前向 概率和内概率,用于计算分析树的概率。通过大规模真实文本进行实验,通过率 1 0 上海大学硕士学位论文 为7 5 - 3 ,短语正确率为7 3 7 。在这中间,传统的基于规则的方法又占了主导 地位。这是因为基于规则的方法从汉语句子最本质的特征出发,例如构词法、词 组构造法、造句法等,从宏观上总结出句法规则。无论汉语的句式结构多么自由, 其中蕴含的最基本的规则是相对稳定的。规则易于表达汉语句子成分的构成规 律。其次,经过长时间的发展和不断改进,这类方法己较为成熟,应用在一些实 用化的系统中有较高的效率。基于语料库的统计方法单独用于汉语分析的例子不 多见,统计方法不依赖于汉语语言学理论,仅仅依靠从语料库中统计得到的数据 进行分析,本质上是一种经验主义方法。统计方法在处理汉语词的切分歧义、兼 类词消解、句法结构排歧等方面有较强的优势,可以为基于规则的句法分析过程 提供有用的统计数据,从而提高系统的健壮性和适应性,两者有着融合的趋势。 2 2 1 汉语句法结构的特点 与其它自然语言相比,汉语句法有以下两个主要特征: ( 一) 同一词类可担任多种句法成分且无形态变化 汉语既不同于以英语为代表的屈折语,也有别于以日语为代表的粘着语。无 论是屈折语还是粘着语,词类与句法成分之间有相对简单的对应关系,而“汉语 的词类和句法成分之间的关系是错综复杂的。 朱德熙1 9 8 5 】 汉语的根本特点是同一词类可担任多种句法成分且无形态变化。在汉语中, 名词除了主要担任主、宾语外,也可以直接担任定语,在一定的条件下还可担任 谓语,例如“明天星期天”,“星期天 就作谓语;作定语虽然是形容词的主要功 能,但形容词和名词的主要区别在于形容词经常用作谓语和补语,例如:“苹果 熟了 ,其中的“熟 就作谓语,“小偷跑得真快”,“真快 可作为补语。名词不 能作补语,也很少作谓语。动词的主要功能是作谓语,但汉语动词可直接用作定 语,例如:“毕业的日子不远了”,动词“毕业 就是定语。此外,动词和形容词 直接用作主宾语都不是罕见的现象。总而言之,汉语的词类具有多种句法功能, 单纯依靠词类来确定句法成分是行不通的。汉语句子要表达一个完整的意思,更 多取决于词或短语间的语义约束,句法成分之间的语法约束反而弱化了,词类的 多功能就反映了这一特点。人们只要求“看懂”一个汉语句子,而不必对这句话 的句法结构有深入的理解。 上海人学硕士学位论文 与词类的多功能相联系,还有一个兼类词的问题。汉语的词类虽有多功能, 但不能无限制地扩充某个词类的功能。例如,不能将作状语也扩充为名词的功能, 副词基本上只能作状语。汉语中有个别的词,如“重
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论