(计算机应用技术专业论文)中文新闻语料中的时间短语识别方法研究.pdf_第1页
(计算机应用技术专业论文)中文新闻语料中的时间短语识别方法研究.pdf_第2页
(计算机应用技术专业论文)中文新闻语料中的时间短语识别方法研究.pdf_第3页
(计算机应用技术专业论文)中文新闻语料中的时间短语识别方法研究.pdf_第4页
(计算机应用技术专业论文)中文新闻语料中的时间短语识别方法研究.pdf_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 在自然语言中,时间信息是利,重要的信息,它是一个事件的重要 组成部分,研究表明,它在文本信息- 二 l 所占的比重仅次子专有名词。在 日常生活中,当人们阅读一篇新闻时,他们总是要把文章的内容和时间 信息联系起来,通过文章中的时间信息可以了解一个事件的开始、进行、 结束以及事件发生的频率,把握一个事件发生的全过程,了解事件发展 的前因后果,作为进一步决策的重要依据。因此,时间相关信息的处理 是自然语言理解过程中一个非常重要的部分,它对于信息抽取、信息检 索、问答系统、主题发现和跟踪、文本摘要和数据挖掘领域都具有重大 的意义。 本文的研究重点是明显时间信息中的事件时间短语。在研究中,我 们发现,通过事件和时间指示词组合的时间短语是文本中表达明显时间 信息的短语,我们把它定义为事件时间短语,它在新闻语料中大量的出 现。 本文的主要工作如下: 1 确定识别时间短语的类型:在分析真实语料的基础上,以a c e ( a u t o m a t i o nc o n t e n te x t r a c t i o n ) 评测标准a c ec h i n e s ea n n o t a t i o n g u i d e l i n e sf o r t i m e x 2 ( s u m m a r y ) 为参照,确定本文识别短语的类型; 2 对文本进行预处理包括分词、词性标注; 3 进行语料标注,提取事件时间短语和一般时间短语的规则以及事 件时间短语的边界决策特征; 4 针对文本中不同时间短语的特点采用不同的方法识别: 识别事件时间短语:本文的事件时间短语识别是一个重点内容,对 它的识别采用模式匹配和决策树相结合的方法,模式匹配的方法不仅充 分的分析了事件时间短语的内部特征,而且还大幅提高了事件时间短语 识别的召回率;使用决策树的方法可以通过边界决策特征来提高事 f - i i 寸 问短语识别的精确率; 识别一般时间短语:本文对一般时间短语采用两步走的方法进行识 别,先识别简单时间短语,再用提取的模板规则将它们组合成复杂的时 间短语,其中关键是对时间模板的提取,尽可能完全的涵盖待识别的时 间短语类型; 5 系统构建:本文构建了一个时间短语识别系统,使用4 0 万字的 语料作为训练集,对文本中的时间短语进行自动识别。 实验结果表明,本文使用的识别时间短语的方法是行之有效的,对 事件时间短语的开放测试中精确率和召回率分别是8 9 5 5 和8 9 7 8 , 识别简单时间表达和复杂时间表达的f 值分别是9 8 5 、9 5 2 ,都达 到了比较好的效果。 最后,本文详细分析了实验结果中的错误实例,分析了原因,并对 一些问题提出了解决的办法。在今后我将进步扩大资源,对h ? i a 短语 类型和识别方法进行更加深入的研究。 关键词:时间短语识别;模式匹配;事件时间短语:决策树 中图分类号:t p 3 9 1 r e s e a r c hi n t ot e m p o r a le x p r e s s i o n so fc h i n e s en e w s z h a og u o r o n g ( c o m p u t e ra p p l i c a t i o n & t e c h n o l o g y ) d i r e c t e db yy a h ge r h o n g a b s t r a c t i nn a t u r a ll a n g u a g e ,t h et i m e i n f o r m a t i o ni sa ni m p o r t a n tm e s s a g e s o m es t u d i e si n d i c a t et h a tt h et i m es h a r ei n f o r m a t i o ni nt h et e x ta f t e rp r o p e r n o u n w h e np e o p l er e a dap i e c eo fn e w si nn o r m a ll i f e ,t h e ya l w a y sw a n tt o k n o wt h ec o n t e n ta n dt i m eo ft h en e w s t h e yc a nk n o wt h ef r e q u e n c yt h a t t h ee v e n th a p p e n e da n dw h yi th a p p e n e d t h e nt h e yc a nm a k ed e c i s i o n sb y k n o w i n gt h e s em e s s a g e s t h e r e f o r e ,t h ep r o c e s s i n go ft i m ei n f o r m a t i o ni sa v e r yi m p o r t a n tp a r to fn a t u r a ll a n g u a g eu n d e r s t a n d i n g i ti sv e r yi m p o r t a n t f o ri n f o r m a t i o ne x t r a c t i o n ,i n f o r m a t i o nr e t r i a l ,q u e s t i o na n s w e r i n g , s u m m a r i z a t i o na n dd a t am i n i n g t h es t u d yf o c u s e do nt h eo b v i o u st e m p o r a le x p r e s e i o n so fc h i n e s e n e w s ,e s p e c i a l l yt h ee v e n tt e m p o r a li n f o r m a t i o n w ed i s c o v e r e dt h a tw ec a n c o m b i n ee v e n t sa n dt i m ei n d i c a t e si n t ot i m ep h r a s e sw h i c ha r eak i n do f o b v i o u st e m p o r a le x p r e s s i o n s w en a m et h e me v e n tt e m p o r a li n f o r m a t i o n t h em a i nw o r ko ft h i st h e s i s a m a k es u r eo ft h et i m ep h r a s e st y p e s :a c c o r d i n gt ot h ea c ec h i n e s e a n n o t a t i o ng u i d e l i n e sf o rt i m e x 2 ( s u m m a r y ) a n dt h et r u ec o r p u s b p r e p r o c e s st h et e x t :i n c l u d i n gw o r d ss e g m e n t a t i o na n dp a r t o f - s p e e c h t a g g i n g ; c t a g g i n g t e x tf o r g e t t i n gt h et e m p l a t er u l e s o ft i m ep h r a s e sa n d g e t t i n gt h eb o u n d a r yd e c i s i o nf e a t u r e so f e v e n tt e m p o r a le x p r e s s i o n s d u s i n gt w ow a y st or e c o g n i z et h eo b v i o u st e m p o j a 】e x p l e s s i o n s e v e n tt e m p o r a l e x p l l e s s i o n s :o u rs t u d i e sa r ef o c u s e do nt h ee v e n t t e m p o r a le x p r e s s i o n s t h ef i r s ti st h eb a s i cc o n c e p t so ft h ee v e n tt e m p o r a l e x p r e s s i o n s :t h e nw er e c o g n i z et h e mu s i n gd e c i s i o nt r e e sa n dm a t c h i n g t r e e s n o r m a lt e m p o r a le x p r e s s i o n :w eu s et w os t e p st or e c o g n i z et h e m f i r s t , w er e c o g n i z es i m p l et e m p o r a le x p r e s s i o n s ,s u c ha sc a l e n d a rd a t e s ,t h n e so f d a y ,d u r a t i o n s ,t i m ew o r d s s e c o n d ,w er i s et e m p l a t er u l e st oc o m b i n es i m p l e t e m p o r a le x p r e s s i o n si n t oc o m p l e xt e m p o r a le x p r e s s i o n s e s y s t e mc o n s t r u c t i o n w ec o n s t r u c tac h i n e s et e m p o r a le x p r e s s i o n s r e c o g n i t i o ns y s t e m w eu s e4 0 0 ,0 0 0w o r d sa st e s tc o r p u st og e tt h et e m p l a t e r u l e sa n dd e c i s i o nf e a t u r e sa n da u t o m a t i o n r e c o g n i z e t h e t e m p o r a l e x p r e s s i o n s t h er e s u l t ss h o wt h a tt h e s ew a y sa r eg o o d t h ep r e c i s i o nr a t eo fe v e n t t e m p o r a le x p r e s s i o n i s8 9 5 5 a n dt h er e c a l lr a t eo fe v e n t t e m p o r a l e x p r e s s i o ni s8 9 7 8 r e s u l t so fs i m p l ea n d b yo p e n t c o m p l e x e s t a n di ns p a i nb o m b i n g st e s tc o r p u s ,t h e t e m p o r a le x p r e s s i o n ss h o wt h a tt h e f b , r e a c h9 8 5 9 5 2 t h e ya r ef a i r l yg o o dr e s u l t s r e s o u r c e sw i l lb ef u r t h e r e x p a n d e da n dr e c o g n i z e t h e t y p e s a n d m e t h o d so ft e m p o r a le x p r e s s i o n sm o r ei n d e p t hs t u d yi nt h ef l l t u r e k e y w o r d s :t e m p o r a le x p r e s s i o n sr e c o g n i t i o n ;p a t t e r nm a t c h i n g ;e v e n t t e m p o r a le x p r e s s i o n s ;d e c i s i o nt i e e 莆章t j l音 第一章引言 在自然语言中,时削信息是一种重要信息,当人们阅渎一篇新闻时,4 出4 t - j 总是 要把文章的内容和时问信息联系起来。因此,时间信息相关处理是自然语言理解过 程中一个非常重要的部分,它对于信息抽取,信息检索,问答系统,文本摘要和数 据挖掘等领域都有重大的意义。本文的主要工作是研究中文新闻语料中明显时删短 语特别是事件时间短语的识别方法,并在此基础上建立了一个对中文新闻语料中的 时问短语进行识别的系统。 1 1 研究对象 命名实体识别( e n t i t yr e c o g n i t i o n ) 就是判断一个字符串是否代表一个命名 实体,并确定其类别。它是一项广泛应用于信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 、 问答系统( q u e s t i o na n s w e r i n g ) 、机器翻译( m a c h i n et r a n s l a t i o n ) 等领域的关 键技术,是大多数自然语言处理任务中必不可少的环节,在自然语言处理中有着重 要的作用。近年来,命名实体识别逐渐成为自然语言处理研究中的热点问题。在国 际上,从1 9 9 5 年举行的美国国防部资助的系列会议m u c ( m e s s a g eu n d e r s t a n d i n g c o n f e r e n c e ) m u c 一6 首次定义实体识别任务( m u c 一6 只对英语) 以来,它已经先后成 为c o n i l 一2 0 0 2 ( 西班牙语和荷兰语) 、c o n l l 一2 0 0 3 ( 英语和德语) 、m u c 一7 的m e t 2 ( 中文、日语、西班牙语) 、i e e r 一9 9 ( 英语,m a n d a r i n ) 等的独立任务,m u c 于1 9 9 8 年最后一次m u c 一7 ”1 首次在命名实体定义中加进了对时问评测的要求。m t j c 会议的停 办后,美国国家标准技术研究院( n i s t ) 组织的自动内容抽取a c e ( a u t o m a t i o n c o n t e n te x t r a c t i o n ) 则进一步把实体的识别推进到实体及其所有表达形式的识别 。”。a c e 评测从启动至今,已经连续进行了五次评测。在它的第五次评测( 2 0 0 4 年8 月) 中,在t e r n ( t i m ee x p r e s s i o nr e c o g n it i o na n dn o r m a l i z a t i o n ) e v a l u a t i o n p a n 中对h i i 自j 表达式的评测给出了详细的定义和】要求“。在国内,国家8 6 3 计划中 文信息处王坐与智能人机交互技术评测分别在2 0 0 3 、2 0 0 4 年专门进行了汉语实体识别 的评测任务,它是从1 9 9 9 年丌始继续进行信息抽取方面的评测。 在a c e ”中时唰短语分为七大类:精确的时问表达式( p r e c i s et e m p o r a l e x p r e s s i o n s ) 、模糊的时间表达式( f u z z yf e m p o r a le x p r e s s i o n s ) 、具有修饰训的时 间表达式( m o d i f i e dt e m p o r a le x p r e s s i o n s ) 、表示i i , l 问集合的时间表达式 ( s e t d e n o t i n gt e m p o r a le x p l 。e s s i o n s ) 、非特定的时削表达式( n o n s p e c i f i ct e r n p o l a l e x l ) 1 e s s i o n s ) 、以事件为锚点的时削表达式( e v e n t a n c h o l l e dt e m p o r a le x p r e s s i o n s ) 、 中立新闻语制, 4 , 0 h q l l , 7 艇语识删方法研究 文化决定的i3 , t 阳l 表达式( c u h u r a l l y d e t m m i n e de x p r e s s i o n s ) 。其中精确的时f l l j 表达 式又分为以下四类:f l 期( c a l e n d a rd a t e s ) 、时川( t i m e so fd a y ) 、基于周或星 期的时i d j 模式( u n i t so f w e e k s ( w e e k b a s e df o l ,m a t ) ) 、段时间( d t l j a t i o n ) ;模糊 的时间表达式分为以下十类:不能确定精确的铺点时问( i n d e t e r m i l l a t ep r e c i s i o n ) 、 过去、现在、将来( p a s t ,p r e s e n t ,f u t u r e ) 、季节( s e a s o n s ) 、财政年( f i s c a ly e a r s ) 、 季度和半年( y e a r l yq u m t e r sa n dh a l v e s ) 、周末( w e e k e n d s ) 、早晨、下午和晚上 ( m o r n i n g ,a f t e r n o o n ,a n dn i g h t ) 、未指明的| 二| 期和时间( u n s p e c i f i e dc o m p o n e n t so f c a l e n d a rd a t e sa n dt i m e s o f d a y ) 、未指明具体时问长度的段时间( u n s p e c i f i e dp l u r a l n u m b e r si nd u r a i o n s ) 、基于周和月的组合时间表达式( c o m b i n e dw e e k - - b a s e da n d m o n t h - - b a s e de x p r e s s i o n ) 。以上时间短语的分类界定是参照a c e 评测标准中对日, i - i 、司 短语的定义和分类。”。 本文主要研究中文新闻语料中的时问短语识别,它是命名实体识别的一个子问 题。本文为了使时间短语的处理比较简单,把上面的分类融合到本文的分类中。本 文把识别的时间短语分为四类:简单列问短语( 日期( 例如,2 0 0 4 年6 月1o 日) 、 时间( 例如,12 点3 0 分15 秒) 、段时间( 例如,18 个月) 、b , j 问词( 例如,今年, 上午等) ) 、复合时间短语( 前面几类时间短语的组合,例如,今天上午12 点10 分) 、时问介词短语( 简单时间短语或复合时间短语与介词的组合,例如,自19 98 年以来) 和事件h 寸f u j 短语( 例如,在西班牙的爆炸发生之后、二战以后) 等。这里 我们把前面三类称为一般时问短语,因为它们不仅在新闻语丰4 中,而且在所有的中 文语料中的形式是相同的,其特点不具备特殊性。但是事件时间短语在新闻语料中 出现比较多,而且在明显时间信息中所占的比重比较大,它的表达形式和一般的时 mj 短语有很大的不同。我们对这两类时叫短语采用不同的识别方法。 1 2 课题研究的意义 随着互联网的高速发展,w e b 己经成为最重要的新闻媒体之一。在众多的新闻 当中,那些难以准确预测而突然爆发的对匡j 家和社会j t 生重大影口向的新闻事件是人 们普遍关心的焦点。那么我们要了解发生的新闻事件,日j 问信息将是文本中非常关 键的因素。 在文本c p ,时m 信息是种重要的语义载体“1 。人们阅凄这些新闻报道时,总 会把文章的内容和时问信息联系起来。时间信息表示了缸物变化的过程和变化的时 问,它可以表示事件已经发生了正在发生或者将要发生( 相对于文章发表喇阳j 或者 参考时间) 。而且时问信息也是一个事件的重要组成部分,通过了解一个事件的丌始、 进行和结束的时间信息,我们可以把握一个事件发展的全过程。有研究表明,时唰 信息在文本信息中所占的比重仅次于专有名词,压i 此,本文把新闻语料中的明显时 问j 信息作为研究对象。 1 3 本文的主要工作 本文针对中文文本中的时剃短语进行了一些研究,论文的主要工作如下: a 确定识别时间短语的类型:在分析真实语料的基础上,以a c e ( a u t o m a t i o n c o n t e n te x t r a c t i o n ) 评测标准a c e c h i n e s ea n n o t a t i o ng u i d e l i n e sf o rt i m e x 2 ( s u m m a r y ) 。”为参照,确定本文识别短语的类型; b 对文本进行预处理包括分词、词性标注; c 进行语料标注,提取事件时问短语和一般时间短语的规则以及事 件时间短语的边界决策特征; d 本文中将识别的时间短语类型分为四大类,采用不同的方法识别: 本文对新闻语料中的简单时间短语( 时间( 例如,1 2 点3 0 分1 5 秒) 、同期( 例 如,2 0 0 4 年6 月1 0 日) 、时间词( 例如,今年,上午等) 、段时问( 例如,1 8 个 月) ) 、它们组合而成的复杂的时倒短语( 例如,自1 9 9 8 年以来) ,采用两步走的 方法进行识别,其中关键是对时间模板的提取,尽可能完全的涵盖待识别的时间短 语类型: 事件时间短语识别:本文的事件h q - f 日j 短语识别是一个重点内容,对它的识别采 用模式匹配和决策树相结合的方法,模式匹配的方法不仅充分的分析了事件时间短 语的内部特征,而且还大幅提高了事件时间短语识别的召回率;使用决策树的方法 可以通过边界决策特征来提高事件时间短语识别的精确率; e 系统构建:本文构建了一个新闻语料中的时间短语识别系统,使用4 0 万字 的语料作为训练集,进行模板和决策特征训练,并对识别出来的时问短语在文本中 进行了标注。 14 论文结构 第一章引言 界定本文研究的落点,论述课题研究的意义,以及本沦文所做的主要工作。 第二章国内外研究历史及现状 : 一土兰! ! l ! 堕型! 些型里型堕塑型变鲨型壅 介绍了国内外时间信息抽取的研究历史和现状,同时介绍了时i 训系统研究的主 要理论和方法。 第三章一般时间短语的识别 界定识别的时削短语的类型,提取待识别短语的模板规则,对中文文本中的时 问短语进行识别,并在文本l 中加以标注,最后对结果进行分析和总结。 第四章事件时间短语的基本概念 给出了事件时间短语的定义、分类等基本概念。 第五章事件时间短语的识别 采用规则和统计相结合的方法对文本中的事件时间短语进行识别,并在文本中 加以标注,最后进行了结果分析和总结。 第六章结束语 对以上工作进行总结,并展望未来的工作方向。 第二章国内外研究历史及现状 2 1 综述 在计算语言学的分类里,命名实体任务属于信息抽取研究范畴。“。时间信息抽 墩是自然语言处理的一个新课题,尽管理沦上提出来时削信息抽取已经有一段时间, 但是真f 用计算机来处理还是近几年的事,处于萌芽期。时剧信息的抽取是为m j 涮 关系的研究而服务的”,它最终的目标是建立时刚和事件之问的关系以及事件和 事件之间的关系“。由于语言的差异,国内外对时间信息抽耿的研究也不尽相同。 2 2 时间系统理论的研究 2 2 1 英文时间系统理论的研究 在英文领域中,早先的时间理论研究只是局限在理论语言学和形式语言学中,随 着计算机技术的发展和越来越多的应用需求,时间理论逐渐被引入到自然语言处理 中。 西方理论语言学和形式语言学的许多研究表明自然语言对时间信息的表达可以 分为三个方面:时相( p h a s e ) 、m j 制( t e n s e ) 和时态( a s p e c t ) 。其中,时相反 映事件行为本身的时间特性:时制是指在具体的语境中,事件行为的发生时i i j ( e v e n t t i m e ) 与说话时问( s p e e c ht i m e ) 或参考时间( r e f e r e n c et i m e ) 在时间轴上的先后关 系;时态则是指说话者( s p e e c h e r ) 从不同的角度观察事件行为的时间进程时,事 件行为所处的状态。从表现形式来晚,时相是隐性的,时制和时态则是显性的,在 由隐到显的生成过程中,各种语言所使用的表现时制和时态的方法也不尽相同,侧 重方向也不一致。 2 2 2 中文时间系统理论的研究 相列于英语领域,汉语有着自己独特的特性。英语中的一些时间信息如时态可 以通过词形的变化来体现,但是汉浯基本一h 没有词形的变化,时态等信息都通过一h 下文语义或者借助助词柬体现,这也为汉语m j - i j 信息处理增加了难度。 我国的传统语法中,一般认为汉语只有时念( a s p e c t ) 范畴,没有时制“e n s e ) 范畴,而时间信息全是通过没有虚化的时间副词或一h f 文来表达的。经过长期的考 察和无数的验汪,越来越多的学者趋向认为,现代汉语的时间系统也包含时相、时 制和时态三个部分。 陈平”1 1 9 9 8 年提出汉语时间系统中的三元结构适合_ - j 二现代汉语的时问系统溉 中文新闻语利中的时间l lj 语识别方法训究 念。他主要分析了时相结构,其余两个结构只做了一一番说明。同时,他也分析了汉 语和英语在时间表达式上的不同:( 1 ) 英语j 盟过滑语动词本身的形念变化来表现时 制和n , j 念,而汉语则在硝语动词前后附加语言成分来表示时制和时态;( 2 ) 英语的 时制和时态是通过同一动词的形态变化来表现,而这往往融合在一起,而汉语则使 用问汇成分表现时制( 如:我全丞去看电影) ,使用语法成分表现时态( 如:我去 过那个地方) ,二者分离月性质不同。 2 3 时间信息抽取的研究和相关工作 在中英文的时间系统理论基本建立后,时间信息拙取得到了长足的发展。通常, 时f 刈信息抽取的研究内容不仅仅是表示时问信息的短语( 类似m u g ( m e s s a g e u n d e r s t a n d i n gc o n f e r e n c e ) 还有a c e ( a u t o m a t i o nc o n t e n te x t t a c t i o n ) 会议上 的命名实体识别) ,它还涉及到了隐含时间信息识别和时间关系的提取。在本文中, 我们所确定的研究对象是表示时间信息的短语,关注的仅仅是时间短语。 总的来况,时问信息的研究内容分为三类: 1 把重点放在提取文本时间表达上面,尽可能精确和洋细: 2 时间戳方法,把文本中的些或者全部事件都和日历时f 叫对应起来。“”; 3 直接关注时间关系的方法,把重点放在时问和事件、事件和事件之i b j 的时间 关系上。 2 3 1 文本时间信息的抽取 这里所指的时间信息包括两部分的内容:一个是明显的时间信息,即文本中表 示时间的词语和短语;一个是隐含的时间信息,即句子中的情态。 对于明显的时间信息( 时间词和时间短语) 的识别,相应的二 作比较多。美国 国防部资助的系列会议m u c ( m e s s a g eu n d e s l a n d i n gc o n f e r e n c e ) m u c 一7 ”3 首次在 命名实体定义中加进了对时间评测的要求。m u c 停办后,美国国家标准技术研究院 ( n i s t 组织的自动内容拙取a c e ( a u t o m a t j o nc o n t e n te x t r a c o d ) 会议在它的 第五次评测( 2 0 0 2 1 年8 月) 中,在t e r n ( 7 r i m ee x p r e s s i 0 1 1r e c o g n i t jo na n d n o r m a jz i t fo n ) e v a u a t i o np l a n ”中对时问表达式的评测给出了详细的定义和要 求”。在最新2 0 0 5 年初i 准中还加进了时问关系的内容。 在a c e 的t e r ne v a h i a t i o np l a n ”中l is af e r r0 等不仅给出了评测时间短语 的类别,还给出了标注要求: 1 对于每个时刚短语,都要汁算它所真矿指代的同历时问 第三章一般时间如语的识别 2 处理上下文相关的时间短语,比如把今天和某个具体的具体的时间联系起 来,这个具体的时问要从局部上下文( 处于同一个句子) 或全局上下文( 在 句子之外) 进行联系。 还有一些其它的对时间词和i 时间短语识别的工作,比较著名的是i b m 的 f i r e e f f a m e s ,它通过句法模式匹配的方法来识别同期、时川词、时间削隔、速度、 年龄和其它些表示b , t l 、司的短语。这种方法最大的特点就是使用自底向上的方法, 先匹配小的模板,然后尽可能多的合并小模板,直到摄长的匹配模板产生为止。 对于汉语的时间词和时问短语识别,除了在一些中文分词和中文命名实体识别 中包括的同期识别外,比较成系统的就是l iq i n g z h o n g ”给出了一个基于决策树的 有监督学习算法来识别句子的时间模型。 对于隐含的时间信息,相应的工作要更多一些。大家一致的看法是认为句子的 时相可以用句子的情态类型来描述,而句子的情态主要由句子的谓语动词决定。所 以对于隐含的时间信息的工作多集中在对句子情态分类和动词分类的研究上。 a n d r e as e t z e r “。1 在她的博士论文中对英文中隐含时间的表述进行了详细的研 究,并把它应用于自动的时间信息抽取中。在她的理沦中比较有新意的想法是,她 认为英文中的动词除了通过本身的形态变化来表示句子的时态外( 比如,过去式、 现在式等) ,动词还可以表示时间理论中提到的时态( a s p e c t ) 特征。并且还定义 了英文句子的四种情态类:o c c u r r e n c e ,p e r c e p t i o n ,r e p o r t i n g ,a n da s p e c t u a l 。 m e r l o 3 进行了动词情态分类的相关工作,将时间信息的抽取扩展到隐含时间 信息领域。其中,m e r l o 使用了机器学习的方法进行动词分类,他根据影响动词分 类的语法特征来分类英文动词,这些语法特征是在一个大的语料库中学习得到的, 然后根据这些特征训练一个自动的分类器。在m e r l o 的方法中,动词被分成三类: 无主格动词( u n e r g a t iv e ) 、无宾格动词( u n a c c u s a t i v e ) 和主宾格动词 ( o b j e c t d r o p ) 。随后,t s a n g 扩展了m e r l o 的工作。f s a n g 假设在英文中一些很 难得到的语法特征在其它语言中可以很简单的得到。根据这个启发,t s a n g 使用了 个中英双语语料库来获得影响动词分类的语法特征,然后根据这些特征来训练动 同分类器,取得了较为理想的结果。 在汉语中,句子情态分类的研究较少。比较著名的是l iw e n j i e “”提出的 汉语动词分类和旬予情态分类。i 。jw e n j i e 把汉语动词划分五类:属性动词 ( a t t r i b u t ev e r b ) 、心理动词( m e n t a l i t yv e r b ) 、行为动作动词( a c t iv i t yv e r b ) 、 v e r b ) 和歧义动词( a m b i g l ;tyv e r b ) 。然后在动词分 中义新闻语剃中的时问蛳语识别方法研究 类的基础上提出了句子的三种情态类:状态( s t a t e ) 、行为( a c t i o n ) 和事件( e v e n t ) 。 如图2 1 所示 i e l l l p o ic l ic o l i c e p i i ( s i tl i a t i o n ) i 一l 图2 1 句子的情态分类 朱晓丹“”提出了一个利用上下文辅助词进行中文动词情态分类的算法,并且在 他使用的测试集上取得了很好的效果。l iw e i “”1 “提出了种使用遗传算法进行汉 语动词分类的方法,他也使用了l iw e n j i e 定义的五种动词分类,并且取得了很好 的实际效果。 232 时间戳方法 标注h 寸i 、司短语是抽取时间信息的第步,如何给事件找到一个对应日历时间也 是时间信息抽取的重点内容。 f a t o v aa n dh o v y “提出了一个把新闻分割成一系列事件并且给这些事件指定 时问的方法。这里的时间可以是闩历日期,日期的集合,两端封闭的h 期范围( 2 0 0 3 年5 月l | = i = 1 到7 月8 同) ,或者一端封闭一端丌放的同期范围( 1 9 8 5 年以前、以后 这种时间) 。表示事件的晤义单元是简单子句,使用一个p a r s er 来识别这些予句, 这个p a rs e r 能蟛构建语法标记的语义分析树。 他们的时间标记器使用两个时间点来定位。一个利间点是文章的发表时刚( 只 精确到具体的日期,不考虑某天的具体时刻) ;另个时间点是同一个句子中最后 出现的时j 剐。 他们在为事件指定f 1 期e 1 9n , j 候应用了许多不同的规则。当一个句子中出现同蝴 短语时,这些规则都考虑了最近的介词,l l t no i l ,a f t e f ,b e f o r e 。例如如果日期短 浯是简单的一周中 1 9 某天,就能够使用文章发表同期来推导出一个具体的同历叫问。 如果句子中没有同期短语,那么就使用时念信息为事件予句指定一个相对于文章发 表同期的相划时刚问隔。所有的事件被指定了一个时问之后把事件子句按照年代 r 一 第三章一股寸问l l 语的识别 的先后顺序排序。 s c h i ic l e ra n di - l a b e p l 提出了一个时州信息浯义标注系统。在他们的方法中, 时问短语被分成两类:指示时问的短语和指示事件的短语。指示时l n j 的短浯是指f f 历时间或者时钟时刻:指示事件的短浯是指由事件本身发生的时间所表示的时问, 比如“选举”。他们的目标是在一个绝对的时问轴上定位这些时间短语,这样就可 以生成一个在时间关系上线形排列的时间实体集合。并且他们使用时间戳来表示他 们的最终结果。 23 3 标注时间关系 不管是英文还是汉语,时间关系。“3 的研究是时间系统研究的核心内容,不管是 时间抽取还是事件抽取,最终的目标是要建立时间和事件、以及事件和事件之间的 关系。许多自然语言处理课题都对准确地在时间轴上定位某个事件有着迫切地需求, 这些课题包括信息抽取、问答系统、主题发现和跟踪、文本摘要等等。然而,时间 关系地研究也是时问信息抽取中最困难地内容。现有的应用系统很少,还处在方法 研究阶段。 通常,关于时问关系分析的工作分成两种,基于文档的发表时间“o 或者基 于从文档内容中抽取出来的参考时间”。前一种方法简单易行,但是会带来很多 错误:后一种方法对时间短语识别和其它表示时间成分的分析有很高要求,现在基 本上是基于简单的人为定义的规则来实现。 2 4 本章小结 由前述的内容可以看出,当前时间信息处理的研究中,中英文的时间系统理论 已经比较成熟,相应的时间系统都已建立。但是在具体的n l p ( n a t u r a ll a n g u a g e p r o c e s s ) 抽取技术方面,还有很多: 作需要进一步完善。而且我们可以看到英文的 时间信息抽取工作大部分集中在时问词、时问短语以别和动词的情态的分类中,而 中文这方面工作做的却比较少。本文的重点是对中文文本中的明显时问短语进行识 别。 中文新问语杜i 中的时间短语暇别方法l d l : j 4 第三章般时间短语的识别 在本章,h 我们将给出根据文本以别的需要而确定的新闻沿利1 p 的般时i e u 短语类型,以及识别这些时问短晤的方法,最后我们给出实验结果。 3 1 研究对象 在汉语文本中,明显的时间信息通常由时问、f i 期、时叫同、段时间、复杂时 j 剖短语( 包括复合h j f e i j 短语和时削介词短语) 和事件时f 叫短语( 例如,在西班牙的 爆炸发生之后、二战以后) 等来表达。前面四种在我们这罩称为简啦的时问短语。 复杂的时间短语包括简单时间短语的组合即复合时问短语和时间介词短语( 例如, 1 2 月2 日上午、自19 9 8 年以来等) 等。这里我们把简单的时问短语和复杂的时间 短语称为一般时间短语。在本章中我们只处理一般时间短语,事件时间短语的处理 方法将在后面的章节中作为重点内容进行介绍。下面我们给出本章中的日期、时 j 刨、段时间、时间词的概念。 几期”是指所表达的时间单元是一天或者比一天更民的时间表达。它的时间的 最小粒度是天。在这里指单纯的日期表达,例如,20 0 4 年6 月10 目,200 6 年,10 月18 日等。 时间”是指所表达的时间单元是比一天短的时问表达。在这早主要指时、分、 秒、点等和数字组合而成的时间。例如,12 点3 0 分15 秒,l2 时,3 分1 4 秒等。 段时问“表示的是一段时间,即指事情持续了多长时间。在本章指单纯的段时 间表达,例如,18 个月,三周,九天等等。 时间词是指分词系统标记为一个单独的词,但是能够表示时问信息的词。比如 早晨、除夕、将来、清明“1 等等。 以“西班牙3 1 i 爆炸案语料”和“海啸语料”作为实例来进行分析,我们可以 看到在新闻语料的文本中时间表达可能精确到几分几秒,对时唰的精度要求比较高, 所以本章中将时问的处理粒度定为“tjm e ”,它包括上午,早晨,1 2 点一刻,j l 几秒等这样的时问表示。 3 2 文本格式的预处理 本章的研究对象是新闻语料中的一般时叫短语。新闻语料具有突发性和时效性 的特点,在事件发k l - 1 1 3 几i - 1 内会有大量报道。这样我们可以从例络f 载相关主题的 第兰章一般时问氰l 语的l h 刖 新闻语糊来进行处理。但是从网络上下载下来的新闻语料不能直接作为h 寸l m j 短晤识 别的文本输入,需要对这些语料做一定的处理刊能进行时刚短语识别。i n l l :l ;,首先 我们要把从网络l 下载下来的新闻浯料转变为纯文本格式,去掉其中的不相关信息, 如网页目录、网页链接、图片等。文本格式处理完之后,还要对这些语料进行分词 和词性标注。 我们使用由山西大学计算机应用研究所丌发的分词处理软件“分词2 0 0 0 ”对文 本进行分词处理和词性标注州。 比如我们的已转变为纯文本格式的浯料原文为:人民网巴黎3 月1 1 日电记者张 祝基报道:西班牙首都马德里今早发生4 次恐怖爆炸 进行分词和词性标注后的语料文本为:人民网n i 巴黎1 1 s3 1 1 月1 1 t1 1m 日 n t 电n 记者n 张祝基n h 报道v :w p 西班牙i t s 首都1 1 马德里ns 今早n t 发生v4m 次q 恐怖v 爆炸v 3 3 一般时间短语的识别 从文本中,我们也可以看到时间信息的表现形式具有多样性和复杂性。同一个 时间可以用多种形式表述,比如“2 0 0 5 年12 月25 日”,它可以简写成“2 0 0 5 - 1 2 - 25 ”, 也可以写成“2 0 0 5 年圣诞节”,如果我们在“20 0 5 年12 月2 6 日”描述这个u c f 自l , 我们可以说成“昨天”。虽然时间信息在形式上的多样化有规律可循,但是由于它 往往和上下文信息以及语意信息结合在一起,使得时间信息拙取非常复杂,例如“从 20 0 4 年一季度至2 0 0 4 年二季度”。为了能够识别复杂的一般时问短语表达,我们 采用分两步的识别方法,第一步我们识别文本中单独简单的时间表达,例如:时间、 日期、时间词、段时间:然后利用上下文有关的模板匹配规则把单独的时问表达结 合成复杂的时间表达。 331 一般时间表达的模板规则 汉语的时问信息表达灵活多样,时问、r 期、段时问和时间词,他们本身相互 之问可以组合成复合时间短语,【卫可以通过时间副词、时间位置词和介词组合形成 复杂的时问短语,比如“今天上午12 点3 0 分”、“自p20 0 5 年9 月1 日n t 起n d 至p200 5 年9 月3 0 日n t 止n d ”等。因此,为了准确的识别这些复杂的时间表 达形式,需要定义一些符合汉语时间表:达习惯的模板规则,使用这些定义好的规则 匹配基本的时问j 表达,从而形成复杂的时删表达。 本章中,我们把一般时问短语的表达模式分为两类,一类是简单的时问表达, 类是复杂的时削表达,它i i w , j 定义形式如下: a 简单

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论