




已阅读5页,还剩120页未读, 继续免费阅读
(信号与信息处理专业论文)信息抽取中关键技术的研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京邮电大学博士学位论文 摘要 信息抽取中关键技术的研究 摘要 随着i n t e m e t 技术的不断发展和网上电子文本的日益增多,使得用户从 网上获取有效信息变得日趋困难。面对信息爆炸带来的问题,亟需一些智 能化工具来帮助人们从海量信息中获取真正需要的信息,信息抽取正是基 于这一需求而产生的。信息抽取目前已经成为人们研究的热点,根据 a c e ( a u t o m a t i cc o n t e n te x t r a c t i o n ) 会议评测任务的划分,它主要研究命名实 体识别、实体关系抽取、指代消解、事件探测这四个领域。其中,实体识 别和关系抽取又是这些任务中最重要的部分。本文对信息抽取技术的研究 主要集中在命名实体识别和实体关系抽取两个方面,将先进的机器学习算 法和全新的理论方法一全信息理论运用到我们的整个研究过程中。本文的 贡献主要有以下几个方面: 1 、提出了一种专家知识和多模型相结合的命名实体识别方法,充分考 虑了专家知识在命名实体识别中的作用。根据实体类型的不同,分别采用 不同的实现方法,人名、地名识别采用先规则后统计的方法,而组织机构 名识别则采用先统计后规则的方法。统计学习方法应用了最大熵( m a x i m u m e n l m p y ,m e ) 和条件随机场( c o n d i t i o n a lr a n d o mf i e l d s ,c r f s ) 算法。 命名实体识别的主要贡献详细描述如f : 首先,命名实体识别系统利用专家知识和规则进行人名、地名的候选, 然后再将候选的实体输入统计模型进行判断,其中,在处理候选人名时, 为了防止一个外国译名被部分识别为一个或几个中国人名,提出了动态优 先级方法,该方法首先建立高频的歧义字,这些字既可用作中国人名的姓 氏,又可经常出现在外国译名中,实体识别系统在处理候选人名时一旦遇 到这些高频歧义字,利用前后向探测方法灵活地调用中外人名识别模型, 实验证明,该方法极大地提高了人名识别的性能指标。地名的候选也充分 利用了“省、市、山、湖、自治县”等明显的后缀信息以及“奔赴、赴、 故都”等前缀信息,作为触发地名识别模块工作的条件。模型中的特征包 括了各个层面:实体的上下文环境、上下文的特定语义、实体中不同字或 词对实体识别的贡献度等。本文使用了概率信息,增强了样本的差异性, 北京邮电丈学博士学位论文摘要 提高了人名、地名识别的召回率和准确率。除此之外,还首次提出自信度 函数、顺序等特征,这些特征在实体识别中发挥了巨大作用。 其次,细化分类模型。为了提高实体识别的性能指标,采用层叠方式的 多模型结构,模型分为中国人名、外国译名、地名和组织机构名等识别模 型,针对不同的模型抽取了不同的特征。 第三,由于组织机构名长度不一,很难直接用规则的方法进行机构名 候选,因此,本文采用先统计后规则的方法,并借鉴了短语识别技术,与 常用的短语b i o 识别方法相比,本文定义了b i l o 四类标记,增加一类标 记l 。采用b i l 0 方法,将机构名识别转化为相应的标记分类任务,使机构 名识别任务简单化。并且,本文还针对不同的机器学习方法开发了相应特 征。最后,利用规则特殊模板来识别利用统计方法没有识别出的机构 名。 利用该命名实体识别系统参加了2 0 0 6 年s i g h a n 中的命名实体比赛, 实验语料来自微软亚洲研究院,获取了最好成绩。本文还利用1 9 9 8 年1 月 的人民日报进行实验,对比了m e 、c r f s 用于汉语命名实体识别的实 验结果,通过对结果的分析和比较,表明c r f s 模型在性能上优于m e 模型。 2 、提出了基于c r f s 的实体关系自动抽取方法,主要自动抽取句子中 二元实体之间的关系,主要从以下两个方面完成: 首先,收集和标注语料。以“人事变动”领域为例,基于人民日报 和互联网进行语料收集工作,将收集到的语料进行切分、p 0 s 等预处理后, 再改写为x m l 树。在此基础上,我们标注了三类实体关系:职位、人、公 司三者之间的关系,以及一定数量的反例,从而为后续研究打下基础。 其次,在完成语料的收集、整理和标注工作后,建立了实验系统模型, 利用c r f s 算法进行实体关系的自动抽取实验。针对不同的实体关系选取不 同特征,实验结果证明,c r f s 和其它算法相比,可以有效地解决二元实体 关系的自动抽取问题。 3 、为了正确获取文本中隐含的实体关系并推送给用户一个更完整的结 果,以全信息理论为方法论,在该方法论的指引下,充分利用语法、语义、 语用等方面的知识,挖掘、获取多个实体之间的关系。具体表现为以下两 点: 首先利用机器学习方法获取分析实体关系时必不可少的语法知识,该 语法知识由若干抽取模板组成。为了克服获取大规模标注语料这一困难, 北京邮电大学博士学位论文 提出利用无监督的学习方法 1 0 0 t s t r a p p i n g 方法获取抽取模板,并提出 了层次知识获取模型,该模型由内外两层知识获取模块组成,内外两层模 块互相嵌套获取了实体关系抽取所需的领域专业特征词表和抽取模板库, 从而完成语法知识的获取任务。 其次,建立全信息知识库。采用语义框架的表示方法,结合“模式一 行为”规则,对抽取模板进行语义分析和施效结果分析,挖掘出隐含的实 体关系,同时修正已得到的错误实体关系,通过对最终实体关系的推理和 整合,给用户推送一个完整的结果。实验结果表明,基于全信息的实体关 系获取方法能有效地解决多个实体关系的同时获取问题。 关键词:命名实体识别实体关系抽取全信息最大熵条件随机场 北京邮电大学博士学位论文 r e s e a r c ho nk e yt e c h n o l o g i e so ft h e i n f o r m l 们i o ne x t r a ( 习 i i o n w i t ht h ed c v e l o p m e n to ft h ei n t e m e tt e c h n o l o g ya i l dg r o w t t io ft h en u m b e ro f e l e c t r o n i ct e x t ,w h i c hh a sc a u s e dt h ed i f f i c u l t yw h e nt h eu rw a n tt og e tm o r e i n t e r e s t i n gi n f o n i l a t i o nf r o mw e b s o m ei n t e l l i g e n t i z c dt o o l sh a db e e np r o p o s e d t os o l v et h es e ai n f o 瑚a t i o np m b l e m i n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yi so n e o f t h e m ; t h e p u r p o s e o fi n f o r m a t i o ne x t r a c t i o n s y s t e 】= n s i st oe x t r a c t d o m a i n - s p e c i f i ci n f o r m a t i o n f r o mn a t l l r a l l a n g u a g et e x t a c c o r d i n g t ot h e e v a l u a t i o nt a s ko fa c ec o n f e r e n c e t h ei n f o 瑚a t i o ne x t r a c t i o nh a db e e ns t i l d i e d i n c l u d i n g : n a m e de n t i 哆 r e c o g n i t i o n ,e n t i t y r c l a t i o n e x t r a c t i o n ,a n a p h o r a i e s o l u t i o na n de v e n td e t e c t i o n o u rr e s e a r c hh a db e e nc o n c e n t r a t e do nn a m e d e n t i t yr c c o g n i t i o na n de n t 竹r e l a t i o ne x t r a c t i o n t h ea d v a n c e dm a c h i n el e a m i n g a l g o f i t h ma n dc o m p r e h e n s i v ei n f o 珊a t i o n1 1 l e o f y ( c i dh a db e e na p p l i e d d u r i n go u rw o r k 1 an e wa p p r o a c ho f m b i n i n gs t a t i s t i c a lw i mm l e - b a s e dw a sp m p o s e dt o s o i v en a m e de n t i t yr e c o g n i t b n ,h u m a nk n o w l e d g eh a db e e nf u l l yc o n s i d e r e d a l s o a c c o r d i n gt od i f 艳r e n te n t i t y ,m e t h o di sd i f f e r e n t p e f s o na n dl o c a t i o nh a d b e e nr e c o g n i z e dw h e nt h em l e - b a s e da r ee a r l i e rt h a ns t a t i s t i c a l ,t h eo 玛a n 泣a t i o n r e c o g i l i t i o ni so p p o s i t e t l l em a x i 砌me n t m p y ( m e ) a n dc o n d i t i o nr a n d o m f i e l d s ( c r f s ) a l g o r i t h m sh a db e e nu s e df b ro u rs t a t i s t i c a lm e t h o d n l em a i n c o n t r i b u t e sa r el i s t e da sf b l l o w : f i r s t l y ,b e f b r et h ei e c o g n i t i o no ft h ep e r s o na n dl o c a t i o n ,w ec o l l e c tc a n d i d a t e p e r s o na n dl o c a t i o nw i t hn i l ea tf i r s t ,t h e n ,s e n dt h ec a n d i d a t ee n t i t i e s i n t o r e l e v a n tm o d e l t or e c o 伊i z e w ep r o p o s ead y n a m i c p r i o r i t ym e t h o dt os o l v et h e p r o b l e mt h a t s e c t i o no fa f o r e i g np e r s o n a ln a m ew o u l db e c o l l e c t e do r r e c o g f l i z c d a sc h i n e s e s p e f s o n a ln 锄e ,w e c o l l e c ts o m eh i g h矗e q u e n c y a m b i g u o 吣c h a r a c t e r sw h i c hc a nb eu s e db o t hi nac h i n e s es u m a m ea n da 北京邮电大学博士学位论文 a b g 玎乙研 f o r e i 印p e r s o n a ln 锄e ,o u rm e t h o di st h a ts e a r c h i n gf o 懈a r da n db a c h a r d i i l c o n t e x tt of i i l ds o m ec h a r a c t e r sw h i c hm a y b eb e l o n gt oa l i n e s ep e r s o n a ln a m e o rf o r e i g np e r s o n a ln a m e ,a c c o r d i n gt 0t h er e s u l t so fc o l l e c t i o n ,t h ea p p r o p r i a t e 埘【o d e lw i l lb ec h o s e nf o rt h ec 柚d i d a t cp e r s o n a ln a m et o 舢g n i z e ,e x p e r i m e n t s s h o wt h a td y n a i i l i cp r i o r i t ) r 忙t h o di sp r o m i s i n g ,t h er e c a l la n dp r e c i s i o n0 f p e r s o n a ln a m er e c o g n i t i o nh a v eb t 七ni m p r o v e d l o c a t i o nn a m e s o f t e ne n dw i t h t h es o m es p e d f i cw o r d sl i k e “省p r o v i n c c ”,t h ed i f f e r e n c eb e t 、) l ,e e nl o c a t i o n n a m e 坂沁g i l i z i n gw i i hp c 塔o nr e c o g i l i z i i l gi sd i f f e r e m 辩a r c hd i r e c t i o nw h e n c o l l e c t i n gc a i l d i d a t ce n t i t y w ed e s i g nt h ef o l l o w i n gf c a t l l r e sf o rr e c o g n i t i 彻 m o d e l s :e n t i t yc o n t e x t u a ls u 肿岫d i n g s ,s p e c i f i ce n t i t yc o n t e x t l l a ls e m a n t i ca i l d t h ed i f f e r e n tw o r do rc h a r a c t e rc o n n i b u t i o nd e 静e ef o lr e c o g n i z i n ge n t i t y , c o n s i d e r i n gt h i s ,w ep m p o s eap r o b a b i l i s t i cf e a t u r c ,w h i c hw i l lb ei l l s t e a d e do f t h eb i n a r yf e a t u r cf o rp e r s o nr c c o 愕n i t i o n ,a n dd i s t i n g l l i s hd i 虢r e n c eb yu s i n g d i f f e r e n tp r o b a b i l i t yv a l u e sf e a t u r e ,t h i s 西v e sm o d e lt h ec a p a b i l i t yo fe x p l o r i n g f i n e 卜g r a i nd i f f e r e n c ei ni n s t a n c c s p r o b a b i l i s t i cf e a t u r e i so n eo ft h es e v e r a l d i f f e r e n c e sb e t w e e no u rm o d e la n dt h em o s to ft h ep r e v i o u sm o d e l ;w ea l s o e x p l o r es e v e r a ln e w f e a t i l r c si l lo u rm o d e l ,w h i c hi n c l u d e sc o n f i d e n c ef u n c t i o n s , p o s i t i o no ff e a t l l r e se t c s e c o n d l y ,w eu s et h ec a s c a d em u l t i m o d e l s t oi m p r o v et h ep e r f o m a n o e ,w e u s es u b - m o d e l st om o d e lc h i n e s ep e 璐o n a ln a m e ,f o r c i g np e r s o n a ln a m e , l o c a t i o na n do 娼a n i z a t i o nr e s p e c t i v e l y ,t h em u l t i m o d e l ss t n l c t u r ei sc a s c a d e w a y a lt h es a m et i m e ,w eb r i n gs o m en e wt e c h n i q u e si nt h e s es u b m o d e l sw i t h d i f f e r e n tf 色a t i l r c s 耽i f d l y ,t h eo r g 觚i z a t i o nr e c o g n i t - d nm c t h o di sd i 蠹;e r t 自r o l nt h a t0 ft h e p e r s 伽a n dl o c a t i o n ,b e c a u s e o fm ec h a n g eo fl e n g t h ,w eu s et h ep h r a s e r e c o 铲i t i o nt e c h l o g y ,w ed e s i 龋f o u fl a b e l st 0f 。c 0 鲫i z eo 珞a n i z a t i o n ,加dt h e t a s ko ft h eo 玛柚i z a t i o nr e c o g n i t i o nc 龃b es i i n p l i f i e di i l t 0t h et a s k0 ft l l el a b e l r e c o g n i t i o n f i n a l l y ,、) l j r e t o o kp a r ti nt h es i g 础蝌( 2 0 0 6 ) e n t i t yr c c o g i l i t i o no p e nt r a c k c o n t tf o rm i c r 0 f tr e s e a r c ha 6 i a ( m s r a ) c o 巾l l s ,锄da c h i e v e dt h eh i g h e s t f - m e a s u r c ,b u ta l s 0 ,w ea l s o 髑e7 mc 0 印i l so fo n c - m o n t hp e o p l e sd a i l y ( j a n u a 彤1 9 9 8 ) t om a k ee x p c r i l l l e n t w er c s p e c t i v e l ya p p l ym e 勰dc r f s v 北京邮电大学博士学位论文 a 1 9 0 f i t h m st o l v en a m e de n t i t yr 唧g n i t i o n t h ee x p e r i m e n t ss h o wt h a tc r f s i sb e t t e rm a nt l l eo t h c ra p p r o a c h 2 w r cp r o p o s ea na u t o m a t i ce m i t ) rr e l a t i o ne x t r a c t i o na p p f o a c hb a s e do nc r f s , w ee x t r a d e df e l a t i o nb e t w e e nt w d 锄t i d e si nas e n t e n c c 0 u rw o r k n c e n t r a t e s o n : f i r s t l y w ec o l l e c t 跏dt a gc o r p 瞻b a s e do nt h c “m 柚a g e m c n ts u c c e 鼹i o n ” d o m a i n ,w ec o l l e c tt h ec o r p 惦如mt h ei n t e m c t 柚dp e 叩l c sd a i l y a f t e r p r e p r o c c s s e ds t e p ss h o u l db c 叩p l 湖:w o r ds e g m e n t a t i o n ,p o st a g g e d ,t h e n ,t h e c o n t e x ta r e 伽l v e n e di n t ox m lf b 姗a t b a s e do nt h ep 眦e s s e dc o r p u s ,w et a g m a n u a l l yt h r c ee n t i t yr e l a t i o nt y p e 勰dt h en u m b e ro fn e g a t i v ei n s t a n c e si nt h e d a t as e t ,t h er e l a t i o na r ea m o n gp o s i t i o n ,p e r s o na n dc o m p a n y ;t h i st a g g e dw o r k i st h ef o u n d a t i o ni nm yf o l l o w i n gr e s e a r c h s e c o n d l y ,b a s e dt h et a g g e dd a t as e t ,w ep f o p o s ean e wa p p r o a c ht os o l v et 1 1 e a u t o m a t i ce n t i t yf c l a t i o ne x t r a c t i o nb a s e do nc r f s ,w ec o n s t m c t es y s t e m a r c h i t c c m f ei no r d e rt 0 托a l i z ef e l a t i o ne x t f a c t i o ne x p e r i m e n t b e s i d e s ,w e c h 0 0 s et h ed i f e r c n tf e a t i i f ef o rt h ed i f f b r c n tr e l a t i o ne x t r a c t i o nt y p eb a s e do n c r f s ,w h i c hi l l c l u d c sm o r p h o l o g y ,g r a m m a ra n ds e m a n t i cf e a t l l r e f i n a l l y ,w e c o m p a t et h ep c r f o f i i l a n c eb e 俯e c nm e a n dc r f s ,t h ee x p 盯i m e n t ss h o wt h a t c r f si sb e t t e rt h a nt h eo t h e ra p p r o a c h e s 3 w 色p r 叩o s ean e we n t i t yr e l a t i o ne x t r a c t i o na p p r o a c hb a s e do nc i t i nt h i s p a p e r ,w i t h t h e h e l p o fc i t w eu s es y n t a c t i c , s e m a n t i ca n d p r a g m a t i c k n o w l e d g et oe x c a v a t et h ei m p i ye n t i t yr e l a t i o na n dc l e a rr e l a t i o na m o n g e n t i t i e s a tt h es a m et i m e 0 u rw o r kc o n c e n t r a t e so n : w 色f i f s t l ya c h i e v e t h e s ”t a c t i ck n o w l e d g eb a s e d 伽m a c h i n el e a m i n g a l g o r i t h m ,w h i c ha r cc o m p o s e do fm a n ye x t r a c t i o np a t t e m 【) i l ot ol a c ko ft h e t a g g e dc o 印u s ,w ep f o p o s et h eu n s u p e r v i s e dl e 啪i n gm e t h o dt og e tp a t t e m s , b a s e do nt h eb o o t s t r a p p i n ga l g o r i t h m ,w ed e s i g nt h eh i e r a r c h yk n o w l e d g e e x t r a c t i o nm o d e lw h i c hi 1 1 c l u d i n gt h ei n n e rs p e c i f i cw o r de x t r a c t i o nm o d e la n d o u t e rp a t t e me x t r a c t i o nm o d e lc a nb en e s t e de a c ho t h e rt oe x t r a c ta u t o m a t i c a l l y l 【i l o w l e d g e ,w h i c ht h es p e c i f i cd i c t i o n a r ya n dp a t i e mm l e sc 锄b eu s e df o r t h e e n t i t yr e l a t i o ne x t r a c t i o n w 色b u i l dt h ec o m p r e h e n s i v ei n f o r m a t i o nk n o w l e d g e b a s e w r cu s et h e v i 北京邮电大学博士学位论文 s e m a n t i cf h m em e t h o da n dc o m b i n et l l e “p a t t e m a c t i o n ”t oa n a l y z et h er e s u l to f t h ep a t t e me x t r a c t i 咖,t h e n 、o b t a i nt h ei m p l yr e l a t i o nt h r o u g t la n a l y s i sa n d i n f e r e n c c ,a n dr e 、,i t h ew r o n go b t a i n e de n t i t yr e l a t i o na tt h es a m et i m e t h r o u g ht h ei n f e 埘l c ea n dr c v i s i i l gf o rt h ef i n a lr c s u l t ,t h ec o m p l e t er c s u l ti ss e n t t ou s e r t h ee x p e r i m e n ts h o w st l l a tt h ea p p r o a c hb a s e dt h ec i tc a nu s e f l l h y 鲥v er e l a t i o ne x 仃a c t i o n 柚1 0 n ge n t i t i 髓 k e yw 0 r d s :n a m e d e n t i t yr e c o g n i t i o n ,e n t i 锣 r c l a t i o n e x t r a c t i o n , c o m p r e h e n s i v ei l l f o 衄a t i o nt h c o r y ,m a ) 【i l n u me n t r 叩y ,c o n d i t i o n “r a n d o mf i e l d s 独创性( 或创新性) 声明 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。 尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人 已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位 或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中 作了明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名: 拯盂盘日期:2 7 ,乃 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究 生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国 家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以 公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇 编学位论文。( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注 释:本学位论文不属于保密范围,适用本授权书。 本人签名:羝童磊 导师签名: 等 日期:砷,乒巧 孰j ;b bh 北京邮电大学博士学位论文 第一章绪论 第一章绪论 随着计算机技术和互联网的迅猛发展,电子可读文本成为现代主要的信息载体,是 人们生活中不可或缺的主要信息来源。信息化时代的来临带来一场“自然语言信息技术 革命”,研究的内容非常丰富,但最本质的核心内容是“自然语言理解”。自然语言理解 是人工智能的重要研究方向,目的是使机器能够在一定程度上理解人类的自然语言,它 是语言学、认知学、信息学的交叉领域,信息检索、信息抽取、数据挖掘、知识发现、 文本分类、内容分析、信息监控、自动文摘、机器学习、机器翻译、人机自然语言对话、 基于自然语言的人机合作等,都是自然语言理解的具体应用。 本文主要探讨自然语言理解的应用之一一信息抽取( i e ,i n f o 咖a t i e x t r a c t i o n ) , 本章详细叙述了信息抽取的相关概念、发展历史以及国内外的研究现状,介绍了本文的 研究内容和取得的主要成果,最后,说明了本文的整体内容安排。 1 1 信息抽取的基本概念 m 是指从一段文本中抽取指定的事件、事实等信息,形成结构化的数据并填入一个 数据库中供用户查询使用的过程。信息以统一的形式集成在一起的好处是方便检查和比 较,例如比较不同的招聘和商品信息,还有一个好处是能对数据作自动化处理,例如用 数据挖掘方法发现和解释数据模型。 i e 与信息检索( i r ,i n f o m a t i o nr e t r i e v a l ) 相比,突破了i r 中必须由人来阅读、理 解、抽取信息的局限性,实现了信息的自动查找、理解和抽取。i e 能进一步精化i r 的 结果,可以用来提高i r 系统的性能,二者的结合能够更好地服务于用户的信息处理需 求。 m 虽然需要对文本进行一定程度的理解,但与真正的文本理解( t c x tu n d e r s t a n d i n l ;) 还是不同的。在i e 中,用户一般只关心有限的感兴趣的事实信息,而不关心文本意义 的细微差别以及作者的写作意图等深层理解问题。因此,匝只能算是一种浅层的或者说 简化的文本理解技术。 北京邮电大学博士学位论文第一章绪论 1 2 信息抽取研究现状 1 2 1 信息抽取的发展简史 m 最早开始于2 0 世纪6 0 年代中期,从自然语言文本中获取结构化信息,这被看作 是m 技术的初始研究,它以两个长期的、研究性的自然语言处理项目为代表。 美国纽约大学开展的u n g i l i s t i cs t 咖g 项目 1 开始于6 0 年代中期并一直延续到8 0 年代。该项目的主要研究内容是建立一个大规模的英语计算语法,与之相关的应用是从 医疗领域的x 光报告和医院出院记录中抽取信息格式( m f o 珊a t i f o 咖a t s ) ,这种信息格 式实际上就是现在所说的模板( t e m p l a t e s ) 。 另一个相关的长期项目 2 是由耶鲁大学r o g c rs c h 觚k 及其同事在2 0 世纪7 0 年代 开展的有关故事理解的研究。由他的学生c e f a l dd ej o n g 设计实现的f r u m p 系统是根 据故事脚本理论建立的一个m 系统,该系统从新闻报道中抽取信息,内容涉及地震、 工人罢工等很多领域或场景。该系统采用了期望驱动( t o p d o w n ,脚本) 与数据驱动 ( b o t t o m u p ,输入文本) 相结合的处理方法,这种方法被后来的许多l e 系统采用。 从2 0 世纪8 0 年代末开始,信息抽取研究蓬勃开展起来,这主要得益于消息理解系 列会议( m u c ,m e s s a g eu n d e 陪t a n d i n gc o n f c r c n c e ) 的召开。正是m u c 系列会议使m 发 展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展。 从1 9 8 7 年开始到1 9 9 8 年,m u c 会议共举行了七届,它由美国国防高级研究计划 委员会( d a r p a ,t h e d e f c n a d v a n c c dr c s c a r c h p m i e c i s a g c n c y ) 资助。m u c 的显著特 点并不是会议本身,而在于对i e 系统的评测( 3 。各届m u c 吸引了许多来自不同学术 机构和业界实验室的研究者参加l e 系统竞赛,每个参加单位根据预定的知识领域,开 发一个m 系统,然后用该系统处理相同的文档库,最后用一个官方的评分系统对结果 进行打分。 研讨会的目的是探求m 系统的量化评价体系。在此之前,评价这些系统的方法没 有章法可循,测试也通常在训练集上进行。m u c 首次进行了大规模的自然语言处理系 统的评测,如何评价m 系统由此变成重要的问题,评分标准也随之制定出来。各届研 讨会的测试主题各式各样,包括拉丁美洲恐怖主义活动、合资企业、微电子技术和公司 管理层的人事更迭。 m u c 会议对m 这一研究方向的确立和发展起到了巨大的推动作用,m u c 定义的 正任务的各种规范以及确立的评价体系已经成为研究事实上的标准。 m 研究成果丰硕,英语和日语姓名识别的成功率达到了人类专家的水平。不过自 2 北京邮电大学博士学位论文第一章绪论 1 9 9 3 年以来,每届最高组别的有些任务,其成绩一直没有提高( 由于m u c 的任务一届 比一届复杂) 。还有一个显著的进步是,越来越多的机构可以完成最高组别的任务,这 要归公于技术的普及和整合。目前,建造能达到高水平的系统需要大量的时间和专业人 员,另外,目前大部分的研究都是围绕书面文本,而且只有英语和其他几种主要的语言。 除广泛的应用需求外,正在推动m 研究进一步发展的动力主要来自美国国家标准 技术研究所( n i s t ) 组织的自动内容抽取( a c e ,a u t o m a t i c c o n t c n t e x 仃a d i ) 评测会议, 迄今已经举办过六次评测( 2 0 0 0 年5 月、2 0 0 2 年2 月、2 0 0 2 年9 月、2 0 0 3 年1 0 月、 2 0 0 4 年8 月、2 0 0 5 年1 1 月) 。这项评测研究的主要内容是自动抽取新闻语料中出现的 实体、关系、事件等内容,即对新闻语料中实体、关系、事件的识别与描述。与m u c 相比,目前的a c e 评测不针对某个具体的领域或场景,采用基于漏报( 标准答案中有而 系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基础的一套评价体系,还 对系统跨文档处理( c r o s s d o c u m e mp r o c e s s i n g ) 能力进行评测。这一新的评测会议将把 l e 技术研究引向新的高度。 近几年,m 技术的研究和应用更为活跃。在研究方面,主要侧重于以下几个方面: 利用机器学习技术增强系统的可移植能力、探索深层理解技术、篇章分析技术、多语言 文本处理能力、w e b 信息抽取( w r a p p c r ) 以及对时间信息的处理等等。在应用方面,匝 应用的领域更加广泛,除自成系统以外,还往往与其他文档处理技术结合建立功能强大 的信息服务系统。 1 2 2 国外研究现状 在国外,i e 的研究已经在某些特定领域町以达到实用化,目前已经有不少i e 技术产 品,本节主要详细介绍以下三个系统。 ( 1 ) s r v 系统 d f r e i 扭g 开发的s r v 4 系统( s e q u e n c cr u l e sw i t hv a l i d a t i 彻,带确认功能的次序 规则) 用于讲座信息的抽取,把讲者、地点、时间等信息抽取出来。 s r v 采用一种自上而下、关系型的信息抽取算法。其输入是一系列的网页,上面标 记了待抽取区域的实例( i n s t a n c c ) ,以及一系列基于字串( t o k c n ) 的特征,输出是一系列 的抽取规则。 s r v 利用的特征分两种:简单特征和关系特征。字词的长度、类型、拼写、词性等, 属于简单特征。关系特征反映字词的相邻度,正是这一特征使s r v 具有关系型的特点。 s r v 的学习素材包括训练集文档中与最短实例区( f i e l di n s t 柚) 一样长( 以词的 3 北京邮电大学博士学位论文 第一章绪论 个数计算) 的字串,但不能长过最长的实例。抽取过程即是检验长度适合的字串是否与 规则匹配的过程。 ( 2 ) s t a ik e r 系统 m u s l c a ,s 开发的s 1 a i k e r 5 系统被用来抽取不同网站上的餐厅信息,如餐厅名 称、菜肴种类、价格、烹调方法,地址、电话和评价。 s t a i k e r 系统采用指导学习的算法归纳抽取规则,训练例子由用户提供,用户需 选择若干样例页面并把有用的数据( 即所谓“e c 树”的叶子) 标记出来。页面被标记 好后,系统可生成一个符号序列( t h cs e q u e n c eo ft o k e n s ) ,用来表示页面的内容,还生 成代表信息点开始的符号索引。符号系列( 字、h t m l 标记) 和通配符被作为定位标志, 用于找到页面上的数据。分装器归纳算法产生抽取规则并表示为简单的标志语法 ( 1 柚d m a r k - 孕锄m a 墙) ,此法可处理文本,但不能处理链接信息。s t a l k e r 采用线性覆 盖算法( s c q u e n t i a l o o v e r i n g a l g o r i t h m ) ,首先生成线性标志自动机( 1 卸d m a r ka u t o m a t a ) , 这些自动机能产生尽可能多的训练正例( p o s i t i v et m i n i n ge x 锄p l e s ) ,该自动机实际上是 一个“非确定有限自动机”,其状态的变化只有在字符串输入为了目前状态与下一状态 问的转换而被接受时才发生,然后系统试图生成新的自动机以覆盖剩余的例子,一直到 所有的训练例子都被覆盖为止。这时,s 1 札k e r 返回一个被称之为s u g ( 简单标记语 法) 的解决方法,其每个分支都对应一个学习获得的标记自动
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025湖北省全日制劳动合同样本
- 2025补充合同范本示例
- 2025劳动合同解除协议书范本专业版版
- 老年出游安全培训
- 2025企业安全管理人员聘用合同
- 2025标准股权合作协议范本
- 2025跨境电商合作的合同模板
- 老年人肾病课件
- 2025新版门面铺面租赁合同3篇
- 2025年合同订立的原则与关键注意事项
- 5G-Advanced通感融合网络架构研究报告(第二版)
- 五倍子提取物对临床分离鸡源大肠杆菌的抑制作用研究
- 2025年反洗钱知识竞赛多选题库及答案(共70题)
- 2025时事政治考试题库及参考答案(公职考试)
- 2025年秋苏教版小学科学四年级上册教学计划
- DB32 T538-2002 江苏省住宅物业管理服务标准
- 农业可持续发展指标体系
- 2024年危险化学品经营单位主要负责人试题题库
- 2024届贵州省贵阳市高三下学期适应性考试(二)物理试题
- 癌因性疲乏治疗指南
- 大象版(2024)小学科学一年级上册教学设计(附教材目录)
评论
0/150
提交评论