




已阅读5页,还剩120页未读, 继续免费阅读
(计算机应用技术专业论文)互联网半结构化信息抽取研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中同科学技术人学博i + 学位论史摘婪 摘要 近年米,互联网的迅速发展导致人鲑y l - 4 i i , 结构化特征的信息山现( 例如e m a i l 利网页 笛) 。对该类信息进行管理的需求促使、r 结构化信息抽取成为自然语言处理领域的研究热点。 米源丁且联网的、r 结构化信息可以分为具有较强句法结构的、p 结构化文本( 例如e m a i l 平求 j f i 简历) 和:l 仃较强格式规仆l 。i j 刚贝。、r 自1 i 构化信息抽般研究划致n 0 特殊起渊,以及j f 琏例 - - 信息数埘人、信息类喇多的特_ i ,导致心川_ r 、l i 纳年勾化信息的俯息舢取方“:必须同叫针刘 信息数罐与信心类型具有较好的适应能力。 现有的j i j 结构化文本信息抽墩方法虽然具有较高的信息抽取效率,但是仅适川丁具有简 单上r 文芙系的文本。而对、n 结构化文本的特征分析表明,一些i - 结构化文本具有复杂的上 f 文芙系,并且常常包含! j 目标信息特征相似的噪声信息。使用现有的信息抽取方法从这些 文奉中j 山般信息,会山现信息抽取模型与文本上。f 文关系不匹配,或者抽取冗余信息等问题, 导致信息抽圾方法针对信息类型的适应能力降低。此外,在现有的网页信息抽取方法中,基 丁包姨器门纳的方法的抽取效率高并且易于实现,闭此得剑广泛j 节j l j 。但是,该方法利川网 页的局部正复结构生成包姨器,无法考虑刚页的全局信息,蚓此当删贝中存以二局部结构特征 相似的多类信息时会山现由丁信息定位不准确导致的冗余信息抽取错误,导致该方法针对 信息类小的适应能力f 降。 本 尊十论文以提高p 结构化信息抽取方法针对信息数最 i l 信,皂类烈的适应能力为目标, 针对上述问题,分别刘、h 结构化文本信息抽收和网页信息抽墩展开研究。贝体完成的l :作呵 以概括为以f 儿点: ( 1 ) 仆埘、旧l ;构化文本信息抽驭存在的问题捉山舣层级i i j 信息抽墩思想:即将文本石 作多层嵌套结构。分别从不同层次的文本中抽取信息。并以此为基础,提出两种信息抽取方 法:一种为基r 分类的烈层级暇信息抽取方法,该方法在每层使分类模,弘实现信息抽取; 另一种为将隐马尔科大模删( h m m ) 与分类相结合的信息抽取方法( 即综台h m m 与分类 的舣层级联信息抽墩方法) ,该方法在不同层次使川不同的棋鼬l l 取信息。本文使川贝有复 杂上f 义笑系非包含噪卢信息灼求雌 简坜对这州黜方法进行实验。实验结果表明,基丁分类 的烈层级联信息抽取方法通过层次化信息抽取,缩小了文本的抽敬范同,提高了包含噪卢信 息的、l i 结构化文本的抽取准确率;而综台h m m 与分类的舣层级联信息抽l 双方法不仪进行层 次化信息j 山取,并且针对不同层次信息使州不同信息抽取模型,肉此针对同时具有复杂上f v 中冈币: 学拙术人学溥l 学位论义 摘蜚 文天系和噪卢信息的! 仁结构化文本,有效提高了信息抽墩的准确率年| | 召闸率。 ( 2 ) 采川两种舣层级联信息抽收方法,台作开发了简历白动推荐系统p o l a r i s 。该系统 刺川、p t 构化文本信恩抽墩技术,成功实现j 对简历等、r 结构化文奉的j 动摊荐笛管理功 能。并且,以该系统为,1 台的测试结果嵌叫,使川两利r 舣层级l 【跫信息抽墩方法均可以有效实 现简历笛、p 结构化文本的信息抽取。而且,由j 综台h m m 与分炎的舣层级暇信息抽墩方法 考虑l r 文本的复杂上f 文笑系,因此往、l ! 结构化文本的自动推荐笛麻川t p 具啊l 卫r 的惠h j 前 景。随后,对舣层级j f j 信息抽取方法中的分类模删进行改进,使川基丁主题特征的文本表示 方法代替基丁词语的文本表示方法,以文本分类的准确性,为进一步改进般层级联信息抽取 方法奠定基础。 ( 3 ) 针刘网页信息抽取存任的问题,利州网页结构分析,列垫丁包装器门纳的网页信息 抽取方法进行改进,井捉山一种将结构分析与门纳学习相绡台的信息抽取方法( 即综合结构 分析与p 悖自学习的网页信息抽取肖法) 。该方法利h j 网页结构分析获取的全局信息生成包装 器可以针对具有特征相似的多类信息的网页,有效提高信息抽取的准确率。 ( 4 ) 以综合结构分析与门纳学习的网页信息抽取方法为技术核心,合作开发了互联网竞 争一 撤f l f i 监测系统一c i s n e t 。该系统不仪在互暇网上实时监洲川户感兴趣的m 页,还利川 信息舢取技术从网页中抽取山指定类刑的信息,r 将其存入数执 _ 7 1 i - 。i o 传统的挫索引擎干 其余信息获取系统相比,该系统i i 仅具有实时处理信息f 由功能并且由 :使川了信息抽取技 术获取的信息更加准确,还可以供h j 户巫复使_ l i ,提高了信息的使川效率。 针对以上研究本文住以f 方面贝有创新与特色之处: ( 1 ) 提山基丁分类的域层级联信息抽敷方法,j 书丁半结构化文本的信息抽取。该方法利 _ l i 、| j 结构化文本的结构特征,层次化地抽取信息。实验证明,针对包含噪声信息的! 毫结构化 文本该方法有效抛高了信息抽墩的准确率,保证了信息舢取方浊刘丁不同类删的、r 结构化 文本的近成能力。 ( 2 ) 提 u 综台h m m 与分类的舣层绒暇信息抽取力法,j 1 j1 。l 结构化文本的信息抽取。 该方法不仪利州,h 结构化文本的结 勾特征层次化地抽取信息,j f :且针对不同层次的信息采川 不同的信息抽取模型。实验证明,对于同时具有复j b 上下文关系和噪卢信息的i i ? 结构化文本, 该方法可以有效提高信息抽取的准确率利钊同率再次增强了信息抽墩方法对于信息类型的 适意能力。 ( 3 )提出综合结构分析与门纳学习n 勺信息抽取方法,川r 网页信息抽取。该方 玄利用网 v l 摘喽 贝绱构分析扶得的全崩信息,上成色驶器,订敛) 0 1 1 决_ 丛j :包城器pl 纳的l 卅贝f i 息拙圾力法无 法庇川心页全局信息的问题。实验证明,针对具有特征相似的多类信息的网页,该方法可以 获得较高的信息抽取准确率平召同率,有效提高了信息抽墩方法针对信息类玳的适应能力, 并l i j l 确较好的席川前景。 关键词:信息抽驳,、i 绌构化信息,、j i 1 构化文本,网页,h 联网。自然语青处理 v 中旧科学技术人学 冉j 学位论文 a b s t r a c t a b s t r a c t 、d u r i n gr e c e n ty e a r s ,l a r g ea m o u n to fs e m i - s t r u c t u r e di n f o r m a t i o n ,s u c ha se m a i la n dw e b p a g e ,a p p e a r sa l o n gw i t h t h eq u i c ki m p r o v e m e n to fi n t c m e t b e c a u s eo ft h e s t r o n g r e q u i r e m e n t so fm a n a g i n g t h ei n f o r m a t i o n i n i n t e r a c t ,e x t r a c t i n g i n f o r m a t i o nf r o m s e m i - s t r u c t u r e di n f o r m a t i o nh a sb e e no n eo ft h eh o t t e s tr e s e a r c hp o i n t si nn a t u r a ll a n g u a g e p r o c e s s i n g t h es e m i ,s t r u c t u r e di n f o r m a t i o nc o m i n gf r o mi n t e m c tc a nb ed i v i d e di n t ot w oc a t e g o r i e s : s e m i - s t r u c t u r e dt e x ta n dw e bp a g e b e c a u s eo ft h es p e c i a lo r i g i no fs e m i s t r u c t u r e d i n f o r m a t i o na n dt h el a r g ea m o u n ta n dv a r i o u st y p e so fi n f o r m a t i o ni ni n t e r n e t ,i ti si m p o r t a n t f o rs e m i s t r u c t u r e di n f o r m a t i o ne x t r a c t i o n ( i e ) a p p r o a c ht oh a v eg o o ds c a l a b i l i t yo fb o t h i n f o r m a t i o nq u a n t i t i e sa n di n f o r m a t i o nt y p e s t oo u rk n o w l e d g e ,a l t h o u g hc u r r e n ti ea p p r o a c h e sf o rs e m i - s t r u c t u r e dt e x th a v eg o o d e f f i c i e n c y , t h e ya r eo n l ys u i t a b l ef o r t h et e x tw i t hs i m p l ec o n t e x t u a ls t r u c t u r e w h i l e ,a n a l y s i s o fs e n t i - s t r u c t u r e dt e x ts h o w st h a tm o s to f t h e mh a v ec o m p l e xc o n t e x t u a ls t r u c t u r e ,a n ds o m e o ft h e mc o n t a i nn o i s yi n f o r m a t i o nt h a th o l d st h es a m es y n t a xa st a r g e ti n f o r m a t i o n b e c a u s e o f c o n t e x t u a ls t r u c t u r e n o t m a t c h i n g o rr e d u n d a n ti n f o r m a t i o ne x t r a c t i o n ,e x t r a c t i n g i n f o r m a t i o nf r o mt h e s es e m i - s t r u c t u r e dt e x t sw i t hc u r r e n ti ea p p r o a c h e sm a yr e s u l ti nl o w a c c u r a c y a n dt h e ni tm a yr e d u c et h ei n f o r m a t i q nt y p es c a l a b i l i t yo ft h e s ea p p r o a c h e s s u b s e q u e n t l y f u r t h e r m o r e ,c o n s t r u c t i n gw r a p p e r sa u t o m a t i c a l l yi st h em a i nd i r e c t i o no fw e bi e ,i nw h i c h t h ew r a p p e ri n d u c t i o na p p r o a c hi st h em o s tp r o m i s i n go n e w h i l ei to n l yu s e st h el o c a l r e p e a t e ds t r u c t u r eo fw e bp a g et oi n d u c ee x t r a c t i o nr u l e sa n dc a n n o tc o n s i d e rt h eg e n e r a l i n f o r m a t i o no f w e b p a g e s t h u st h i sa p p r o a c hm a y f a i lw h e nt h e r ee x i s tm o r et h a no n e t y p eo f r e p e a t e ds t r u c t u r e si no n ew e bp a g e ,a n dt h e ni t ss c a l a b i l i t yo fi n f o r m a t i o nt y p e sm a yb e a f f e c t e d t h i sd i s s e r t a t i o na i m sa ts o l v i n gt h ea b o v ep r o b l e m st oi m p r o v et h es c a l a b i l i t yo fb o t h s e m i - s t r u c t u r e dt e x ti ea p p r o a c ha n dw e bi ea p p r o a c h t h er e s e a r c hw o r ko ft h i sd i s s e r t a t i o n c a nb es u m m a r i z e da sf o l l o w s : ( 1 ) t os o l v et h ep r o b l e mo fs e m i - s t r u c t u r e dt e x t1 e ,t h i sd i s s e r t a t i o np r e s e n t st h ei d e ao f c a s c a d e di ea n dt w ok i n d so fi ea p p r o a c h e sb a s e do ni t ,w h i c ha r ec a s c a d e dc l a s s i f i c a t i o ni f a p p r o a c ha n dc a s c a d e dh y b r i di ea p p r o a c h t h ec a s c a d e dc l a s s i f i c a t i o ni ea p p r o a c ha p p l i e s s v mm o d e lt oe x t r a c ti n f o r m a t i o nh i e r a r c h i c a l l y , a n dt h ec a s c a d e dh y b r i di ea p p r o a c hn o t o n l ye x t r a c t si n f o r m a t i o nh i e r a r c h i c a l l y , b u ta l s oa p p l i e sd i f f e r e n ti em o d e l si nd i f f e r e n t l a y e r s e x p e r i m e n t a lr e s u l t so nr e s u m e ss h o wt h a tt h ec a s c a d e dc l a s s i f i c a t i o ni ea p p r o a c h s u c c e s s f u l l yr e d u c e se x t r a c t i o nr a n g ea n dt h e ni m p r o v e st h ep r e c i s i o nw h e ne x t r a c t i n g i n f o r m a t i o nf r o ms e m i s t r u c t u r e dt e x tw i t hn o i s yi n f o r m a t i o n i na d d i t i o n t h ec a s c a d e d h y br j di ea p p r o a c h i m p r o v e st h ep r e c i s i o na n dr e c a l l o fi n f o r m a t i o ne x t r a c t i o nf r o m s e m i s t r u c t u r e dt e x tw i t hc o m p l e xc o n t e x t u a ls t r u c t u r e sa n dn o i s yi n l b r m a t i o na tt h es a m e t i m e ( 2 )m o r e o v e r , ar e s u m er e c o m m e n d a t i o ns y s t e m - p o l a r i si sd e v e l o p e dw i t ht h ea b o v e t w oc a s c a d e di ea p p r o a c h e s t h i ss y s t e mc a na u t o m a t i c a l l yr e c o m m e n dp r o p e rr e s u m e st o m a n a g e r sa n dh e l pe n t e r p r i s e sm a n a g et h e s er e s u m e ss u c c e s s f u l l y e x p e r i m e n t a lr e s u l t sb a s e d x 中罔科学技术人学博十学位论文a b s t r a c l o nt h i ss y s t e ms h o wt h a tb o t ho ft h e s et w oa p p r o a c h e sc a ne x t r a c ti n f o r m a t i o nf r o mr e s u m e s a c c u r a t e l y a n dt h e n ,t h ec a s c a d e dh y b r i di ea p p r o a c hh o l d sb e t t e ru t i l i t yi ns e m i s t r u c t u r e d t e x ti ef o ri t sg i v i n ga t t e n t i o nt ot h ec o m p l e xc o n t e x t u a ls t r u c t u r e so fs e m i - s t r u c t u r e dt e x t t h e n ,i no r d e rt oi m p r o v et h ec l a s s i f i c a t i o nm o d e lo fc a s c a d e di ea p p r o a c h e s ,t h i sd i s s e r t a t i o n i m p r o v e st h ew o r df e a t u r e sb yt o p i cf e a t u r e s ,w h i c hi m p r o v e st h ea c c u r a c yo ft e x t r e p r e s e n t a t i o ns u c c e s s f u l l y ( 3 ) t os o l v et h ep r o b l e mo fw e bi e ,t h i sd i s s e r t a t i o np r e s e n t sa ni m p r o v e da p p r o a c h , w h i c hs y n t h e s i ss t r u c t u r ea n a l y s i sa n di n d u c t i o nl e a r n i n g w i t ht h eg e n e r a li n f o r m a t i o n o b t a i n e df r o ms t r u c t u r ea n a l y s i s ,t h i sa p p r o a c hg e n e r a t e sw r a p p e r sw i t ht h eg e n e r a l i n f o r m a t i o nt oi m p r o v et h ea c c u r a c yo fw e bi ef r o mw e bp a g e sw i t hm o r et h a no n er e p e a t e d s t r u c t u r e s ( 4 ) t ov a l i d a t et h i si m p r o v e dw e bi ea p p r o a c h ,a ni n t e r n e ti n f o r m a t i o ni n s p e c t i o n s y s t e m c i s n e ti sd e v e l o p e dw i t ht h i sa p p r o a c ha st h em o s tc r u c i a lt e c h n o l o g y t h i ss y s t e m i n s p e c t sw e bp a g e st h a tu s e r c a r e sf r o mi n t e r n e ta n de x t r a c t si n f o r m a t i o nf r o mt h e m c o m p a r e dw i t hs e a r c he n g i n e sa n do t h e ri n f o r m a t i o nr e t r i e v a ls y s t e m s ,t h i ss y s t e mc a nn o t o n l yp r o c e s si n f o r m a t i o ni m m e d i a t e l y , b u ta l s oo b t a i ni n f o r m a t i o nm o r ea c c u r a t e l ya n dr e u s e i n f o r m a t i o nf o rt h eu s a g eo fi et e c h n o l o g y t h ef o l l o w i n gp o i n t sa r ep i o n e e r i n gw o r ko f t h i sd i s s e r t a t i o n : ( 1 ) i tp r o p o s e sac a s c a d e dc l a s s i f i c a t i o ni ea p p r o a c h ,t ob eu s e di ns e m i - s t r u c t u r e dt e x t i e t h i sa p p r o a c he x t r a c t si n f o r m a t i o nf r o ms e m i - s t r u c t u r e dt e x th i e r a r c h i c a l l yb a s e d o nt h es t r u c t u r eo fs e m i - s t r u c t u r e dt e x t e x p e r i m e n t a lr e s u l t ss h o wt h a tb yr e d u c i n g t h ee x t r a c t i o nr a n g e ,t h i sa p p r o a c hi m p r o v e st h ep r e c i s i o no fi n f o r m a t i o ne x t r a c t i o n f o r ms e m i s t r u c t u r e dt e x tw i t hn o i s yi n f o r m a t i o ns u c c e s s f u l l ya n de n s u r e st h eg o o d s c a l a b i l i t yo fi n f o r m a t i o nt y p e s ( 2 ) i tp r o p o s e sac a s c a d e dh y b r i di ea p p r o a c h ,t ob eu s e di ns e m i - s t r u c t u r e dt e x ti e t h i sa p p r o a c hn o to n l ye x t r a c t si n f o r m a t i o nh i e r a r c h i c a l l y , b u ta l s oa p p l i e sd i f f e r e n t l em o d e l si nd i f f e r e n tl a y e r s e x p e r i m e n t a lr e s u l t ss h o wt h a ti tc a ni m p r o v et h e p r e c i s i o na n dr e c a l lo fs e m i s t r u c t u r e dt e x tw i t hc o m p l e xc o n t e x t u a ls t r u c t u r e sa n d n o i s yi n f o r m a t i o ns u c c e s s f u l l y , a n dt h e ni m p r o v et h es c a l a b i l i t yo fi n f o r m a t i o nt y p e s c o n s e q u e n t l y ( 3 ) i tp r o p o s e saw e bi ea p p r o a c ht h a ts y n t h e s i z e ss t r u c t u r ea n a l y s i sa n di n d u c t i o n l e a r n i n g t h i sa p p r o a c hu s e st h eg e n e r a li n f o r m a t i o no b t a i n e d f r o ms t r u c t u r e a n a l y s i st og e n e r a t ew r a p p e r s i ti m p r o v e st h ea c c u r a c yo fi n f o r m a t i o ne x t r a c t i o n f r o mw e bp a g e sw i t hm o r et h a no n e r e p e a t e ds l r u c t u r e ss u b s e q u e n t l y e x p e r i m e n t a l r e s u l t sp r o v et h a ti ts o l v e st h ep r o b l e mt h a tw r a p p e ri n d u c t i o na p p r o a c hc a no n l yu s e l o c a li n f o r m a t i o ns u c c e s s f u l l y , a n dt h e ni m p r o v e st h es c a l a b i l i t yo fi n f o r m a t i o nt y p e s t h u si th a sg o o da p p l i c a t i o nf o r e g r o u n d k e y w o r d s :i n f o r m a t i o ne x t r a c t i o n ,s e m i s t r u c t u r e di n f o r m a t i o n ,s e m i - s t r u c t u r e dt e x t ,w e b p a g e ,h a t e r n e t ,n a t u r a ll a n g u a g ep r o c e s s i n g x 中罔科学技术人学博i ? 学位论义销一章结论 第一章 绪论 本章摘要:互联网的发展导致大量缺乏完整句法结构并且具有一定格式规律的信 包出现( 例如e m a i l 、同页等) ,人们通常将这些信息称为半结构化信包。对半结构 化信息进行存储与查询的需求促进了半结构化信息抽取研究的发展本章首先介绍 了信息抽取基础,以及半结构化信息在信息抽取研究中的重要地位,然后介绍了半 结构化信息抽取的研究目标,继而分析了半结构化信息抽取的研究现状以及存在的 问题,最后在此基础上,提出了本博士论文的研究思路和研究目标。 1 i 信息抽取基础 1 1 1 信息抽取的产生背景 随着且联网的恃及平l l 计算机在各个领域的j “泛应f l ,以电子形式进行存储的信息逐渐增 多,信息过载成为人们难以同避的问题( m a e s 。1 9 9 4 。信息检索( i n f o r m a t i o nr e t r i e v a l ) r i j s b e r g e n ,1 9 7 9 】可以帮助人们从网络上快速寻找到所需的信息,但是无法对检索剑的信息 进行理解,导致_ l j 户仍然需要从检索到的信息中寻找自己感兴趣的内容。针对这一问题,学 者们 :2 0t h :纪6 0 年代提出了信息抽墩( i n f o n r a a t i o ne x t r a c t i o n ,国内一些学者也将其译为 信息提取) 。信息抽取指从一段文本中抽取山指定的一类信息( 例如事什、事实) 、升将其形 成结 勾化的数据填入数据库的过程( 幽1 - 1 ) 【a p p e l te ta 1 ,1 9 9 7 ;z e c l m e r , 1 9 9 7 ;孙斌,2 0 0 2 。 该技术可以对检索到的信息进行处理,从中获取用户感兴趣的内容,并且便于信息的重复使 j j 冈此得刨了人嚣学者的芙注【m u s l e a ,1 9 9 9 ;c o w i ee ta 1 ,1 9 9 6 ;c o w i ee ta 1 ,2 0 0 0 ; g a i z a u s k a se ta 1 。1 9 9 8 ;z e c h n e r , 1 9 9 7 。 信息抽取与信息检索存在本质上的不同;信息抽取将文本看作实体关系的集合,而信息 检索将文本看作 词符号串1 的集合概率空间;并且,与信息检索相比,信息抽取不仅查找 信息,而且替_ l j 户理解信息 g a i z a u s k a se ta 1 ,1 9 9 8 ,因此可以看作对信息检索获得的信息 进行粗加j :的过槲【c o w i ec ta 1 ,1 9 9 6 。 中伺科学投术人学f 啦i - 学位论文掷一章绪论 矗谲j 一讧;面:j :赫i i 衍 可面面n 帖e 柏t t w - tw i t h0 1 w i i i i m u 4 1 a l ,o d e n o u l l c m i g i t s c o mt i i u i m i l i c e s i n g 日 1 c 6 1 w e l 。t h a t 簟j l l e dt e c h l l o l o g k ij l l l l o v a | l j o i i t o d a y , b 1 0 1 - 0 1 1c l a i m g t o ”b v t h o o p e l l _ i i o l i i c o c o n c e p t b y w h i c h s o n w a l e c a d e i r t a d ep u b f l c t o e i i c o u l 8 ( 1 目i n l p l o v e m e ma n d u e w t u p m e mb vo u t s u e l o g i r i l t 舳i ,g e t m s 惮m e h v l - o q o t t w i i i 靠s a l l y d o k - _ i t s c i o t 1 1 i 舢剖9 一1 1 e c o 帕i e dc o d e b e h i l 订i h e w i l l , f l o w s o p e l l i l + us y s t e m t os e l e c t c 1 1 6 t o m 制9 c o l e p t m h i t ! 图i - i 信息拙取示例 f i g u r el - 1e x a m p l eo f i n f o r m a t i o ne x t r a c t i o n i 1 2 信息抽取的信道模型 北京人。学的孙斌在其论文信息捉圾技术概述中提山了信息抽取的信道模j 性 孙斌 2 0 0 2 。陔模7 对信息抽取作了比较完粘的形式化定义。具体叙述如l 、 按照信息论,信息是对未知群度的度域。不管属1 二什莫类刑,使川什么表达方式,任何 信息都有一个特定的( 最小) 数据茸。假设有概率空间( 0 ,3 ,p ) ,则事件a 3 2 0 的信息姑 为( 称为a 的自信息) 删) = 1 。g 而1 ( 公式1 1 ) 而一个概率空间( o ,3 ,p ) 的平均白信息揖称为该概率空间的( 信息) 熵: 册) = 上l o g - 专d p = 奢( 唰。g 而i ( 公朴z ) s ( n ) 也就避平均侮个符号w f n 的白信息馘( 数据龉) 。 乃外( 条什) 席验字仆a i b 与a 的信息蟥之筹称为市什a 与b 的“7 :信息” ,c 爿i b ,= l o g ,。以1j ,- l o g p t a ) = l o g ;等等( 公k t - 3 ) 如果有一个信道 燃 ! 壁! 堂丝查叁堂竖土兰些丝苎 笙= 主竺堕 i n p 州叫二丕互至至二卜一o u t p “, x 3 p ) ( y3 p 。) 即一个输入概率空间( x ,3 ,p ) 剑输山空间( y 3 ,p ) 的转变过利,则我们可以获得互信息姑在 联合概率空问中的平均值: 删;耻,。毛,砌) l o gp p ( 胍x y ) 万 - 4 ) 这个平均伉叫做平均且信息龄,也称为信道熵。平均且信息蟥,( ;】,) 有上土只自一个屉人值 浚最人值称为信道x - y 的容量,即平均对符号所能传输的最人信息犁:c c = m a x ,( x ;】,) ) p ( xj ( 公式l 5 ) 打驯r j 丕丕至二) 一o ,t t i ) ”, ( x - 3 ,p j ( y 3 p ) 图1 - 2 信息抽取的信道模型 f i g u r e1 - 2c h a n n e lm o d e 】o f i n f o r m a t i o ne x t r a c t i o n 根据上述定义,我们可以把信息抽取禹作一个信道模型( 幽卜2 ) 。其输入空间是由一 纽命名宾体( n e ) ,实体必系( e r ) 利事r f :模扳( e t ) 组成的事仲集合输山空间娃信息 抽取系统还原出来的对麻物。由于存在噪卢( 识别年拙取错误) ,此各球什以概率测量 并且输入和输山事件存在差异。贝体地说,这个信道模型可以看作列观察( 输出) 序列进彳了= 标注的过料:标注集是信息抽取任务规定的荐个实体、关系和事件模扳槽及无芙标记n a 中冈科学技术人学博 学位论文第一常绪论 j 4 j :标注的输山串则是适当界定的短语串( 例如通过浅层句法分析后得剑的结果) 。 建立了这样的模型后,就可以使川信道模型中的已有方法( 例如隐马尔科丈模型等) 来进行标注,还可以根据互信息和信道容量对信息抽墩算法进行基于统计的改进或补充。并 h ,出了平均虹信息域,( 并;y ) 0 冈此一个信总抽取系统总能够给山一定的信息始,除 1 i 其埘j 衄的信道输山与输入完全独立才捉吖i 山任何信息,即信息全部损火住信道中。 孙斌提出的信道模型适合于传统的信息抽取任务,即利川自然语言处理技术实现的信息 抽取。对其进行概括,我们可以将该信道模型扩展至一般的形式,即: = a r g m a x e ( t l r ) l ( 公式1 - 6 ) 其中r 为 i 于标注的输山串序列,即原始文本或者对文本进行预处理后的结果l 为标注符 号序列即信息抽取任务中定义的信息类别标记或者相关标记,例如信息边界标记笛。信息 抽墩的h 的为给定输山中序列,在所有相应的标注符号序列中寻找使得条r i :概率p ( l l ,) 最人的标注符号序列l 。本文历续部分的l i j | :究1 作均以该一般形式的信道模型为基础展开。 1 1 3 信息抽取的分类无结构信息抽取、半结构化信息抽取和结构化信息 抽取 信息抽取的抽取对象分为无结构信息、结构化信息和、p 结构化信息 k o s a l ac ta 1 ,2 0 0 0 ; e i k v i l ,1 9 9 9 。与此相应,按照抽取对象,可以将信息抽墩分为无结构信息抽取、结构化信 息抽取承i 半结构化信息抽取。 无绡构信息指新闻报道、研究报告等自由式文本。处理这类信息的信息抽取系统通常使 州1 3 然语言处理技术实现,其抽取规则主要建立在词或词类间句法关系的基础上一通过人i : 编制或者从人 标注的诺鞘挈中自动学习获得。目前无结构信息抽取的水,卜还雉以雨i 人的能 力相比【a p p e l t ,1 9 9 9 】。 结构化信息指存放在数据库里的文本信息,或者根据事先规定的格式生成的文本信息。 只要通过描述格式就可以实现针对这类信息的信息抽取,抽取准确度也较高【e i k v i l ,1 9 9 9 。 半结构化信息介于无结构信息利结构化信息之间,通常缺少语法,也没有严格的格式, 例如求职简历等。此外,因为网页缺少规范的语法结构,一些研究者也把其归入半结构化信 息 h s ue ta 1 1 9 9 8 。因为、 结构化信息缺乏语法结构有时其至不具有完整的句子,因此 4 | 周科学披求人学 【| lf ? 学位论义抓常绪论 针对、r 结构化信息使川自然语言处理技巧通常没有效果。并且,川米处理结构化信息的简单 规则处理方法也无法实现b 结构化信息的抽取。 d j1 。、r 结构化信息包括具有较强句法结卡勾乖i l 较弱结构特征的、- 结构化文本( 例如讨论斑 公告嗣i 求l ; f ;j 历) ,以及结构特,扯较啦但烛儿乎不具有语法特祉的刚页。此,撤始抽圾射 象的特点,l 口以将、r 结构化信息抽取一次细分为、r 结构化文小 寺总扪收年m 贝信息抽取。削 1 3 表示了细分屙的信息抽取分类情况。 能抽取 三答蝴取 幽1 - 3 信息抽取分类 f i g u r e1 - 3c a t e g o r i z a t i o no f i n f o r m a t i o ne x t r a c t i o n 1 2 半结构化信息抽取的重要地位及研究现状 1 2 1 信息抽取的发展历史及发展方向 信息抽暇的研究开始y - 2 0 世纪6 0 年代美国纽约火学开胜的l i n g u i s t i c s t r i n g 项目【s a g e r 1 9 8 l 】。该项目旨在建立火规模英语计算语法,井将其应用于医疗报告的信息抽取中【s a g er , 1 9 8 1 1 。随后,耶鲁大学的g d e j o n g 等人针对脚本( s c r i p t s ) 填充进行研究 d e j o n g ,1 9 8 2 。 他们根据脚本理论开发的f r u m p 系统【d e j o n g ,1 9 8 2 】是最早被公开的信息抽取系统之一。 该系统基丁语义分析,应j l | i 领域知识从新矧报道中抽取信息,信息内容涉及地震、罢一i :等多 个领域。1 9 8 0 年d a s i l v a 平i fd w i g g i n s 针对芙于卫甩e 行器的报道进行信息抽取( d a s i l v ae t a 1 ,1 9 8 0 。该系统从句子中抽取信息,但赴缺乏对全景信息的抽取。随
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025泰隆银行嘉兴分行招聘笔试参考题库附答案解析
- 2025年铁岭市昌图县公益性岗位招聘5人笔试备考题库及答案解析
- 2025年齐齐哈尔依安县招聘各单位公益性岗位人员50人笔试模拟试题及答案解析
- 2025-2026广东湛江市吴川市银龄讲学教师招募49人笔试模拟试题及答案解析
- 2025广东云浮市郁南县总工会招聘社会化工会工作者1人笔试参考题库附答案解析
- 农产品跨境电子商务平台建设方案
- 2025云南昭通永善县人力资源和社会保障局招聘城镇公益性岗位工作人员1人笔试备考题库及答案解析
- 2025西安市经开第十小学招聘笔试参考题库附答案解析
- 2025北京门头沟永定镇城市协管员招聘14人笔试模拟试题及答案解析
- 2025年湖南吉首市从文教育集团初、高中教师招聘36人考试模拟试题及答案解析
- 学校食堂食材采购询价方案范文(35篇)
- 2023年广西现代物流集团社会招聘、校园招聘考试真题及答案
- 保险公司案件风险排查工作报告
- 《化妆品技术》课件-化妆品的历史起源与发展
- 《建筑施工安全检查标准》JGJ59-20248
- 住宅公共部分装修综合项目施工专项方案
- 安徽医科大学辅导员考试试题2024
- 《合理利用网络作业设计方案-2023-2024学年初中道德与法治统编版》
- 皮肤病真菌感染性皮肤
- JJF1059.1测量不确定度评定培训讲演稿
- 人教版新目标初中英语Go-for-it!单词大全(音标齐全-已反复校对-单词分类-便于识记)
评论
0/150
提交评论