(计算机应用技术专业论文)基于gate框架的信息抽取系统的研究与实现.pdf_第1页
(计算机应用技术专业论文)基于gate框架的信息抽取系统的研究与实现.pdf_第2页
(计算机应用技术专业论文)基于gate框架的信息抽取系统的研究与实现.pdf_第3页
(计算机应用技术专业论文)基于gate框架的信息抽取系统的研究与实现.pdf_第4页
(计算机应用技术专业论文)基于gate框架的信息抽取系统的研究与实现.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

(计算机应用技术专业论文)基于gate框架的信息抽取系统的研究与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

华东师范大学濞机科学技术秀2 0 0 7 年硕士毕业论文 摘要 随着i n t e r n e t 技术的不断发展及其应用的深入,w e b 俨然已经成为全球最大 的虚拟资料库,可用的信息正呈指数级增长。如何有效地利用这些信息成为人们 的重要研究课题,因此出现了大量以w e b 作为信息源的技术和应用,其中w e b 信息抽取技术在近年来引起了越来越多的研究者关注。 由于w e b 页面缺乏规范的语法结构,所以传统的自然语言处理技术并不能 很好的适用于w e b 信息抽取,另外w e b 页面中的大部分内容都以属性列表的形 式呈现,如果把w e b 的这种结构特征应用于信息抽取,就可以避免使用复杂的 语言学知识。因此,如何将基于自然语言理解方式和基于结构方式有效的结合起 来克服各自的缺点,混合使用各种方法进行信息抽取成为当前研究的重点之一 本文结合自然语言处理技术和h t m l 页面结构特征在信息抽取中的应用, 进行了以下研究工作: 1 提出一种基于命名实体标注的d o m 树( n b d o m ) 分析方法进行信息抽 取。该方法利用自然语言处理中命名实体识别技术对文档进行标注来提供简单的 语义信息;然后在此基础上构建n e - d o m ,通过对n e - d o m 结构的分析产生基 于x p a t h 的抽取规则。 2 。在n e - d o m 分析的过程中提出了基于竞争分类的b o ( 用户感兴趣区 域) 确定算法,该算法可以显著的降低噪声数据对抽取结果的影响。同时在抽取 过程中使用了大量成熟的x m l 技术来提高抽取的效率。 3 研究了s h e f f i e l d 大学的自然语言处理平台g a t e ,并在此基础上设计和实 现了一个基于上述原理的信息抽取原型系统g a t e w e b l e 。经验证该系统达到了预 期的效果,提高了系统的召回率、抽取效率和对页面变化的适应能力。 本论文中已经完成的g a t e w e b i e 系统符合g a t e 的标准,实验结果令人满意, 可以作为组件部署和集成到其它电子商务类的信息系统中,有较高的应用价值, 并值得做进一步研究。 关键词:信息抽取,g a t e 框架,本体,命名实体识别,x m l 华东师范大擘计算机科学技术系2 0 0 3 年硕士毕业论文 w i t ht h ef a s td c v c l o p m e n to fi n t e m e tt e e l m o l o g y , w e bh a sb e o o m ct h el a r g e s t v i r t u a ld a t a b a s ei nt l a ew o r l d h o wt ou s et h ew e bi n f o r m a t i o ne f f e c t i v e l yh a sb o , c o m c a l l i m p o r t a n tr e s e a r c ht o p i c s o i t a p p c a i s m o l e a n di n o l r l :t e x l m o l o g i e sa n d a p p l i e a t i o , s b a s e do n w e b , i n e l n d i n gw e bi n f o r m a t i o nc x t r a c t i o l t , w l a i e l ah a y c a t l r a e t e dm u c ha t t e n t i o nf r o mr e , s e a r c h e r si nr e , c 蛐ty e a r s d u et ot h ew e b p a g e sa l l :l a c ko fas t a n d a r d i z e ds t r u c t u r e t h et r a d i t i o n a ln a l l l r a l l a n g u a g ep r o c e s s i n gl 七, e l a n o l o g yi sn o ta p p l i c a b l et ot h ew c bi n f o r m a t i o ne x t r a c t i o n w e l l a n dm o s to f t l a ec o n t e n to f w e bp a g e si ss h o w ni nt h ef o r mo f al i s to f a t t r i b u t e s , s ow e 啪呲s u c hs t r u c t u r ei ni n f o r m a t i o ne x t r a c t i o nt oa v o i du s i n gc o m p l e x l i n g u i s t i ck n o w l e d g e t h e r e f o r e h o wt o 嗽v a r i o u sm e t h o d sm i x e df o ri n f o r m a t i o n c x t r a e t i o nh a sb c c o l n co n cf o c u so ft h es t u d y w eu s i g :t h en a t u r a ll a n g u a g ep r o c e s s i n ga n dt h es t n l e t u r a lc h a r a c t e r i s t i c so fh t m l i r a g e sm i x e dt oe x t r a c ti n f o r m a t i o n 矗蛐w e bi nt h i sp a p e r , a n dt l a er e s e a r c h e sa a s f o l l o w , 1 p r o p o s eam c t l a o dt oa n a l y s i sd o m 舡f o ri n f o r m a t i o ne x t r a c t i o n t h e m e t h o di sb a s e do i ln a m e d e n t i t yt a g g i , ga n d t h ee x t r a c t i o nr u l e sa r cb a s e d0 1 1x p a t h 2 p r o p o s e 翘a l g o r i t h mt od e t e r m i n et h ep o s i t i o no fb l o c k so fi n t e r e s t w l a i e h i sb a s e d0 1 1t l a ec l a s s i f i c a t i o no fc o m p e t i t i o n t h ea l g o r i t h m ns i g n i f i c a n t l yr e d u c e t h en o i s ei m p a c t0 1 1t l a er e s u l t s 3 o e s i g , a n di m p l e m e n tap r o t o t y p es y s t e mb a s e d0 1 1t h ef r a m e w o r ko fg a t e , w l a i e hi sa l lo p e ns o u i c i e :p r o j e c to fs h e f f i e l du n i v e r s i t y t h ep r o t o t y p es y s t e m i m p r o v e st h el e c a l lr a t e ,t h ee x t r a c t i o ne f f i c i e n c ya n dt h ea b i l i t yt oa d a p tt ot h e e l a a n g c s t h es y s t e mb e i , gf m i s h e di nt h i sp a p e rn l c e t st h cs t a n d a r d so fg a t e , a n dt h e r e s u l t so fe x p e r i m e n t sa l es a t i s f a c t o r y i tc 姐b eu s e da sc o m p o n e n t st ob ed c p l o y e a i n t ot l a ei n f o r m a t i o ns y s t e m s s oi ti sw o r t h yo ff u r t h e rs t u d y k e yw o r d :i n f o r m a t i o ne x t r a c t i o n , g a t ef r a m e w o r k , o n t o l o g y , n a m e d e n t i t yr e c o g n i t i o n , x m l 学位论文独创性声明 本人所呈交的学位论文是我在导师的指导下进行的研究工作及 取得的研究成果据我所知,除文中已经注明引用的内容外,本论文 不包含其他个人已经发表或撰写过的研究成果对本文的研究做出重 要贡献的个人和集体,均已在文中作了明确说明并表示谢意 作者签名:;鑫茸基 日期:蝉逼控l 学位论文授权使用声明 本人完全了解华东师范大学有关保留、使用学位论文的规定,学 校有权保留学位论文并向国家主管部门或其指定机构送交论文的电 子版和纸质版有权将学位论文用于非赢利目的的少量复制并允许论 文进入学校图书馆被查阅有权将学位论文的内容编入有关数据库进 行检索有权将学位论文的标题和摘要汇编出版保密的学位论文在 解密后适用本规定 学位论文作者签名:像草*导师签名: o r i g i n a l i t yn o t i c e i np r e s e n t i n gt h i st h c s i si np a r i i a lf i f i f f l l m e n to f t h e r e q u i r e m e n t sf o rt h em a s t e r s d e g r e ea te a s tc h i n an o r m a lu n i v e r s i t y , 1w a r r a n tt h a tt h i st h e s i si so r i g i n a la n d a n y o f t h e t e c h n i q u e s p r e s e n t e d i n t h e t h c s i s h a v f b e e n f i g u r e d o u t b y m e a n y o f t b e r e f e r e n c e st ot h ec o p y r i g h t , t r a d e m a r k , p a t e n t , s t a t u t o r yt i g h t , o rp r o p r i e t y r i g h to f o t h e r sh a v eb e e ne x p f i c i t l ya c k n o w l e d g e da n di n c l u d e di nt h er e f e r e n c e ss e c t i o na t t h ee n do f t h i st h e s i s s i g n a t e r 瞄徐3 i 次d a t e :渺 c o p y r i g h tn o t i c e l h e r e i n a g r e e t h a t t h e l i b r a r y o f e c h u s h a l l m a k e i t s c o p i e s f r e e l ya v a i l a b l e f o r i n s p e c t i o n if u r t h e ra g r e et h a te x t e n s i v ec o p y i n go ft h et h e s i si sa l l o w a b l eo n l yf o r s c h o l a r l y p m p 晦,i n p a r t i c u l a r , s t o r i n g t h e c o n t e n t o f t h i s t h e s i s i n t or e l e v a n t d a t a b a s e s ,a sw e l la sc o m p i l i n ga n dp u b l i s h i n gt h et i t l ea n da b s t r a c to ft h i st h e s i s , c o n s i s t e n tw i t h f a i r 璐e a sp r e s c r i b e di nt h ec o p y r i g h tl a wo f t h e p e o p l e s r e p u b l i co fc h i n a s i g n a t u r e :涂晕炙 涧- ;,的 华东师范大学计算机科学技术秉2 0 0 7 年硕士毕业论文 第1 章引言 随着信息技术的飞速发展,i n t e r n e t 正悄悄地改变着人类的生活方式,而 i n t e r n e t 能有今日如此火爆的局面,很大程度上是由于w w w 的出现。在十多年 的时间里,w e b 已经迅速发展成为一个巨大的全球化信息空间,拥有上亿用户、 上千万个站点,信息量高达t b 级别,而且正在高速递增。w e b 俨然已经变成全 球最大的虚拟资料库。 然而面对信息的海洋,用于表达w e b 页面信息的h t m l 标记语言却存在着 先天的不足。用h t m l 语言发布的数据主要是为了在用户的浏览器中显示,它 缺乏结构并且没有语义信息,这使得应用程序无法直接解析并利用w e b 上海量 的数据。如何有效地利用这些信息就变的非常迫切,因此出现了很多基于w e b 信息源的技术和应用,其中w e b 信息抽取( i n f o r m a t i o ne x t r a c t i o n , 蚴技术是当前 研究中的一个热点。w e b 信息抽取就是从w e b 页面所包含的无结构或半结构化 信息中识别出用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式【。 为了更好地解决w e b 信息抽取面临的诸多困难和不足,有必要对信息抽取 问题作进一步的研究。本章将首先分析信息抽取的背景,然后介绍现有信息抽取 的方法,最后明确本课题的主要研究内容和论文的组织方式。 1 1 背景介绍 信息抽取技术是八十年代末发展起来的新领域,起源于文本理解,是自然语 言处理领域的重要分支,它并不试图全面理解整篇文档,只是对文档中包含相关 信息的部分进行分析,对于从大量的文档中抽取需要的特定事实来说是非常有用 的。下面分别介绍信息抽取、w e b 信息抽取以及信息抽取系统的设计方法。 1 1 1 信息抽取 信息抽取技术虽然只有十几年的发展历程,但是网上文本信息的大量增加导 致这方面的研究得到高度重视,目前该领域的研究与应用非常活跃,主要表现在 以下几个方面: 1 技术研究:主要侧重于利用机器学习技术增强系统的可移植能力、探索 深层理解技术、篇章分析技术、多语言文本处理能力、w e b 封装器 华东师范大学计算机科擘技术系2 0 0 7 年硕士毕业论文 ( w n p p e r ) 和对时间信息的处理等。信息抽取技术的主要研究对象包括结 构化、半结构化和自由式文档。对于自由式文档,多数采用自然语言处 理的方法,而其他两类文档的处理则多数是基于分隔符的方法。 2 应用系统1 2 j :信息抽取应用的领域非常广泛,往往与其他文档处理技术 结合建立功能强大的信息服务系统。这些系统使用机器学习算法针对信 息源生成抽取规则,所采用的抽取方法与传统的信息抽取方法一脉相承, 而学习算法多用关系学习法。其中w i e n ,s 曲m e a l v 和s t a l k e r 生 成的封装器以分隔符为基础,能处理结构化程度高的网站。r a p i e r , w m s k 和s r v 能处理结构化程度稍差的信息源。 3 标准建立1 3 j :在推动信息抽取标准化方面,消息理解系列会议( m e s s a g e u n d e r s t a n d i n gc o n f e r 凇,m u q 功不可没,m u c 定义的信息抽取任务的 各种规范以及确立的评价体系已经成为信息抽取事实上的标准。 1 1 2w e b 信息抽取 w b b 信息抽取就是将w e b 页面作为信息抽取的信息源,它的主要功能是从 w e b 页面中抽取出特定的事实信息。比如,从新闻报道中抽取出恐怖事件的详细 情况:时间、地点、作案者、受害者、袭击目标和使用的武器等;从经济新闻中 抽取出公司发布新产品的情况:公司名称、产品名称、发布时间和产品性能等; 从病人的医疗记录中抽取出症状、诊断记录、检验结果、处方等或者直接提取文 章中某句话或某段话的信息。通常,被抽取出来的信息以结构化的形式描述,可 以直接存入数据库中,供用户查询以及进一步分析利用。与信息抽取密切相关的 一项研究是信息检索( i n f o m a 廿o nr e t r i e v a l ,u ,但信息抽取与信息检索存在差 异。 信息检索是根据用户的查询请求从文档库中找出相关的文档,而信息抽取是 从文档中提取用户关心的信息点。这两种技术是互补的,信息抽取系统通常以信 息检索系统的输出作为输入,而信息抽取技术又可以用来提高信息检索系统的性 能。信息抽取与信息检索存在的差异主要表现在以下几个方面【4 l : 1 功能不同:信息检索系统主要是从大量的文档集合中找到与用户需求相 关的文档列表;而信息抽取系统旨在从文本中直接抽取用户感兴趣的事 实信息。 2 处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文 本看成词的集合,不需要对文本进行深入分析理解:而信息抽取往往要 借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后 平东师范大学计算机科擘技术汞2 0 0 7 年硕士毕业论文 才能完成。 3 适用领域不同:由于采用的技术不同,信息检索系统通常是领域无关的, 而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类 的事实信息。 一般来说,信息抽取系统的处理对象是自然语言文本,尤其是非结构化文本【5 l 。 但从广义上讲,信息抽取系统的处理对象可以是文本、语音、图像和视频等其他 媒体类型的数据。本文只讨论狭义上的针对非结构化的w e b 文档的信息抽取, 即w e b 信息抽取。 1 1 3 信息抽取系统的设计 信息抽取系统的设计主要有两大方法【1 l :一是知识工程方法( x , :n o w l c d g c e n g i n e e r i n g a p p r o a c h ) ,二是自动训练方法( a u t 啪a t i c 删n j n g 却p m a c h ) 。这两种 方法的信息抽取系统尽管采用的方式不同,但信息抽取的基本过程大致相似。 基于知识工程的信息抽取系统主要有以下几个特点:这类系统是基于规则的 系统:规则由用户手工定义;个人的直觉能够对系统的性能起到很大的影响;比 基于自动训练的系统能够得到更好的性能;开发周期较长,并且一旦成形之后不 容易进行修改。 基于自动训练的信息抽取系统采用统计或其它机器学习方法,开发者并不需 要掌握语言工程知识,但需要大量的经过标注的训练数据,如果需要对这类系统 的核心进行修改,则相应的所有训练数据也需要重新标注。 1 2 国内外研究现状 信息抽取技术有多种分类方法1 6 1 :根据自动化程度可以把信息抽取分为人 工、半自动化和全自动化三种;根据学习的过程可以把信息抽取分为知识工程方 法和自动训练方法;根据现有工具的抽取原理和方式可以将信息抽取划分为以下 五类1 2 1 : 1 基于自然语言处理方法的信息抽取; 2 基于封装器归纳方法的信息抽取; 3 基于h t i v i l 结构的信息抽取; 4 基于w e b 查询的信息抽取; 5 基于本体方法的信息抽取。 下面结合典型的系统,对以上五种抽取方法进行分析和比较。 华东师苑大学计x - o 讲学技术系2 0 0 7 年硕士毕生论文 1 2 1 自然语言处理方法 信息抽取最初的目标是从自然语言文档中找到特定的信息,是自然语言处理 领域特别有用的子领域。但是传统的自然语言处理技巧对抽取缺少语法结构的半 结构化文本并不是很有用,因而这类信息抽取主要适用于源文档包含大量文本的 情况,利用子句结构、短语和予句问的关系建立基于语法和语义的抽取规则实现 信息抽取。目前采用这种原理的典型系统有r a p i e r 、s r v 2 i 和w m s k l n 。下面 结合比较典型的系统w h i s k 来详细说明这种方式的信息抽取。 w h i s k 系统能够处理的文本对象很全面,从结构化程度很强的文本到网页 等半结构化文本,还能处理新闻等纯文本。处理结构化或半结构化文本时, w h i s k 无须事先经过句法分析,基本上没有利用到自然语言处理技术,对这种 情况这里不做详细的分析。但处理自由文本时,系统采用指导学习算法,需要用 户输入一系列手工标注的训练实例。标注和学习过程是交织在一起的。系统在每 次循环时,提交一批实例让用户标注,然后使用语法分析器和语义类( 如人名、 机构名) 分析器,分析出标注实例的语法成分和对应的语义类,最后从标注的实 例中归纳出抽取规则,进行信息抽取。 对于结构化和半结构化的文本,w h i s k 的抽取规则采用正则表达式来描述 语义项的上下文及语义项之间的分割符,利用这些信息达到识别感兴趣语义项的 目的。对于自由文本,在一定程度上利用了自然语言处理技术的思想,它根据语 义项对应的语义类、语义项的上下文和所处的句子成分实现信息的定位,即根据 语义和语法的双重约束实现信息抽取。 这种基于自然语言理解方式的信息抽取,是将w e b 文档看作文本来处理的, 抽取的实现没有利用w e b 文档独特于普通文本的结构特征,同时获得有效的抽 取规则需要大量的样本学习。 1 2 2 封装器归纳方法 封装器归纳法是一种自动构造封装器的技术。主要思想是用归纳式学习方法 生成抽取规则。用户在一系列的网页中标记出需要抽取的数据,系统在这些例子 的基础上归纳出基于定界符的抽取规则,这些规则的精确度取决于例子的质量。 其中定界符实质上是对感兴趣语义项上下文的描述,即根据语义项的左右边界来 定位语义项。该类信息抽取方式和基于自然语言理解方式的信息抽取技术最大的 不同在于仅仅是用语义项的上下文来定位信息,并没有使用语言的语法约束。采 用这种原理的典型系统有s t a l k e r 8 ls o f t m e a l y , w i e n 4 。下面根据 4 华东师范大学计算机科学技术乐2 0 0 7 年硕士毕生论文 s t a l k e r 系统详细分析这类信息抽取技术。 s t a l k e r 系统根据用户事先标记的样本页面和用户嵌入式分类树 t 陆b e d d e dc a t a l o g t r e e ) 形式提供的页面结构信息,应用逐步覆盖算法( s e q u e n t i a l c o v e r i n ga l g o r i t h m ) ,逐步归纳生成基于定界符的精确的抽取规则,实现层次的 信息抽取。嵌入式分类树是用户根据页面结构定义的嵌套模式,该树形结构一方 面描述了页面的逻辑结构,另一方面提供了模式信息和语义信息( 树中节点的名 称) 。嵌入式分类树中有3 种类型的节点:根节点( 表示整个文档) 、非叶子节点 ( 称为l i s t 节点,表示多个同类对象的列表) ,叶节点( 表示对象的语义项) 。系 统为每个叶节点生成普通的抽取规则,用来定位语义项;为l i s t 节点生成普通抽 取规则和迭代规则,其中普通抽取规则用来定位多个对象组成的信息块,然后应 用迭代规则实现单个对象的定位。该系统之所以成为层次的信息抽取是因为抽取 是根据嵌入式分类树的层次进行的,并且某一节点的抽取规则是对其父节点的抽 取结果执行的,信息定位的实质是使用左右边界识别出各语义项,然后再将各语 义项组装成一个对象。而该系统在一定程度上是按结构抽取和按文本抽取的结 合。根据嵌入式分类树先获得高层节点对应的大的文本块,然后再用低层节点对 应的抽取规则,逐步获得想要的信息。 由于该系统是根据抽取规则的迭代实现信息的定位,并不是在整个文档中应 用规则,所以抽取规则的形式相对简单,而且抽取的准确率相对高一些。另外由 于使用嵌入式分类树描述模式,所以可以抽取复杂的对象。但是规则中的定界符 不仅仅是由i r r m i ,标记组成,而且还有某类网页经常出现的关键词组成。所以 该类信息抽取不但对页面结构有所依赖,而且对网页的内容也有所依赖,要想获 得精确的抽取规则必须进行大量的样本训练。 1 2 3h t m l 结构分析方法 该类信息抽取的技术特点是,根据w e b 页面的结构定位信息。在信息抽取 之前通过解析器将w e b 文档解析成语法树,通过自动或半自动的方式产生规则, 将信息抽取转化为对语法树的操作实现信息抽取。采用该类信息抽取技术的典型 系统有r o a d r u n n e 1 2 】和x w r a r 9 1 等。下面对具有代表性的x w r a p 系统进行分 析。 x w r a p 系统通过交互式的方式,由用户在样本中指定抽取区域的起始位 置,系统确定整个抽取区域,并确定抽取区域的类型,然后通过可视化方式,由 用户在样本页中指定语义项( 如表头) 及与之对应的实例,系统自动产生抽取规 则实现信息抽取,最后系统利用启发信息获得数据间的层次结构关系,生成x m l 5 一 牟末师范大擘计算机科学技术系2 0 0 7 年硕士毕业论文 文档。 该系统采用用户在网页中指定语义项的方式附加语义信息,即将网页的部分 内容作为语义项,对于不同的区域类型( 如t a b l e , l i s t 等) 采用不同抽取规则提 高系统的灵活性和效率。该系统只适合对含有明显区域结构( 如t a b l e ,l i s t 等) 的网页进行信息抽取,不支持对普通网页的抽取,模式表达的能力也非常有限, 在学习阶段用户参与太多。 1 2 4w e b 查询方法 该类信息抽取的特点是将w e b 信息抽取转化为使用标准的w e b 查询语言对 w e b 文档进行查询,这种使用w e b 的相关技术解决w e b 的闯题被称为w e b 技术 规范,具有通用性。采用该类技术的典型的系统有w e b - o q l l 2 1 和p q a g c n t 1 0 】等。 r o a g e n t 系统采用了交互式的方式,用户首先在可视化的界面中对样本页面 进行标记,然后通过学习样本生成基于x q u e r y 的抽取规则,利用这些生成的抽 取规则对相似结构的页面进行信息抽取。对于已通过预处理并且转化为符合 x m l 语法规范的文档,可直接利用x q u e r y 引擎执行x q u e r y 查询语句实现信息 抽取。 该系统的抽取规则用x o u e r y 形式表示,x q u e r y 抽取规则可以直接定位到 对象。该系统将信息抽取转化为利用x q u e r y 对w e b 页面的查询,因此相对于其 他系统,该系统的抽取规则相当健壮,有很强的表达能力,这是其他方法无法比 拟的优点。但是系统对网页结构的依赖性仍比较强,尽管抽取的范围相对广泛, 但仍需进一步扩大。 1 2 5 基于本体的方法 该类信息抽取主要是利用对数据本身的描述信息实现抽取,对网页结构依赖 少。由b r i g h a my o n gu n i v e r s i t y ( b y u ) 信息抽取小组开发的信息抽取工具1 1 1 l 采用 了这种方式。在b y u 系统中,事先需要由领域知识专家采用人工的方式书写某 一应用领域的本体。系统根据边界分隔符和启发规则把文档分割为多个描述某一 事物不同实例的无结构的文本块,然后根据领域本体中常值和关键字的描述信息 产生抽取规则,对每个无结构的文本块进行抽取获得各语义项的值,最后将抽取 出的结果放入根据领域本体的描述信息生成的数据库中。 该系统中语义的附加方式是在书写某一领域本体的时候完成的,即人工方式 附加语义信息。系统最大的优点是对网页结构的依赖很少,只要事先创建的领域 本体足够强大,系统可以对应用领域中各种文本实现信息抽取。但是系统使用不 6 华东师范大擘计算机科学技术乐2 0 0 7 年硕士毕生论文 太方便,某一领域的本体只能由领域知识专家创建,另外由于是根据数据本身实 现信息抽取的,因此在减少对网页结构依赖的同时,增加了对网页中所包含的数 据结构的要求。 1 3 主要研究内容 根据上一节的分析可知,无论采用哪种具体的抽取技术,w e b 信息抽取中的 抽取规则都主要依赖于以下三类:页面的结构信息、页面内容信息或自然语言语 义、语法信息。 基于自然语言理解方式的信息抽取,在一定程度上可以通过自然语言语法、 语义抽取信息,但不易取得较好的效果并且处理速度较慢;基于内容的信息抽取, 通过感兴趣信息在文本中的上下文信息实现语义项的定位,通常需要人工标注大 量的训练样本;基于结构的信息抽取,通过感兴趣信息在页面中所处的位置实现 语义项的定位,该方法对于页面结构的变化适应性非常差。 因此,如何将基于结构方式和基于文本方式有效结合起来克服各自的缺点, 如何减少人工参与,提高自动化程度,以及如何感知w e b 信息结构的更新和变 化,提高系统对新网页的适应性,所有这些都是目前研究的热点,尤其是结合网 页的固有特征,混合使用各种方法进行信息抽取。 本文结合自然语言处理技术和h t m l 页面的结构信息,提出一种基于命名 实体标注的d o m 树( n e - d o m ) 分析方法进行信息抽取。该方法利用自然语言处 理中命名实体识别技术对文档进行标注来提供简单的语义信息;然后在此基础上 构建n e d o m ,提取已经标注过韵信息片断的特征值,根据这些特征值提出使 用基于竞争分类的算法来确定用户感兴趣区域的位置,最后结合领域知识确定未 被识别的用户感兴趣信息,产生抽取规则。在n e - d o m 的分析过程中,大量的 使用了成熟的x m l 技术来提高抽取效率。 为了验证论文中的一些思想和达到实际的应用效果,本文研究了s h e f f i e l d 大学的自然语言处理平台g a t e ( g e n e r a l a r c h i t e c t u r ef o r t e x te n g i n e e r i n g ) ,并在此 基础上设计和实现了一个信息抽取的原型系统g a t e w e b i e 。该系统达到了预期的 效果,提高了抽取的效率,也提高了对页面变化的适应能力。同时该系统完全符 合g a t e 的标准,可以作为组件部署和集成到“比较购物”之类的信息系统当中, 具有很好的实际应用价值。 1 4 论文章节安排 本文内容的章节安排如下: 年东师范大学计算机科擘技术系2 0 0 7 年硕士毕业论文 第一章为引言。主要介绍论文研究的背景和现状,明确论文的主要研究内容 以及需要完成的工作。 第二章为技术分析。对开源框架g a t e 以及g a t e w e b i e 系统中涉及到的领域 本体、命名实体识别和x m l 技术进行了深入研究,介绍了这些技术在信息抽取 系统中的应用。 第三章为算法介绍。结合命名实体识别技术和w e b 的d o m 结构,提出了 一种基于命名实体标注的d o m 树( n e - d o m ) 分析方法。 第四章为设计。介绍基于g a t e 框架的w e b 信息抽取系统g a t e w e b l e 的设计。 描述系统的框架,并且按照功能将系统划分为四个功能模块,针对每一个功能模 块作出详细的说明。 第五章为实现。介绍& a t e w e b i e 系统实现的环境以及实现方式,并给出操 作界面和实验分析。 第六章为总结。指出本论文中已经完成的工作,明确下一步的研究方向。 华东师范大学计算机科学技术系2 0 0 7 年硕士毕生论克 第2 章g a t e w e b l e 技术分析 g a t e ( g e n e r a la r c h i t e c t u r ef o rt e x tf n g i n e e r i n g ) 是目前自然语言处理领域比较 受推崇的一个开源项目,它是一个应用非常广泛的自然语言处理开放型基础架 构,为用户提供了图形化的开发环境,被许多自然语言处理项目尤其是信息抽取 的项目所采用1 1 2 1 。 但是目前基于g a t e 框架进行信息抽取的研究多集中在对文本的语意理解上l 埘, 这种方法忽略了w e b 文档的半结构化特征,没有很好的利用结构特点辅助进行 w e b 信息抽取。本文把w e b 的特征分析引入到g a t e 框架中,在此基础上实现了 一个基于领域知识抽取w e b 信息的原型系统g a t e w e b i e 。 本章首先简单介绍c r a t e 框架的应用背景,然后介绍g a t e w e b i e 中所涉及到 的部分主要技术。 2 1g a t e 框架概要 g a t e 是一个开源的自然语言处理平台,由s h e f f i e l d 大学的自然语言处理研 究组在英国工程和理科研究委员会m ee n g i n e e r i n ga n dp h y s i c a ls c i e n c e s r e s e a r c hc o u n c i l ,e p s r c ) 资助下于1 9 9 5 年开始研究开发,至今仍在不断完善。 2 1 1g a t e 的功能 g a t e 致力于解决在语言工程( l a n g u a g ee n g i n e e r i n g , u 巳1 领域的问题,是该领 域开发和试验的工具箱,类似于e c l i p s e 对于j a v a 开发所起的作用。它具体完成 以下三种功能: 1 为语言处理软件提供架构或组织结构,提供文本处理的总体的开放架构; 2 提供用于自然语言处理的可重用组件,从而能够嵌入到各种不同语言处 理的应用程序中; 3 提供开发环境。为语言处理软件的研究和开发提供一种方便的图形化的 环境,为用户提供全面的开发帮助和可视化新模块的调试机制。 2 1 2g a t e 的系统结构 g a t e 共有三个基本的组织模块,通过三个模块之间的协调管理数据以及可 华东师范大学计算机科学技术系2 0 0 7 年硕士毕业论文 复用的语言处理组件,如图2 - 1 所示。 图2 - 1c r a t e 基本组织模块图 - c r a t e 文档管理器 - g a t e 图形用户接口 语言工程可重用组件 1 c r a t e 文档管理器 g a t e 的数据存储通过g a t e 文档管理器( d o m m e n tm a n a g e ) 来实现,g a t e 中 的数据存储有两种机制: 1 ) 利用关系型数据库( 如:o r a c l e ) ; 2 ) 基于文件系统的存储,使用j a v a 序列化或基于) i l 的内部格式。 2 c r e o l e 的管理 g a t e 把所有的自然语言处理系统元素细分为几种不同的组件,称为资源。 g a t e 中具备共同的可重用特征的资源,统一称作c r e o l e ( 面向语言处理的可 重用对象集合) ,以g a t e 为基础的语言处理系统中所有的文本分析工作都通过 c r e o l e 模块来完成。g a t e 系统中总共有三种组件: 1 ) l r ( 语言组件,l a n g u a g er e s o u r c e s ) :指的是数据资源,包括词典、语 料库或本体等。 2 ) p r ( 处理组件,p r o c e s s i n gr e s o u r c e s ) :主要包括各种算法或翻译、解 析器、生成器、n 元模型和语音识别等。这些资源的共同特征是能够进 行编码或运算。 3 ) v r ( 可视化组件,v i s u a lr e s o u r c e s ) :主要指g u i 组件中的可视化及编 辑组件。 3 g a t e 图形用户接口 用户界面的a p i ,定制的v r 只要符合g a t e 的规范,调用特定的a p i 就可 以通过g g i 在同一界面中显示。 以上这些g a t e 的组件,都是通过j a v ab e a n s 的形式实现的,并且使用m v c 的设计模式,使g a t e 本身具有很强的扩展性。我们可以把g a t e 看作一个基础的 开发和部署框架,可以在其中加载很多基于j a v ab e a n s 的可重用的功能组件。由 于它是开放源代码的项目,并提供了对其内容进行操作的a p i ,其它程序语言以 华东师范大学计算机科擘技术系2 0 0 7 年硕士毕业论文 及数据库可直接调用g a t e 的a ll 。正是这种实现的形式,能够方便g a t e 与其它 系统以及处理模块( 如分词模块、语料库和规则库等) 进行集成与通讯,系统地 解决信息抽取的问题。 2 1 3g a t e 与信息抽取 m u c 总共定义了五项信息抽取的任务【1 4 l : 1 命名实体识别( n a m e de n t i t yr e c o g n i t i o n ,n e ) :识别名称、地点等信息; 2 共指消解( c o r e f e r e n c er e s o l u t i o n ,c o ) :识别文本中实体间的指代关系; 3 模板元素构建( t e m p l a t ee l e m e n t , - 1 日:填充命名实体到模板中; 4 模板关系构建( t e m p l a t er e l a t i o n , 1 鼬:识别模板之间的关系; 5 情景模板建立( s c e n a r i ot e m p l a t e ,s d :填充t e 和t r 到模板中。 在这五项任务中,最简单和最可靠的技术就是命名实体识别,目前命名实体 识别准确率的最好结果为9 6 ,而g a t e 中命名实体识别功能的准确率为9 2 , 这个结果已经基本达到人工识别的准确率,当然这些结果都是针对英文来说的, 目前中文命名实体识别的准确率最高的为8 4 5 1 1 1 3 1 ,另外所有的这些识别结果 都是领域依赖的。 g a t e 框架的出现为信息抽取的研究提供了一个很好的平台,目前已经出现 了基于该框架的针对自由文本的抽取系统a n n i e ( an e a r l y - n e wi n f o r m a t i o n e x t r a c t i o n ) ,该系统是一个可重用,并且容易扩展的组件集合。在g a t e w e b i e 中 针对英文文档的标注会使用部分a n n i e 的组件,对于中文文档的标注会使用一 个中文信息标注插件进行。同时为了更好的支持领域知识,g a t e 框架也提供了 部分的领域本体支持功能,g a t e w e b l e 中会对该功能进行部分扩展,详细情况请 参考第四章。 2 2 领域本体 领域本体作为一种能在语义和知识层次上描述信息系统的概念模型的建模 工具,在提出后迅速成为信息系统与人工智能领域的一个研究热点,并在许多领 域得到了广泛的应用,如知识工程、软件复用、信息系统间异构信息处理和自然 语言理解等,特别是在信息抽取领域1 1 5 l 。g a t e 中也提供了对领域本体的简单支 持,领域本体作为一种对信息和知识进行规范化描述和建模的方法,在构建信息 抽取系统、构建语义w e b 等方面有很重要的意义。 华东师范大学计算机科学技术系2 0 0 7 年硕士毕业论文 2 2 1 本体的概念 近十年来,本体的研究日趋成熟。在各种文献中,尽管与本体相关的概念和 术语的用法并不完全一致,但是事实的使用约定已经出现。这里借用文献【1 6 】中 对本体的一种定义:本体是用于描述或表达某一领域知识的一组概念或术语。它 可以用来组织知识库较高层次的知识抽象,也可以用来描述特定领域的知识。 由于本体的分类方法很多,目前还没有能够被广泛接受的分类标准。但以下 几个概念的定义意义明确,并从某种程度上提供了本体的分类方法1 1 7 】: 1 领域本体:以某一领域为描述对象的本体( 区别于领域的问题和任务) 。 2 问题求解模型:以问题求解方法为描述对象的本体。 3 表示本体:以知识表示语言为描述对象的本体。在表示本体中,类、对 象、关系、属性和槽等术语经过严谨的分析和定义。 总的来说,构造本体的目的都是为了实现某种程度的知识共享和重用。文献1 1 8 】 认为本体的作用有以下两方面: 1 本体的分析澄清了领域知识的结构,从而为知识表示打好基础。本体可 以重用,从而避免重复的领域知识分析。 2 统一的术语和概念使知识共享成为可能。 2 2 2 本体的建模 概念化建模方法属于知识库系统( k n o w l e d g eb a s e ds y s t e m ,k b s ) 的开发,但 普通开发k b s 的方法不能完全适用于本体建模。因为开发知识本体的目的是用 于人类、计算机对知识的共享和重用,它相对稳定地独

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论