




已阅读5页,还剩73页未读, 继续免费阅读
(模式识别与智能系统专业论文)半结构化网络信息抽取技术及应用研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 本课题研究是实验室课题“电脑农业 的一部分,针对农产品的季节性,周 期性和区域性的特点,进行实时的信息采集尤为重要。 本文针对农产品市场价格数据,采用了基于) ( m l 和x p a t h 的方法,以生成简 单、精确和健壮性较好的抽取规则,开发了可视化网页信息抽取平台,使得用户 通过简单的输入、点击、复制、粘贴等操作,即可完成同一站点页面簇中各页面 分量价格数据的自动化批量抽取。抽取结果具有很好的精确性和召回率。该平台 可以实时、自动地抽取网络上的数据,并在对抽取结果进行整理、清洗后存入后 台数据库。然后建立查询网站,使收集到的数据能够通过网页的形式展现给用户。 同时本文采用了基于参照文本和文档对象模型( d o m ) 相结合的方法来对农 产品供求信息进行抽取,该方法利用基于参照文本抽取的灵活性和d o m 树结构定 位的精确性,可以对网页结构多变的一类网页准确的进行信息抽取。同时结合 g s m 和网络爬虫技术,开发了基于g s m 和w e b 信息抽取的短信推送服务平台,能 够将用户感兴趣的信息以短信的方式及时推送给用户,有效地解决了用户信息服 务个性化、信息更新及时性以及农村用户在获取农产品供求等信息时对互联网的 依赖等问题,改变了传统的依靠搜索引擎获得信息的服务模式。 关键字:网络爬虫w e b 信息抽取w r a p p e rg s m 推送服务 a b s t r a c t a b s t r a c t t h i s t o p i cr e s e a r c h i sap a r to f l a b o r a t o 巧 r e s e a r c ha s“t h e c o m p u t e r a g r i c u l t u r e ”d u et o t h ec h a r a c t e r i s t i c so fs e a s o n a l ,p e r i o d i c a la n dr e g i o n a lo ft h e a g r i c u l t u m lp r o d u c t ,r e a l l t i m ei n f o m l a t i o nc o l l e c t i o ni sp a r t i c u l a r l yi m p o r r t a n t i nt h j st h e s i s ,w eh a v ed e v e l o p e dt h ev i s u a lw e bi n f - o n n a t i o ne x t r a c t i o np l a t f o r m ,b a s e do nm ex m la n dx p a t hm e t h o dt 0g e n e r a t es i m p l e ,p r e c i s ea 1 1 dr o b u s ti 1 1 f o m l a t i o ne x t r a c t i o nm l e s t h ep l a t f 0 n i lc a l le n a b l eu s e r st oc o m p l e t et 王1 e a u t o m a t e db a t c hc o l l e c t i o no fa g ,i c u l t l l r a lm a r k e tp r i c ed a t a ,行o mt h ec l u s t e ro f w 曲p a g e si nt h es a m ew e b s i t eo n l yt h r o u 曲s o m es i m p l eo p e r a t i o n ss u c ha s e n t e r i n g ,c l i c l ( i n g ,c o p y i n g ,p a s t i n ge t c t h ee x 位l c t i o nr e s u l t sh a v eh i 曲a c c u r a c ya i l dr e c a l l t h ep l a c f o mc a nc 0 1 l e c tr e a l - t i m ed a t ao nt l l en e t w o r ka u t o m a t i c a l l y ,c l e a nu pt h ed a t a ,a n df i n a l l ys t o r ei n t ot h eb a c k e n dd a t a b a s e t h e nw ec r e a t eaq u e r yw 曲s i t es ot h a tt h ec o l l e c t e dr e s u l t sc a nb ep r e s e n t e dt ot h eu s e ri nt l l ef o 珊o fw e b p a g e s t l l i st 1 1 e s i ss t u d i e dt h ee x t r a c t i o no fa g r i c u l t u r a lp r o d u c t ss u p p l ya i l dd e m a n d 证f o r m a t i o n 如r c h e r ,b a s e do nt h er e f e r e n c et e x t sa r l dd o c u m e n t so b i e c tm o d e l ( d o m ) 7 n l ee x c e l l e n c emn e x i b i l i t ) ro fm er e f e r e n c et e x t - b a s e dm e t h o da n d p o s i t i o m n ga c c u r a c yo ft h ed o mt r e e b a s e dm e m o d ,c a l lm a l ( ea c c u r a t ei 疵肌a t i o n e x 廿a c t i o nf r o mac a t e g o 巧o fw 曲p a g e sw h o s es t l l j e t u r ei sa l w a y sc h a n g e a b i e t h e n w i t l lt h et e c h n o l o g yo fg s ma n dw 曲c r a w l e r ,、ed e v e l o p e das m sp u s hs e i c e p l a t f - 0 m lb a s e do nw 曲i n f o 肿a t i o ne x t r a c t i o na 1 1 dg s m ,w h i c hc o u l dp u s hu s e r s i n t e r e s t e di m m a t i o nt 0t h e mt i m e l yi nf - 0 m so fs m s t l l ep l a t f o 肌e 虢c t i v e l y s 0 1 v e dt 1 1 ei n d i v i d u a t i o no fu s e ri i o m a t i o ns e n ,i c e s ,t h e l i n e s so fm f o m l a t i o n u p d a t i n ga n dt h ep r o b l e mo fm r a lu s e r s d e p e n d e n c yo ni n t e m e tt og e tt h e i 】怕舳a t i o no fa g r i c u l t u r a lp r o d u c t s i ta l s oc h a n g e d 也e 仃a d i t i o n a ls e i c en l o d e l w 1 1 i c hr e l i e do ns e a u r c he n g i n e st og e ti n f o m a t i o n k e yw o r d s :w 曲c r a 、v 1 e r ,w 曲i n f o m a t i o ne x t r a c :t i o n ,w a p p e r ,g s m ,p u s hs e i c e i i 中国科学技术大学学位论文原创性和授权使用声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作 所取得的成果。除已特别加以标注和致谓 的地方外,论文中不包含任 何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究 所做的贡献均已在论文中作了明确的说明。 本人授权中国科学技术大学拥有学位论文的部分使用权,即:学 校有权按有关规定向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 保密的学位论文在解密后也遵守此规定。 作者签名:孟鹫 2 0 。g 年6 月f 1 日 第l 章绪论 第1 章绪论 1 1 选题背景和意义 随着i n t e r n e t 的发展,w w w ( w o r l dw i d ew e b ) 逐渐成为了信息发布和获取的 主要场所,其上的数据一直呈几何级数的增长。能够处理这样一个庞大的信息资 源的信息系统成为了信息检索和信息挖掘研究的热点。海量的i n t e r n e t 在线数 据中蕴含了大量极有意义的信息。这些信息大多是以文字的形式呈现给用户的, 而网页自身内容的无结构性使这些文本的阅读难以由机器实现,而信息检索技术 在对文本检索的准确性和检索力度上又达不到用户的要求,因此人们迫切需要一 种可以快速、有效和准确地从海量数据中获取所需信息的方法。 与传统的信息资源相比,w w w 上信息资源有着分布性、异构性、开放性、动 态性和庞大性等特点。这些特点导致w w w 上的数据的信息接口和组织形式各不相 同,使得信息系统不能直接的利用w w w 资源。在信息系统和w w w 资源之间需要有 一个中间层来进行转换。包装器( w r a p p e r ) 通常用来提供这样的中间信息转换机 制。在w w w 资源中,具有半结构化数据特征的w e b 文档占有很大的比例,在本文 中,我们的处理对象也就是这些w e b 文档。 由于农业信息具有随季节,周期和区域变化的特点,对农业信息的实时采集 工作就显得尤为重要。网页信息抽取正是顺应了网络发展以及人们对于信息需求 的要求不断提高而出现的。通过网页信息抽取,人们能够将感兴趣的信息从网页 中抽取出来存入数据库中,提供更强大的查询功能;通过网页信息抽取,人们能 够将有用的信息抽取出来进行分析处理,进行再次发布;通过网页信息抽取,人 们能够将多个网站的信息集成,进行比较分析( 李香,2 0 0 7 ) 。 然而信息抽取是一个很困难的研究领域,它牵涉到了多种学科,比如自然语 言理解,人工智能,统计学等等,而网页信息抽取又有其自身的特点。网页本身 是规范的,因为有w 3 c 等国际组织一直管理着网页的标准,但同时网页本身又是 不规范的,因为w 3 c 的标准只是建议性的,没有强制执行力;另外,各个浏览器 厂商为了打击对手,故意或者非故意的在网页中引入一些不规范的动作,这些都 使得实际应用中的网页结构残缺不全。因此针对网页的信息抽取必须考虑到各种 各样的非理想情况,这样才能开发出精确性较好健壮性较高的信息抽取系统( 陈 红叶,2 0 0 2 ) 。 同时,随着i n t e r n e t 上信息的急剧增长,人们开始迫切的希望找到一种能 够在无限的信息海洋中自动获取适用,简单和精炼信息的方法。而仅仅依靠目前 的搜索引擎己很难满足人们的需要。信息主动服务技术可以将用户感兴趣的信息 第1 章绪论 及时推送给用户,有效地解决了用户信息服务个性化和信息更新及时性的问题, 改变了传统的网上信息服务模式。 截至2 0 0 7 年1 2 月,我国互联网用户已经居世界第二位,但来自农村的用户 只占1 7 8 。而手机在农村的普及率却大大提高,以短信为主的数据业务正在以 每年超过百分之百的速度增长( 于静,2 0 0 8 ) 。因此我们基于网络农业信息的特 征及存在的问题,开发了基于g s m 和w e b 信息抽取的短信推送服务平台,以解决 农村用户在获取农产品供求等信息时对互联网的依赖问题。 1 2 相关研究 随着w e b 资源作为信息来源的地位变得越来越重要,w e b 信息抽取( w e b i n f o r m a t i o ne x t r a c t i o n ,w i e ) 成为信息抽取研究领域中的一个热点。从网站 中抽取信息的工作通常由一种叫做w r a p p e r 的程序完成。w e b 信息抽取技术的发 展也围绕着w r a p p e r 生成技术的发展而进行。早期从网站上抽取信息的方法基本 上是基于手工操作的。程序员认真研究网站的结构后手工编写代码,开发w r a p p e r 程序,把网页的逻辑特征抽取出来并存入到数据库。t s i 删i s ( t h es t a n f o r d i b m m a n a g e ro fm u l t i p l ei n f o r m a t i o ns o u r c e s ,斯坦福一i b m 多信息源管理系统) 是早期的帮助构造w r a p p e r 程序的框架系统。t s i m m i s 的目标是以一体化的方式 获取不同信息源的信息并且保证所获取信息的一致性,其重点是开发支持包装过 程的语言和工具。 对于数据量大、结构动态变化的网站而言,需要一种更为有效的w r a p p e r 构 造方法。下面介绍几个自动或半自动生成w r a p p e r 的系统。 首先是处理结构化和半结构化网页的系统,包括s h o p b o t ,w i e n ,s o f tm e a l y 和s t a l k e r 系统。这类系统属于w r a p p e r 生成系统,采用分隔符为主的抽取 规则,不需要用到句法和语义知识。局限于处理结构化较好的数据。s h o p b o t 是 一个比价代理系统,专门从商家网站上抽取产品信息,局限性较大。其算法主要 针对以表单形式提供查询的页面,返回的搜索结果是以表格形式显示的产品信息 页面。从结果页面中抽取信息的技巧结合了启发式搜索、模式匹配和归纳式学习, 但有些关键信息必须采用手工编码的方法获取。w i e n ( w r a p p e ri n d u c t i o ne n v i r o n m e n t ,w r a p p e r 归纳环境) 是一个辅助w r a p p e r 生成的工具,实现网页的自 动分析。 w i e n 首先提出了w r a p p e ri n d u c t i o n 这一术语。其方法不局限于某一领域, 也不局限于h t m l 文本,而是适用于所有包含表格信息的结构化文本。这种方法 可以处理被他们称之为具有f i l r t 结构的网页:头分隔符、左右分隔符( 在每个 待抽取的事实的左右) 和尾分隔符。由于w i e n 只考虑与待抽取数据紧相邻的分 2 第1 章绪论 隔符,因此不能处理那些数据不全或信息项顺序不固定的网页。s o f t m e a l y ,是 w i e n 之后力图改进w i e n 的w r a p p e r 归纳算法的系统之一,其w r a p p e r 被称为“非 确定有限自动机”( n o n d e t e r m i n i s t i cf i n i t ea u t om a t a ) 。s o f tm e a l y 的 规则允许使用通配符,而且能处理信息缺失和顺序变化,它的抽取模式比w 工e n 规定的具有更强的表达能力。 s t a l k e r 采用指导学习的算法归纳抽取规则,网页文档用所谓的“内嵌目录” ( e m b e d d e dc a t a l o g ) 表示。s t a l k e r 可以包装有任意层结构的信息源。由于每 个节点的抽取与其子节点独立,因此对文档中信息点的顺序不敏感,对于信息点 缺失或顺序多变的文档一样能处理。其次是处理半结构化和非结构化网页的系 统,包括r a p i e r ,s r v 和w h i s k 系统。这类系统更接近于传统的信息抽取方法。 它们的重点是用机器学习方法来解决信息抽取的问题。 r a p i e r ( r o b u s ta u t o m a t e dp r o d u c t i o no fi n f o r m a t i o ne x t r a c t i o nr u l e s ,健壮的信息抽取规则自动生成系统) 以半结构化文本为处理对象学习抽取规 则。系统输入指明待抽取信息的“填充模板”( f i l l e dt e m p l a t e ) 组对作为训 练内容,从中获得模式匹配规则,抽取“填充子 ( f i l l e r ) 填充模板中的空槽 ( s l o t ) 。r a p i e r 的抽取规则是建立在分隔符和内容描述的基础上的。 s r v ( s e q u e n c er u l e sw i t hv a l i d a t i o n ,带确认功能的序列规则) 是一种 自上而下、关系型的信息抽取算法。s r v 把信息抽取问题看成是一种分类问题。 文本中所有可能的短语( 取最长者) 都是实例。文档中的候选实例被提交到分类 器,系统会给每个短语赋一个测量值,用于反映该短语作为目标格填充子的信度。 s r v 的规则具有较强的表达能力,且无需先进行句法分析。 w h i s 系统能处理的文本对象很全面,从结构化程度很强的文本到网页等半 结构化文本,还能处理新闻等纯文本。系统采用指导学习算法,而且需要输入一 系列手工标注的训练实例。标注和学习过程是交织在一起的。每次循环,系统将 提交一批实例让用户标注,系统则从标注的实例中归纳出规则。 再次,随着x 6 i l 技术的发展,x m l 技术也被引入了信息抽取研究领域,并带 来了突破,包括x w r a p ,x t r o s 和a n d e s 系统。用) ( m l 文档抽取规则能够提高系 统的模块化和灵活性,并且由于利用了) ( m l 解析器,系统在实现上也得到大大的 简化。另外,用) ( m l 表示的w r a p p e r 利用了x m l 的互操作性,使w r a p p e r 能够在 分布式环境中更方便地移植和共享。 x w r a p 是一个半自动地产生w r a p p e r 程序的框架系统。x w r a p 抽取隐含在原 始页面中的关于信息内容的元数据,把元数据编码成显式的) ( m l 标签放入输出x m l 文档中。另外,它的基于查询的内容过滤处理也是在x m l 文档之上进行的。x w r a p 提供了友好的用户界面,使用户只需要进行简单的操作就能生成自己的信 第l 章绪论 息抽取规则,具有良好的可扩展性。 x t r o s 采用了基于领域知识的w r a p p e r 生成方法,通过x m l 文档表示特定的 领域知识和产生的w r a p p e r 。w r a p p e r 生成算法借助于领域知识识别出样本文档 中的包含有用信息的部分,找出这部分中最频繁出现的模式,最后根据这个模式 的结构和出现的位置构造出w r a p p e r 。 a n d e s ( an i f t yd a t ae x t r a c t i o ns y s t e m ) 是一个融合了网络爬虫技术和 基于x m l 的信息抽取技术的信息提取系统框架。a n d e s 将原始页面格式化为煳l 文档再进行结构分析、数据映射和集成,最终的输出也是) ( m l 文档。它还提供了 基于w e b 的管理接口和自我监控功能。 最后,近年来出现了本体( 0 n t o l o g y ) 知识方法和机器学习方法的结合。从 而得以实现更加健壮的、更能适应网页快速变化的、更加智能的w e b 信息抽取系 统。如上面介绍的x t r o s 系统就使用了特定领域的知识帮助发现模式。c r o s s m a r 是一个电子零售产品比较代理系统其w r a p p e r 归纳融合了背景知识和语言分 析,从而提高其信息抽取的能力,并易于适应变化。( 李岩,2 0 0 3 ) 1 3 本文结构 第二章介绍了半结构化w e b 信息抽取与相关技术。包括半结构化数据的特 点,半结构化网页的分类,w e b 信息抽取的特点、分类及存在的问题,最后对相 关技术如x m l 、d o m 、x p a t h 等进行了简单的介绍; 第三章介绍了网路爬虫系统的设计及具体实现。包括网络爬虫的体系结构、 关键技术、具体实现及系统测试,最后就基于j a v a s c r i p t 脚本切片的网路爬虫 技术进行了探讨; 第四章重点阐述了w e b 信息抽取算法的设计与实现。首先对待抽取网页进行 简单描述,然后分别对单页单记录型的网页抽取和单页多记录型的网页抽取进行 了研究,包括具体的算法设计和实现,最后给出了具体实现的j a v a 类和实验结 果及分析; 第五章介绍了数据清洗与后处理。包括数据清洗的原理、方法、具体实现及 模块的运行; 第六章阐述了基于g s m 技术和w e b 信息抽取的短信推送服务平台的设计与实 现。包括平台开发背景、设计思想、总体功能模块的设计、各功能模块的设计及 具体实现。 1 4 本文工作 本文详细介绍了使用x m l 和x p a t h 的方式针对农产品市场价格数据来生成简 4 第l 章绪论 单、精确和健壮性较好的抽取规则的方法,开发了相关的可视化网页信息抽取平 台,实现了网页信息的j t r e e 树状显示和位置路径表达式的自动生成。通过用户 的可视化界面配置,对页面簇中各页面分量自动生成抽取规则,实现站点中相似 网页价格数据的自动化批量抽取。 同时本文详细阐述了基于参照文本和d o m 树的方式对农产品供求信息进行 抽取的方法,该方法利用基于参照文本抽取的灵活性和d o m 树结构定位的精确 性,可以对网页结构多变的一类网页准确的进行信息抽取。 并且,利用g s m 技术、网络爬虫技术,开发了基于g s m 和w e b 信息抽取的短 信推送服务平台,能够将用户感兴趣的信息以短信的方式及时推送给用户,有效 地解决了用户信息服务个性化、信息更新及时性以及农村用户在获取农产品供求 等信息时对互联网的依赖等问题,改变了传统的依靠搜索引擎获得信息的服务模 式。 第2 章半结构化w r e b 信息抽取与相关技术 第2 章半结构化w e b 信息抽取与相关技术 以下从几个方面综述与本文有关的研究工作。首先概述半结构化数据的特 点,然后介绍w e b 信息抽取及相关技术的研究情况。 2 1 半结构化数据 信息抽取处理的文本可分为三种:自由式文本、半结构化文本和结构化文本 ( m u s l e ai ,1 9 9 9 ) 。信息抽取最初的目的是开发实用系统,从自由文本中析取有 限的主要信息,处理自由文本的i e 系统通常使用自然语言处理技巧,其抽取规 则主要建立在词或词之间句法关系的基础上。结构化文本是一种数据库里的文本 信息,或者是根据事先规定的严格格式生成的文本,具有较强的结构性,信息抽 取的对象一般为某些字段所对应的内容。半结构化文本是一种介于自由文本和结 构化文本之间的数据,通常信息缺少语法,有一定的格式,但没有严格的格式限 制,h t m l 文档就属于半结构化数据。它一般是自描述的,数据的内容和结构混 合在一起,没有明显区分( 王煜,2 0 0 1 ) 。 2 1 1 半结构化数据出现的原因 半结构化数据的出现有以下几个原因( 董树明,2 0 0 4 ) : 1 、某些数据源被当作数据库处理,但它并不完全遵循某种数据形式。最典 型的例子就是w e b 数据。大多数w e b 查询是利用r e t r i e v e 技术从w e b 内容中获 取单个的网页,而没有利用w e b 的结构来明确表达查询。此外,由于w e b 并不符 合任何标准的数据模型,因此我们需要一种方法来描述它的结构。 2 、在不同数据库之间交换数据时需要一种灵活的数据模式,这是数据交换 和数据转换的需求。 3 、对于某些结构化数据,为了显示的方便也将它作为半结构化数据来处理。 通常,如果不了解数据库的模式,是不可能写出数据库查询语句的,而数据库的 模式又包含许多难以理解的术语和关系,因此,为了能够在不完全了解数据模式 的情况下写出查询语句,就提出了这个需求。 2 1 2 半结构化数据的特点 半结构化数据存在一定的结构,但这些结构或者没有被清晰的描述,或者经 常动态变化,或者过于复杂而不能被传统的模式定义来表现。半结构化数据模式 与传统的关系或面向对象数据模式不同,它主要有以下特点( 董树明,2 0 0 4 ) : 1 、半结构化数据先有数据,后有模式; 第2 章半结构化w r e b 信息抽取与相关技术 2 、半结构化数据的模式用于描述数据的结构信息,而不是对数据结构进行 强制性的约束; 3 、半结构化数据的模式具有非精确性。它可能只描述数据的一部分结构, 也可能随着数据处理不同阶段的视角不同而不同; 4 、半结构化数据的模式可能规模很大,甚至超过源数据的规模,而且会由 于数据的不断更新而处于动态的变化过程中。 2 1 3 半结构化w e b 页面的分类 鉴于目前w e b 网页的特点,按照单张网页对应的记录数目,大致分为两类( 董 树明,2 0 0 4 ) : 1 、单页单记录 单个网页包含的信息被抽取后,被映射到目的结构的单条记录中,即一个网 页只含有单个信息块,一个网页对应一条记录。例如包含某种农产品供求信息详 细介绍的网页,页面信息在模式定义完成后,将被映射到目的结构的单条记录中, 目的模式如表2 1 所示。 表2 1 单页单记录抽取模式定义 匣翌丑里翌 ! ! 卫翌! 匹! 璺 则抽取出来的数据在目的结构中如表2 2 所示。 表2 2 单页单记录抽取结果 信息标题信息类别联系人联系电话 发布时间 信息内容 本花场有各品 供应各品供应信息 x x x13 9 x x x x x x2 0 0 7 1 2 4 种大小杜鹃花, 种杜鹃花 有意者请联系。 2 、单页多记录 一个网页含有多条记录,即多信息块,其中包含的信息被抽取后分别对应到 目的结构的多条记录中。例如包含多种农产品市场价格的网页。对于数据抽取而 言,每一种农产品的信息都对应目的结构的一条描述记录,目的模式如表2 3 所示。 表2 3 单页多记录抽取模式定义 l 品名i 价格l 单位i 交易地址l 联系人l 联系时间i 发布时间i 则抽取出来的结果数据如表2 4 所示。 7 第2 章半结构化w e b 信息抽取与相关技术 表2 4 单页多记录抽取结果 品名价格 单位交易地址联系人联系时间发布时间 大米 3 0 0 元0 公斤双柏县妥甸市场 x x xx x x x x2 0 0 8 0 3 1 2 牛肉 3 0 元| 公斤 绿春县 x x xx x x x x2 0 0 7 0 7 1 6 2 2w e b 信息抽取技术 随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式出 现在人们面前。为了应对信息爆炸带来的严重挑战,迫切需要一些自动化的工具 帮助人们在海量信息中迅速找到真正需要的信息。信息抽取( i n f o r m a t i o ne x t r a c t i o n ) 技术的研究正是在这种背景下产生的,它不仅让计算机找到相关的文 档,而且还要找到相关的内容。 信息抽取的主要目的是从半结构或无结构的信息中抽取出特定的事实信息 ( f a c t u a li n f o r m a t i o n ) 。比如,从新闻报道中抽取出恐怖事件的详细情况:时 间、地点、作案者、受害者、袭击目标、使用的武器等;从经济新闻中抽取出公 司发布新产品的情况:公司名、产品名、发布时间、产品性能等;从病人的医疗 记录中抽取出症状、诊断记录、检验结果、处方等。通常被抽取出来的信息以结 构化的形式描述,可以直接存入数据库中,供用户查询以及进一步分析利用。传 统方式下,信息抽取是通过被称作包装器的程序来实现的,下面给出信息抽取的 定义。 2 2 1 信息抽取概述 正如上面所讨论的,信息抽取实际上是从无结构或半结构的信息中识别出用 户感兴趣的数据,并将其转化为更为结构化、语义更为清晰的数据的过程,该过 程定义如下:信息抽取过程= s 与s 。其中映射w 为包装器,完成从无结构或 半结构的信息到结构化信息的转换功能,s 为包含一组隐含且待抽取对象的无结 构半结构的信息源( 如w e b 页面) ;s 为一种更为结构化,语义更为清晰的数 据结构( 如x m l 、关系数据库等) ( 董树明,2 0 0 4 ) 。 从自然语言文本中获取结构化信息的研究最早始于2 0 世纪6 0 年代中期,这 被看作是信息抽取技术的初始研究,它以两个长期的、研究性的自然语言处理项 目为代表:美国纽约大学开展的l i n g u i s t i cs t r i n g 项目和耶鲁大学的基于故事 脚本理论的f r u m p 系统。这两个项目采用的一些处理方法被后来的许多信息抽取 系统所采用。从2 0 世纪8 0 年代末开始,m u c ( m e s s a g eu n d e r s t a n d i n gc o n f e r e n c e ) 系列会议的召开使得信息抽取研究蓬勃开展起来,信息抽取发展成为自然语 言处理领域一个重要分支,并一直推动这一领域的研究向前发展。m u c 定义的信 第2 章半结构化w 曲信息抽取与相关技术 息抽取任务的各种规范及其所确立的评价体系已经成为信息抽取研究事实上的 标准。 目前,另一系列测评会议美国国家标准技术研究所( n a t i o n a li n s t i t u t eo fs t a n d a r d sa n dt e c h n o l o g y ,n i s t ) 组织的自动内容抽取( a u t o 眦t i cc o n t e n te x t r a c t i o n ,a c e ) 评测会议正推动着信息抽取研究的进一步发展。与m u c 相比,目前的a c e 评测不针对某个具体的领域或场景,它采用基于漏报( 标 准答案中有而系统输出中没有) 和误报( 标准答案中没有而系统输出中有) 为基 础的一套评价体系,还对系统跨文档处理( c r o s s d o c u m e n tp r o c e s s i n g ) 能力进 行评测。这一新的评测会议将把信息抽取技术研究引向新的高度。 中文信息抽取方面的研究起步较晚,主要的研究工作集中在对中文命名实体 的识别方面( 车万翔,刘挺,李生,2 0 0 4 ) ,在设计实现完整的中文信息抽取系统方 面还处在探索阶段。其中,国立台湾大学( n a t i o n a lt a i w a nu n i v e r s i t y ) ( h h c h e ne ta l ,1 9 9 8 ) 和新加坡肯特岗数字实验室( k e n tr i d g ed i g i t a ll a b s ) 参加 了m u c 一7 中文命名实体识别任务的评测,i n t e l 中国研究中心的z r a n gy i m i n 和z h o uj o ef 等人在a c e 一2 0 0 0 上演示了他们开发的一个抽取中文命名实体以及 这些实体间相互关系的信息抽取系统,该系统利用基于记忆的学习( m e m o r y b a s e dl e a r n i n g ,m b l ) 算法获取规则用以抽取命名实体及它们之间的关系( y m z h a n g ,j f z h o u ,2 0 0 0 ) 。 现代信息抽取技术来源于文本理解,这类抽取系统只能在很窄的知识范围内 运行良好,向其它领域移植的性能很差( e i k v i ll ,1 9 9 9 ) 。随着w e b 资源作为 信息来源的地位变得越来越重要,w e b 信息抽取( w e bi n f o r m a t i o ne x t r a c t i o n , w i e ) 成为信息抽取研究领域中的一个热点。 2 2 2w e b 信息抽取的特点 w e b 信息抽取技术并不试图全面理解整篇w e b 文档,只是对文档中包含相关 信息的部分进行分析,至于哪些信息是相关的,那将由系统设计时确定下来。w e b 信息抽取技术对于从大量的w e b 文档中抽取需要的特定事实来说是非常有用 的。互联网上就存在着这么一个网页库。在网上,同一主题的信息通常分散存放 在不同网站上,表现的形式也各不相同。若能将这些信息收集在一起,用结构化 形式储存,那将是有益的。成功的w e b 信息抽取系统将会把互联网变成巨大的数 据库( 朱学吴,2 0 0 7 ) 。 一个w e b 文档就是一个网页,网页与纯文本的结构差别很大,主要表现为 网页中存在大量的标记,这些标记将网页要显示的文本内容分隔开来,大量的标 记为网页信息抽取提供了更多可利用的信息,从而可以开发各种不同于传统信息 抽取的方法对网页进行信息抽取。同时,网页是半结构化的。网页本身是规范的, 9 第2 章半结构化w r e b 信息抽取与相关技术 因为有w 3 c 等国际组织一直管理着网页的标准,但同时网页本身又是不规范的, 因为w 3 c 的标准只是建议性的,没有强制执行力;另外,各个浏览器厂商为了打 击对手,故意或者非故意的在网页中引入一些不规范的动作,这些都使得实际应 用中的网页结构残缺不全。因此针对网页的信息抽取必须考虑到各种各样的非理 想情况,这样才能开发出精确性较高健壮性较好的信息抽取系统。 2 2 3w e b 信息抽取分类 传统w e b 信息抽取的方式是手工编码。这种方式费时费力,容易出错,需要 专家完成,而且这种方式难以维护,如果站点结构一变,所有代码就得重新编写。 为了更好的解决这个问题,人们提出了各种各样半自动或自动化的方法。对各种 方法进行分类的角度可以有多种,比如根据自动化程度,可以分为手工、半自动 和全自动。根据方法的原理可以分为基于自然语言理解方法、机器学习方法、o n t o l o g y 方法、h t m l 方法等,还可以根据结果是否是x m l 的、是否可以抽取复杂 数据结构这些角度考虑。本文将主要从方法的原理进行分类,同时着重从实用角 度分析每种方法或者系统的各种特性。 2 2 3 1 基千自然语言理解的方法 基于自然语言方式的信息抽取技术主要适用于源文档中包含大量文本的情 况,对缺少规范的语法结构的结构化和半结构化文本并不是太适合,且该方法的 处理速度通常比较慢,这对于网上海量信息来说是一个大问题。这种方式通常使 用过滤技术,词性标记和词汇语义标记去建立短语和句子元素间的关联,通过给 定的例子学习抽取规则。这些规则通过语法和语义上的约束来定位元素( a 1 b e r t oh f l a e n d e re ta l ,2 0 0 2 ) 。主要有三种工具r a p i e r ( m a r ye l a i n ec a l i f f ,r a y m o n dj m o o n e y ,1 9 9 8 ) 、s r v ( d a y n ef r e i t a g ,2 0 0 0 ) 和w h i s k ( s t e d h e ns o d e r l a n d ,1 9 9 9 ) ,r a p i e r 和s r v 只能抽取单条记录,而w h i s k 可以抽 取多条记录。 2 2 3 2 基于机器学习的方法 基于机器学习的方法的抽取规则是基于分隔符来定位要抽取的数据,也是通 过人为标记的样本自动学习抽取规则。它和前面一种方法主要不同之处在于它们 并不依赖于语言上的约束,而是描绘数据的隐式的格式特性( a l b e r t oh f l a e n d e re ta l ,2 0 0 2 ) 。主要有二种工具w i e n ( n i c h 0 1 a sk u s h m e r i c k ,2 0 0 0 ) 、 s o f t m e a l y ( c h u n n a nh s ue ta 1 ,1 9 9 8 ) 和s t a l k e r ( i o nm u s l e ae ta 1 ,2 0 0 1 ) 。w i e n 和s o f t m e a l y 必须依靠紧挨着数据的分隔符来定位数据,而且还不 能抽取复杂格式的数据;s t a l k e r 引入e c t 树来表示复杂格式的数据。 2 2 3 3 基于0 n t o io g y 的方法 基于0 n t 0 1 0 9 y 的方法主要依赖一个完全的知识库( d a v i dw e m b l e ye ta 第2 章半结构化w r e b 信息抽取与相关技术 l ,1 9 9 9 ) 。知识库定义了各个元素的抽取模式,还有它们之间的联系。在抽取 之前,需要将包含数据的记录块分隔开来,然后依次对每个记录块进行信息抽取。 抽取模式没有使用依赖于特定文档的分隔符或者词性这样的自然语言理解技术, 而是主要使用通用的词法模式,比如姓名的模式是“ a z a z a z l s + ( a z j 1 s + ) ? 。这种方法不依赖于任何结构和表现形式。它使用o n t 0 1 0 9 y 来定位关 键信息并使用这些元素构造对象。不过,这事先需要构造一个完整的o n t o l o g y 库,而构造这样一个库要由专家花很长时间。而且,有时很多信息很难给出对应 的o n t o l o g y 。这方面最具代表性的是由b r i g h a i i iy o u n gu n i v e r s i t yd a t ae x t r a c t i o ng r o u p 开发的信息抽取工具。 2 2 3 4 基于h t m l 结构的方法 基于h t m l 结构的信息抽取技术是依靠h t m l 文件固有的结构特性进行信息抽 取的。在进行信息抽取之前,先把h t m l 文件转换成解析树,这个解析树反映其 层次结构。接着,半自动地或者自动地生成抽取规则,并把它应用于这棵树上。 采用这种方式构建的系统有w 4 f ( s a h u g u e r ,f a b i e na z a v a n l ,1 9 9 9 ) 、x w r a p ( l i n gl i u ,c a l t o np u ,w e ih a n ,2 0 0 0 ) 等。w 4 f 和x w r a p 都设计了各自的抽 取规则,根据树结构可以精确的定位数据。因此它们都包含了图形用户界面以帮 助生成抽取规则,但是简单的点击有时并不能描述复杂数据的抽取模式,因此自 动生成的抽取规则可能需要重新改写。x w r a p 生成j a v a 代码的w r a p p e r ,这使得 修改起来很困难。 2 2 3 5 完全自动化的方法 完全自动化的方法不需要人为标记样本,也不需要人为编写抽取规则。这种 方法根据网页的相似性结构自动找到网页中的数据并归纳出抽取规则,用户只需 要最后对数据模式进行标记( 周津,2 0 0 4 ) 。这方面典型的工作有i e p a d ( c h i a h u ic h a n g ,s h a o c h e nl u i ,2 0 0 1 ) 、r o a d r u n n e r ( v a l t e rc r e s c e n z i ,g i a n s a l v a t o r em e c c a ,2 0 0 3 ) 等。但是这种方法并不适用于定制的信息抽取任务, 比如抽取某个网页中某一块的信息,因为很多任务并不是简单的获取所有网页中 变化的数据或者频繁出现的结构中的数据。 2 2 4w e b 信息抽取存在的问题 通过以上研究知道,这些信息抽取算法有些只适用于正文的抽取,要用到自 然语言处理的一些方法,技术复杂;而用本体的信息抽取方法设计本体库又是一 件很困难的事情,可操作性差且有明显的使用范围限制。并且不同的系统使用的 描述语言不同,从而要求进行干预的人员不仅需要具有较多的先验知识,且还要 对系统使用的描述语言较为了解,因此对人员的要求比较严格。而用页面结构分 析与智能节点分析转换的方法,自动抽取结构化的数据技术难度高,前期研发成 第2 章半结构化w r e b 信息抽取与相关技术 本高,周期长,只适合网页库级别结构化数据采集和搜索的高端应用,且抽取结 果不够精确( 蒋勇,2 0 0 7 ) 。因此就迫切需要设计一种既简单又适用的的精确的 信息抽取方法。 2 3 相关技术 本文的信息抽取方法中涉及到很多标准技术,这些标准技术是本文的工作基 础。本章将一一介绍这些技术。 2 3 1h t m l ( h y p e rt e x tm a r k u pl a n g u a g e ) h t m l 是一个用于创建网页的标记语言,它是一个由w 3 c 组织创建并且维护 的i n t e r n e t 标准,通常表现为连接到互联网的计算机中的文本文件。这些文件 中包含很多标记,这些标记是告诉浏览器如何表现或处理文本内容的指令。 h t m l 在展示数据方面十分成功,但是对于机器来说,一个h t m l 文档是很难 理解的。因为h t m l 着重于数据的表现而非数据的描述。比如 这样的标记 根本无法获得它们所包含文本究竟是什么内容,着重于数据描述的是另外一个语 言) ( m l ( 周津,2 0 0 4 ) 。 2 3 2x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) x m l 的全名是可扩展标记语言( e x
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 瑜伽用品品牌国际化创新创业项目商业计划书
- 科技成果转化与应用咨询创新创业项目商业计划书
- 美术用品订阅模式创新行业跨境出海项目商业计划书
- 线上社交品酒会创新创业项目商业计划书
- 羊肉文化传媒企业制定与实施新质生产力项目商业计划书
- 医患关系科招聘指南
- 德州语文中考试卷及答案
- 2025年教育法律试题及答案
- 2025年医院核心制度查对制度考试试题及答案
- 2025市政工程质量员资格考试题库与答案
- 2022新能源集控中心软硬件设备采购及配套实施服务技术规范书
- 形体训练24课件
- GB/T 12643-2025机器人词汇
- 学校装饰装修工程施工方案
- 品质部IQC进料检验标准培训
- DL-T 5876-2024 水工沥青混凝土应用酸性骨料技术规范
- 【MOOC】数据库原理及应用-电子科技大学 中国大学慕课MOOC答案
- 节约集约建设用地标准 DG-TJ08-2422-2023
- 老年人体重管理策略研究
- 捷联惯导算法与组合导航原理讲义
- 新课标下的教学实践策略:基于“教学评”一体化的教学设计
评论
0/150
提交评论