




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)可视化网页信息抽取系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
北京工商大学硕士学位论文 摘要 随着i n t e r a c t 上信息的迅猛增长,w e b 已成为信息的海洋,如何从这片遍布全 球的信息海洋中快速准确的获取所需要的信息已成为一个极具现实意义的重大课 题。w e b 信息抽取技术正是在这样的背景下应运而生的。 分装器( w r a p p e o 技术是当前w e b 信息抽取广泛采用的一种技术,针对分装器 生成问题,人们提出了各种各样的方法,但这些方法都有其应用的局限性。 本文在利用国内外成果的基础上,进行了一些有益的探索,提出了一种新型 的基于工作流的w e b 信息抽取机制,意在通过提供大量的信息抽取功能组件来简 化信息抽取分装器程序的开发。所做的研究工作主要包括: c ( 1 ) 改进了传统的基于d o m 树的页面分析技术,从增强系统易用性的角度出 发,使用一个j a v a 浏览器引擎设计了一个小型的系统内嵌浏览器,使用户能够直 接在样本页面中通过鼠标来灵活的定义需要抽取的各种信息,如文本、图片、表 格等等。 ( 2 ) 将工作流技术应用到信息抽取系统中,设计了信息抽取工作流的基本模 型,实现了一个可视化的信息抽取工作流模型定义工具,使用户能够定义自己的 抽取流程,同时系统能够模拟用户浏览网页时的一些基本动作,如翻页、提交表 单、输入等等,使得信息抽取就像平时我们自己上网搜寻信息一样。 ( 3 ) 设计实现了一个可扩展的信息抽取动作框架,使用户能够扩充自己的信息 抽取算法。同时实现了大量的信息抽取原子动传如文本抽取、图片抽取、提交 表单、输入文字、遍历标签等等。 本文的创新所在是将工作流机制引入了信息抽取系统的设计之中,并提供了 一个完全可视化的工作平台,让用户能够以所见即所得的方式快速完成信息抽取 任务。实验表明本文构建的可视化网页信息抽取系统能够帮助用户快速、准确的 构造用于从网页上抽取信息的分装器程序,是一个通用的信息抽取平台,有着很 好的实用价值。 关键字:w e b 信息抽取,工作流,分装器,d o m 可视化网页信息抽取系统的设计与实现 a b s t r a c t w i t ht h er a p i dg r o w t ho fi n f o r m a t i o ni nt h ei n t e r n e t ,w e bw o r l dh a sb e c o m et h es e a o ft h ei n f o r m a t i o n h o wt oo b t a i nt h en e e d e di n f o r m a t i o nr a p i d l ya n da c c u r a t e l yf r o m t h ei n f o r m a t i o ns e aa c r o s st h ew o r l dh a sb e c o m ea ni m p o r t a n tt h e s i so fp r a c t i c a l s i g n i f i c a n c e w e bi n f o r m a t i o ne x t r a c t i o nt e c h n o l o g yj u s ta r o s eu n d e rs u c hb a c k g r o u n d w r a p p e r i sc u r r e n t l yw i d e l yu s e df o rw e bi n f o r m a t i o ne x t r a c t i o n m a n ya p p r o a c h e s h a v eb e e np r o p o s e dt oe a s ew r a p p e rg e n e r a t i o n b u ta l lo ft h e mh a v et h el i m i t a t i o ni n t h ea p p l i c a t i o n t h i sp a p e rh a sc a r r i e do u ts o m eb e n e f i c i a le x p l o r a t i o n so nt h ef o u n d a t i o nt h a tu s e s d o m e s t i ca n di n t e r n a t i o n a l a c c o m p l i s h m e n t p r e s e n t s an o v e lw e bi n f o r m a t i o n a u t o m a t i ce x t r a c t i n gm e c h a n i s mb a s e do nt h ew o r k f l o w , w h i c ht r y i n gt os i m p l i f yt h e w r a p p e rg e n e r a t i o nb yp r o v i d i n g ap l e n t yo fi n f o r m a t i o ne x t r a c t i o nf u n c t i o n c o m p o n e n t s t h em a i nr e s e a r c h e sa r ea sf o l l o w : ( 1 ) i m p r o v e dt h et r a d i t i o n a l t r e e - b a s e dp a g ea n a l y s i st e c h n o l o g y t oe n h a n c e s y s t e mf r o mt h ev i e wo fe a s eo fu s e ,as m a l le m b e d d e db r o w s e ri sd e s i g n e db ya j a v a b r o w s e re n g i n e ,e n a b l i n gu s e r st ou s em o u s et ot a k eaf l e x i b l ed e f i n i t i o no ft h ev a r i o u s k i n d so fi n f o r m a t i o ni nt h es a m p l ep a g e ,s u c ha st e x t , p i c t u r e s ,f o r m ,a n ds oo n 。 ( 2 ) w o r k f l o wi sa p p l i e dt ot h ei n f o r m a t i o ne x t r a c t i o ns y s t e m s d e s i g nt h eb a s i c i n f o r m a t i o ne x t r a c t i o nw o r k f l o wm o d e la n da c h i e v ea l li n f o r m a t i o ne x t r a c t i o nw o r k f l o wm o d e ld e f i n i t i o nt o o l ,e n a b l i n gu s e r st od e f i n et h e i ro w ne x t r a c t i o np r o c e s s t h e s y s t e mc a l ls i m u l a t eu s e r sw h e nb r o w s i n gs o m eo ft h eb a s i cs t e p ,s u c ha st u r n i n gt h e p a g e s ,s u b m i t t i n gt h ef o r m ,t y p i n g , a n ds oo n ,m a k i n gi n f o r m a t i o nc o l l e c t e dl i k eo u r o w ni n t e r n e ti n f o r m a t i o ns e a r c h ( 3 ) d e s i g na n di m p l e m e n tas c a l a b l ei n f o r m a t i o ne x t r a c t i o na c t i o nf r a m e w o r k , e n a b l i n gu s e r st oe x p a n dt h e i ro w ni n f o r m a t i o ne x t r a c t i o na l g o r i t h m a n d al a r g e n u m b e ro fi n f o r m a t i o nc o l l e c t e da t o m i ca c t i o n sa r ed e v e l o p e d ,s u c ha st e x te x t r a c t i o n , p i c t u r ee x t r a c t i o n ,f o r ms u b m i s s i o n ,t e x ti n p u t ,t a g st r a v e r s e ,e t c t h ei n n o v a t i o no ft h i sga p e ri sa sf o l l o w s i n t r o d u c e dt h ew o r k f l o w ;n 口e c h a n i s mt o t h ed e s i g no ft h ei n f o r m a t i o ne x t r a c t i o ns y s t e m ,a n dp r o v i d e dac o m p l e t e l yv i s u a l w o r k i n gp l a t f o r mw h i c hm a d eu s e r s f i n i s ht h ei n f o r m a t i o ne x t r a c t i o nt a s kr a p i d l yi nt h e f o r mo fw y s w y g ( w h a ty o us e ei sw h a ty o ug c o t h ee x p e d m e n t ss h o w e dt h a tt h e v i s u a lw e bi n f o r m a t i o ne x t r a c t i o ns y s t e mi sag e n e r a li n f o r m a t i o ne x t r a c t i o np l a t f o r m , h a v i n gh i g hp r a c t i c a lv a l u e i t c a l l h e l p u s e r sd e v e l o pr o b u s ta n dg e n e r a lw r a p p e r r a p i d l y k e yw o r d s :w e bi n f o r m a t i o ne x t r a c t i o n ,w o r k f l o w , w r a p p e r , d o m 北京工商大学学位论文原创性声明 本人郑重声明:所呈交的学位论文是本人在导师指导下进行的研究工作所 取得的研究成果。除了文中已经注明引用的内容外,论文中不包含其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出重要贡献的个人和集体, 均已在文中以明确方式标明。本声明的法律后果完全由本人承担。 学位论文作者签名: 出i 盘叁日期:w 。弓年j 月哆日 北京工商大学学位论文授权使用声明 本人完全了解北京工商大学有关保留和使用学位论文的规定,即:研究生 在校攻读学位期间论文工作的知识产权单位属北京工商大学。学校有权保留并 向国家有关部门或机构送交论文的复印件和电子版,允许学位论文被查阅和借 阅;学校可以公布学位论文的全部或部分内容,可以采用影印、缩印或其它复 制手段保存、汇编学位论文。( 保密的学位论文在解密后遵守此规定) 学位论文电子版同意提交后,可于 口当年d 一年口二年后在学校图 书馆网站上发布,供校内师生浏览。 学位论文作者虢迸l 导师徘驿日期础厂月刁日 北京工商大学硕士学位论文 第一章绪论 1 1 w e b 信息抽取的基本概念 信息抽取领域是近十年来新发展起来的研究领域,一般是指从一个给定的文 档集合中自动识别出预先设定的实体、关系和事件等类型信息,并对这些信息进 行结构化存储和管理的过程。信息抽取在许多领域均有重要的应用。 近年来,随着i n t e r a c t 的发展,互联网上的信息越来越多,几乎所有的网上信 息都是以结构化或者半结构化文本的形式呈现给用户的,因此,因特网是一个特 殊的挑战,一直推动着从w e b 文本中抽取信息的研究向前迈进。 w e b 信息抽取是把网页中包含的有关信息抽取出来并进行结构化处理,使之 变成表格一样的组织形式。网页信息抽取的主要任务是将预定的信息点从各种各 样的网页中抽取出来,然后以统一的形式集成在一起。 信息以统一的形式集成在一起的好处是方便检查和比较,例如比较不同的招 聘和商品信息。还有一个好处是能对数据做自动化的处理和分析,例如用数据挖 掘的方法发现和解释数据模型,如对天气情况,股市行情进行分析和预测等。 w e b 信息抽取技术并不试图全面理解整个网页,只是对网页中包含的相关信 息的部分进行分析和处理,至于哪些是相关的,将由系统设计时定下的领域范围 而定。在互联网上,同一主题的信息通常分散存放在不同的网站上,表现的形式 也各不相同,若能将这些信息收集在一起,用结构化形式存储,那将是非常有益 的。 1 - 2 w e b 信息抽取的现实意义 伴随网络信息爆炸式增长,i n t e r n e t 现今已经成为一个巨大的信息资源库,这 给人们带来巨大便利的同时也使得查找一条有用的信息变得异常困难。搜索引擎 的出现部分缓解了信息搜索的问题,但是结果并不能经常令人满意,其不足主要表 现在: ( 1 ) 搜索引擎搜索返回的搜索结果只是相关网页信息的一个简短摘要以及相 可视化网页信息抽取系统的设计与实现 关链接,用户需要手动点击链接浏览相关网页才能找到最终的信息。 ( 2 ) 返回的网页集的准确性并不高,有价值的网页中夹杂着不相关或用户不感 兴趣的网页,真正需要的网页湮没其中,难以被发现和有效利用。 ( 3 ) 不能提供类似s q l 的强大的查询语言帮助用户处理最终结果。 ( 4 ) 互联网上还存在一个“暗藏网 ,即网上数据库系统,这类数据型网页大 多由后台数据库系统根据用户指令生成,据估计互联网上大约有8 0 的内容存在 于这种看不见的网页中,而搜索引擎的“网络爬虫是无法抓到这些网页的。而 且在当前的网络环境下,a j a x 技术盛行,搜索引擎的网络爬虫对那些采用a j a x 技 术编写的网页也是无能为力的。 ( 5 ) 搜索引擎还具有一定的相对滞后性,搜索引擎从抓取网页、解析、索引到 提供检索有一定周期,且通常间隔一段时间进行一次网页抓取,导致新的信息难 以及时被用户获取。 ( 6 ) 目前主流的搜索引擎还未提供按照行业分类进行搜索,用户还不能限制搜 索引擎仅返回某个行业内的信息,有时用户需要更专业及准确的行业搜索。 ( 7 ) 用户定制性较差,如用户无法命令搜索引擎对某一个网站重新搜索一遍、 重建索引、返回所需信息,也未在搜索页面上提供各种选项,可以让用户对搜索 引擎依照自己的喜好定制搜索。 为了更好地利用互联网资源,就必须从各种各样不同的网站上将相关的信息抽 取出来,并存放到数据库中。这样,用户就可以使用结构化查询语言来快速准确地 查询自己所要的信息。因此,越来越需要可以把相关信息从这些网页中抽取出来 的工具。 1 3 本文的工作 ( 1 ) 研究了现有的w e b 信息抽取技术,并分析比较了各种技术的优点与不足。 ( 2 ) 研究了如何在半结构化的h t m l 文档中利用h t m l 标签与其相关的视觉 信息快速定位目标信息的方法,提出设计了基于标签路径、标签属性、标签模式 的标签查找方法,并设计了一个可视化的标签查找器。通过该标签查找器,用户 不需要花费时间去理解w e b 页面的文档结构就能够快速找到w e b 页面上的相关信 息。 2 北京工商大学硕士学位论文 ( 3 ) 研究了如何将工作流的技术与w e b 信息抽取技术相结合起来,以便能够 快速、准确的将基于h t m l 文档的半结构化w e b 信息抽取出来,将它们转换为更 加结构化的数据,并且保存到关系数据库中。提出并设计了一个w e b 信息抽取工 作流模型,并在此模型的基础上实现了一个基于图形界面的工作流程定制工具与 一些常用的与w e b 信息抽取相关的功能模块,如加载页面、点击链接、提交表单、 循环标签、抽取文本、抽取图片等。 ( 4 ) 在工作( 2 ) 、( 3 ) 的基础上设计并实现了一个可视化网页信息抽取系统,该 系统提供了图形化界面,内置一个网页浏览器,用户只需点击鼠标进行选择,不 但可以灵活定义网页中要抽取的内容( 如文字、图片) ,而且系统采用了工作流机制, 可以模拟用户浏览操作网页的步骤( 如输入注册信息、循环、翻页等) ,并自动生成 一个信息抽取模型。 ( 5 ) 设计、实现了一个信息抽取工作流引擎,通过该引擎能够利用信息抽取模 型自动实现w e b 信息抽取。 1 4 本文的组织结构 第一章为绪论,介绍了信息抽取的研究背景、意义、本文的研究内容。 第二章详细介绍了w e b 信息抽取技术发展研究的现状、w e b 信息抽取系统的 评价指标和现有的w e b 信息抽取技术,并分析比较了其优点与不足。 第三章介绍了系统的设计目标、系统分析、研究思路、总体设计、开发平台 选择。 第四章详细论述了可视化的标签查找器的设计与实现。先给出了标签路径的 定义与设计思路,然后介绍了系统采用的网页解析与相对应的d o m 树生成算法与 实现,最后详细介绍了可视化标签查找器的工作流程与具体实现。 第五章主要论述了基于工作流的网页信息抽取,研究了如何将工作流机制引 入信息抽取系统。先介绍了一些工作流的理论基础,然后结合当前信息抽取的一 些业务流程提出并设计了信息抽取的工作流模型,再在此基础上论述了一个信息 抽取组件框架的设计与实现,最后论述了信息抽取工作流引擎的设计与实现。 第六章为对本文设计的系统的评估和总结,从一个实际任务出发对系统进行 了评估与分析,并对本文的工作进 ;了总结。 3 可视化网页信息抽取系统的设计与实现 第二章w e b 信息抽取技术研究分析 2 1 现有w e b 信息抽取技术分析 目前这个研究领域已经开展了大量的研究工作,有了很多w e b 信息抽取方法, 下面分别按其使用的技术作简要分析。 2 1 1 基于自然语言处理方式的信息抽取 使用自然语言处理进行信息抽取【1 1 ,需要经过的处理步骤包括:句法分析、语 义标注、专有对象的识别( 如人物、公司) 和抽取规则。具体说来就是把文本分割成 多个句子,对一个句子的句子成分进行标记,然后将分析好的句子语法结构和事 先定制的语言模式( 规则) 匹配,获得句子的内容即抽取信息。规则可由人工编制, 也可从人工标注的语料库中自动学习获得。这类信息抽取技术中所用的抽取规则 主要建立在词或词类间句法关系的基础上。 基于自然语言处理方式在含有大量自由文本且句子完整、适合语法分析的网 页中的信息抽取取得了较好效果。但这种方法也存在不少的缺陷: ( 1 ) 将w e b 页面视为普通文本处理,没有充分利用w e b 文档独特于普通文本 的层次特性。获得有效的抽取规则需要大量的样本学习,处理速度比较慢,这对 于网上海量信息来说是一个大问题。 ( 2 ) w e b 页面中的文本通常不含有完整的句子,因此这种方法的适用范围较小。 2 1 2 基于页面抽取语言的信息抽取 指开发一种特定设计的语言帮助使用者实现抽取过程,因此抽取是用手工的 方法编写程序来实现的。其抽取过程是基于过程化的程序,但是抽取结果依赖于 文档的结构。这方面主要的工作有m i n e r v a 5 1 、t s i m m i s 4 1 、w e b o q l 6 1 。m i n e r v a 是a r a n e u s l 7 1 系统的一个重要组成部分,它结合了基于语法的声明方式和典型的过 程化语言。m i n e r v a 使用的语法以e b n f 定义:对每个文档,定义生成式的集合; 每个生成式根据终结符和其它非终结符定义一个语法的- j e 终结符的结构。 4 北京工商大学硕士学位论文 t s i m m l s 可以通过用户写的规范文件来配置。规范文件由一系列定义抽取步骤的 命令组成,通过规范文件解析h t m l 页面,发现感兴趣的数据并进行抽取。 w e b o q l 其最初的目的是在w e b 上能够执行像s q l 那样的查询,w e b o q l 是一 种陈述性的查询语言,能够在h t m l 页面上定位所选择的数据快,可以通过这种 语言编写查询语句在语法树上定位感兴趣的数据并以合适的格式输出这些数据。 此类方法要求使用的人员不仅需要对网页的结构分析和生成等方面较为熟 悉,还要对使用的描述语言较为了解,因此对人员的要求比较严格。 2 1 3 基于分装器方式的信息抽取 分装器( w r a p p e r ) 6 t - - 系列的抽取规则以及应用这些规则的程序代码组成 1 1 6 , 1 7 。通常,一个分装器只能处理一种特定的信息源。从几个不同信息源中抽取 信息,需要一系列的分装器程序库。形式化地,一个分装器实际上是将一类w e b 页面映射到该页面隐含的所需抽取信息的函数。所谓一类w e b 页面就是上述的特 定的信息源,这类页面具有相同或相似的内容和格式,每一类w e b 页面对应一个 分装器。 建造针对网页的分装器主要有两个好处:一是提高了从某一特定信息源获取 相关信息的能力,二是能把不同信息源的信息整合到数据库中,用通用查询语言 即可查找信息。 对分装器生成可以采用人工手动生成也可以采用机器归纳学习的方法。用户 在一系列的网页中标记出需要抽取的数据,系统在这些例子的基础上归纳出规则。 这些规则的精确度如何取决于例子的质量如何。如果能代表那些需要处理的网页, 那么,这些例子就是高质量的。对于我们来说,提供好的样本网页要比提供明确 的完整的规则要容易。归纳学习法作为一种机器学习方法用来学习分装器的规则, 优于手动生成分装器等其它分装器生成方法的地方在于:自动归纳规则,减轻了 人力负担、减少了人为错误,并且当w e b 页面变化时,能对规则做适当调整,适 应这种变化。但此种方法需要有高水平的专业人士参与,且需要用户有较多的先 验知识。 使用分装器的优缺点与困难: i 一 ( f j 努装器较少依赖于全面的句子语法允析衫分词等复杂的自然语言处理技 5 可视化网页信息抽取系统的设计与实现 术,更注重于文本结构和表现格式的分析。这种方式更适合于w e b 页面的信息抽 取,使用分装器能充分发掘w e b 页面的结构和格式特征,能避免使用复杂的语言 学知识,加快信息抽取的速度。 ( 2 ) 使用分装器的困难在于:分装器的针对性强,可扩展性性差。一个分装器 一般只能处理一种特定的信息源,从几个不同信息源中抽取信息,需要一系列的 分装器程序库。分装器对页面结构的依赖性强,当出现一类新的w e b 页面或旧的 w e b 页面结构变化时,原来的分装器就会失效,无法从数据源中获得数据或得到 错误的数据,这就提出了一个新的问题分装器的维护,即分装器失效时,如 何修复失效的分装器使之继续正确抽取数据。其次缺乏对页面的语义理解。目前 的分装器主要依赖于原网页或其后台数据库的模式,基本上是一种数据模式的还 原,缺乏主动性的对数据的语义理解。 本文所设计的信息抽取系统采用了分装器的思想。 2 1 4 基于d o m 树的信息抽取 依赖于h t m l 页面的内在的结构特征,在抽取之前将页面转化成d o m 树, 可以反映页面标签的层次结构,然后将自动或半自动的抽取规则在此树上应用。 主要的工作有x w r a p 剐、l i x t o1 1 1 1 2 1 。 x w r a p 有一个组件库提供抽取规则生成的基本模块,这个工具引导用户通过 一系列的步骤,选择每一步中正确的组件。最后,x w r a p 输出特定源上的一个抽 取规则。在对象抽取这步中,为h t m l 页面预定义了几个启发式,用户可以使用 其中的启发式定位感兴趣的数据对象。用户也可以为了使抽取结果更符合自己的 要求限制或放宽每个对象的组件数目或指定数据类型。该系统的不足之处在于比 较依赖于h t m l 页面结构,且对启发式算法的实现要求较高,对页面结构的适应 性并不是很强。 l i x t o 允许用户以可视化、交互式的方式对样本页面中的信息进行标记,系 统通过记录用户标记的信息生成信息抽取规则,实现对相似结构网页的信息抽取。 用户无需具备与系统相关的专业知识,就可以完成对数据源的包装。在该系统中, 语义信息是在样本学习阶段由用户加入的,采用了先模式的方式,事先由用户在 可视化的界面中定义模式,抽取七的;据最终以x m l 格式存放,使用爵户踅笊的 北京工商大学硕士学位论文 语义项作为x m l 文档中的元素类型名。l i x t o 在一定程度上简化了信息抽取的 步骤,增强了信息抽取技术的实用性。该系统的不足之处在于:它的抽取规则使 用基于d a t a l o g 的e l o g 语言描述的,实现和优化较困难,另外抽取规则中抽取信 息的描述不够丰富,而且对网页中的超链接不作处理,不支持图像信息和文献信 息的处理。 2 1 5 基于模式的信息抽取 这种方法给定感兴趣的目标信息的结构,尝试在网页集中定位到符合该结构 的网页部分,遇到符合结构要求时,则抽取感兴趣的信息。这种方法通过一系列 建模原语( 元组,表等) 来描述结构,构建数据模型。其中识别与给定结构匹配 的目标网页上对象的方法与基于w r a p p e r 归纳方式类似。使用了这种方法的有 n o d o s e d 8 , 1 9 】、d e b y e 2 0 】和s g w r a p 2 。此类方法对于不同的区域类型采用不同 抽取规则提高系统的灵活性和效率。但是该方法只适合对含有明显区域结构的网 页进行信息抽取,不支持对普通网页的抽取,模式的表达能力也非常有限,在学 习阶段用户参与太多。 2 1 6 完全自动化的信息抽取 完全自动化的方法不需要人为标记样本,也不需要人为编写抽取规则。这种 方法根据网页的相似性结构自动找到网页中的数据并归纳出抽取规则,用户通常 只需要最后对数据模式进行标记。这方面的主要工作有r o a d r u 仰e 一9 , 1 0 、m d r l l 3 1 和m d r i i l l 4 1 。 r o a d r u n n e r 通过比较相似的网页归纳出网页的模版,模版使用正则表达式描 述。归纳出来的模版就是抽取规则。这种方法主要适用于由数据库查询生成的页 面,这种页面包含有类型相同的数据,网页是由同一个模板所生成。r o a d r u n n e r 将信息抽取模式生成等同为正则表达式归纳问题。而正则表达式归纳是到目前都 解决得不好的一个问题。r o a d r u n n e r 做了很多假定,假定标记都是模板的一部分, 假定数据是上下文无关的,而这些假定往往是不成立的。除此之外,r o a d r u n n e r 为了归纳出正则表达式,使用了大量的复杂的启发式搜索算法。这使得r o a d r u n n e r 7 可视化网页信息抽取系统的设计与实现 的算法特别敏感,归纳时很容易失败。 m d r 和m d r i i 这两种抽取方法都是由美国i l l i n o i s 大学同一研究小组提出, 其独特的地方在于能够十分准确地在d o m 树中完成对多记录页面的抽取。它们的 实现关键在于利用页面的嵌套结构和表现特征把查询结果从整个页面中分离出 来,并将结果中的多个记录从中彼此精确的划分,其意义是把每个记录作为现实 世界的实体对待,首先从这个角度完成第一步抽取,第二步把每一条记录从属性 的角度进行分解。m d r 把标签树中节点的路径看作个字符串,并使用了比较字 符串编辑距离的思想从数据区中发现代表数据记录的结点,而m d r i i 则是以树的 结构信息代替标签字符串,从而达到对数据记录更准确的识别结果。随着对页面 结构和布局的不断认识,这种方式被重新加以发展深化。 2 1 7 基于页面视觉信息的信息抽取 页面中的视觉信息越来越受到研究者们的注意,目前已经有了相当的工作利 用视觉信息对页面进行分析【2 4 2 s l ,这里有一个重要的原因:网页被设计出来的目 的是为了方便人们浏览从中获取有用的信息,而不是被计算机自动处理,因而获 取页面的视觉信息可以从某种程度上模拟人类的行为对页面信息的识别。文献 2 6 , 2 7 1 在利用视觉信息对页面分块的基础上进行了w e b 搜索和链接方面的研究,而利用 视觉信息在w e b 数据库查询结果抽取方面目前是作为一种有用的辅助手段。文献 【1 4 l 在由页面形成的d o m 树中为元素添加了在浏览器中的位置信息,并认为每个 节点在视觉上占据了一个矩形的区域,而且父节点所占据的矩形区域包含子节点 占据的区域,通过节点的位置和大小信息可以准确地发现在d o m 树中不连续的数 据记录,。而这种情况对以往只利用页面的源码作抽取的分装器来说是无法解决的。 此类方法目前还只是在研究阶段,实际系统中鲜有应用。 2 2 w e b 信息抽取系统的评价指标 信息抽取系统的性能评价般从以下几个方面来考查。 ( 1 ) 准确性,这是最为重要的标准,可以借用信息检索的两个主要概念准确率 ( p r e c i s i o n ) 和召回率( r e c a l l ) 来衡型1 】:准确率在这里指抽取到的正确结果与抽取到 8 北京工商大学硕士学位论文 的全部结果的比;召回率在这里指抽取到的正确结果与要抽取页面的全部结果的 比。计算公式如下: p | n c | n r r | n c | n k 其中p 是抽准率,r 是召回率,表示实际抽取的对象总数,m 表示应抽取 的对象总数,c 表示抽取结果正确的对象数目。p 和r 的取值在o 和1 之间,通 常存在反比的关系,即p 增大会导致尺减小,反之亦然。 评价一个系统时,应同时考虑p 和r ,但同时要比较两个数值,毕竟不能做 到一目了然。许多人提出合并两个值的办法。其中包括f 值评价方法: f ;( f 1 :2 + 1 ) p r e p + r 其中卢是一个预先设置的值,决定对p 侧重还是对尺侧重,通常设定为1 , 这样召回率和抽准率的权重相同,用,一个数值就可以看出系统的好坏。若声 l , 抽准率的权重较大,若 1 ,召回率的权重较大。 ( 2 ) 自动化程度,关系到在抽取的过程中使用者参与的程度。这也是对w ,e b 抽取工具的另一个分类方式,即手工、半自动和完全自动。 ( 3 ) 弹性和适应性,由于w e b 页面的内容和结构经常发生变化,抽取工具要 有自适应的能力,即当页面结构发生较小的变化时也能继续正常工作,这成为弹 性。一个抽取工具为某个特定领域的页面而生成,如果它也能为这个领域另一个 数据源的页面工作,这称为适应性。这对于高度动态的w e b 而言尤为重要。 ( 4 ) 使用的方便程度,提供图形化界面使抽取规则的生成更加容易。这主要是 针对半自动的方式而言。另外大部分抽取工具都或多或少的需要调整参数,参数 过多或过于复杂也会使其可用性降低。 可视化网页信息抽取系统的设计与实现 第三章可视化网页信息抽取系统总体设计 3 1 系统的设计目标 传统的基于分装器的网页信息抽取方法通常是给定感兴趣的目标信息的结 构,尝试在网页集中定位到符合该结构的网页部分,遇到符合结构要求时,则抽 取感兴趣的信息,其一般通过一系列建模语言来描述结构,构建数据模型。这种 方法有几个缺陷: ( 1 ) 直接处理w e b 页面源码,这样在繁杂的源码中定位目标信息非常困难, 用户需要花费大量的时间去理解相关文档的结构,并且要求熟悉h t m l 语言。 ( 2 ) 分装器的编写本身就是一项很艰巨和耗时的工作,其过程非常繁琐且极其 容易出错,而且需要高水平的专家。 ( 3 ) 不能处理网页结构的变化,相应的修改非常困难。 因此系统的设计目标主要致力于消除传统的基于分装器的网页信息抽取方法 的缺陷,通过提供一个可视化的工作环境,能够快速创建、调试用于从w e b 页面 中抽取信息的分装器程序。 ( 1 ) 最终用户不需要通过处理w e b 页面源码去分析页面结构,通过一个内置 的w e b 浏览器,用户能够直接在w e b 页面上找到自己感兴趣的内容。 ( 2 ) 不需要手工编写分装器程序,系统内置了大量的功能组件,用户只需在页 面上点击鼠标选择网页中要抽取的内容( 如文字、图片) 。 ( 3 ) 可以模拟用户浏览操作网页的一些基本操作( 如输入注册信息、循环、翻 页等) 来实现复杂的信息抽取。 ( 4 ) 提供可视化的工作区间,使用户能够快速修改抽取程序应对网页结构的改 变。 3 2 系统设计与实现的难点问题 ( 1 ) 待抽取信息定位比较难:w e b 信息分布广泛,且有大量无关信息的干扰( 如 页眉,页脚,栏目列表,广告) ,如何精确地获取有价值的信息,得到结构规范便 l o 北京工商大学硕士学位论文 于利用的仅包含用户感兴趣信息宜是w e b 信息抽取工具首要解决的问题。对于 如何在目的网页上准确方便的找到用户真正感兴趣的数据的问题,可视化的w e b 信息抽取工具很有必要在准确性和方便性两者之间做出合理的权衡。在本系统中, 我们采取的策略是:利用浏览器内嵌模块解析网页,首先下载整个页面( 包括下载 图片、f l a s h 等资源) ,然后浏览器对页面进行解析,之后可以通过调用浏览器提供 的编程接口获取网页的结构。这种方法对于有缺陷的网页有很好的容错性,且可 以很好提取出j a v a s c r i p t 中的内容,而对于用户而言,系统只是将该样例网页直观 的展示给用户,用户只需要在页面点击感兴趣的内容以此指定待抽取的信息。 ( 2 ) 获取有用信息需要的步骤多,工作量大:所需要的信息可能分布在多个 w e b 页面上,而且很多有用的数据与其他的数据混和在一起,或者并不直接呈现 在w e b 页面上,而是存储在网站后台的数据库中,其一般只根据用户的查询指令 动态生成相关的w e b 页面,异或者该w e b 页面处在受保护状态,用户需要提供相 应的权限认证才能访问到该页面。因此对于这类w e b 页面信息的抽取不能一蹴而 , 就,对其的处理需有一定的先决条件,比如先执行某个查询指令,或者先进行登 录认证等等。因此我们拟采取一种工作流的机制,让系统可以模拟用户浏览网页 时的一些动作,例如输入注册信息、提交查询表单、测试判断、点击链接、翻页 浏览等,以此来实现复杂的信息抽取。 ( 3 ) 缺乏统一的数据模型:传统的数据库中的数据具有一定的数据模型,但是 w e b 上的数据本身存在着自描述性以及动态性,没有一个统一而有效的数据模型 能够很好的描述w e b 上的半结构化或者是无结构化的数据,这是解决w e b 信息抽 取的一个难题。w e b 上的数据都是以h t m l 形式来显示的,而h t m l 语言的局限 性,包含在不同h t m l 中的信息很难组合或者进行交叉比较,而且h t m l 没法被 目前的分析软件直接使用,因而我们必须要将h t m l 转换更加结构化的数据格式。 我们拟通过让用户自定义数据模型的方式来解决这个闯题,在每次信息抽取任务 之前,用户可以自定义一个专门针对此次任务的数据模型用于存储此次抽取的信 息。 ( 4 ) 网页结构变化问题:如果源网页的数据结构发生变化,那么已有的抽取规 则是否仍然有效? 需要多大的改动才能再次正确的完成抽取任务? 这正是w e b 信 息抽取技术的对于w e b 网页结构变化的适应性问题。,从理论意义上来说,某一抽 可视化网页信息抽取系统的设计与实现 取技术对于网页结构变化要求健壮,适应性强,但是从实际意义而言,只能尽量 减少抽取技术对于结构变化的敏感度。 3 3 系统设计的基本思想 ( 1 ) 使用已被广泛应用的分装器思想:一类w e b 页面的数据项在内容和表现 格式安排上具有相似性,有规律可循,具有重复的模式,因此分装器可通过样本 页面挖掘重复的模式,发现抽取规则,然后将抽取规则用于对同类w e b 页面的信 息的自动抽取。 如图3 - 1 所示,用户通过可视化的工作环境快速生成一个针对某一类w e b 页 面的分装器程序,然后通过分装器自动的从w e b 上抽取信息。 对应的抽取规则 一类w e b 页面 图3 - 1 分装器的基本思想 ( 2 ) 同时引入工作流的概念,将信息抽取常用的技术组件化,并提供一个可 视化的工作流程定制环境,使用户可以按照自己的需要应用不同抽取组件完成信 息抽取分装器的开发任务。 北京工商大学硕士学位论文 3 4 系统的体系结构设计 可视化网页信息抽取系统的体系结构如图3 2 所示: 型 图3 2 系统结构图 系统主要模块的功能如下: ( 1 ) 定制浏览器:网页被设计出来主要是方便人们浏览以从中获取有用的信息 而不是用于计算机处理,此模块主要用于h t m l 页面的渲染和解析,以使用户能 够直观的看到页面上的内容,从而快速准确的定位网页中的信息。 ( 2 ) 标签查找器:此模块主要用于查找目标信息在网页中所处的标签,并返回 该标签的节点对象,以方便程序处理。提供了多种标签查找方式,同时还提供了 一个可视化的工作区间方便用户使用,结合定制的测览器,用户能够迅速定位网 页中的目标信息所处的标签。 ( 3 ) 工作流建模工具:此模块用于建立网页信息抽取的工作流模型。提供了可 视化的工作区间以及大量和w e b 信息抽取相关的功能组件,允许用户灵活的定义 各种抽取动作和流程。 ( 4 ) 信息抽取工作流引擎:用于解释执行生成的信息抽取模型,以自动快速的 从互联网上抽取同类网页的信息。 1 3 可视化网页信息抽取系统的设计与实现 3 5 系统的特色与创新 相比一般的w e b 信息抽取系统,本文构造的信息抽取系统有以下特色与创新: ( 1 ) 提供可视化的图形界面,内置网页浏览器,用户只需通过鼠标选择,就能 灵活自定义网页中需要抽取的各种信息( 如文字,数字,日期,表格,图片等) ,由 于内置浏览器,不但能抽取静态网页,还能抽取动态内容,包括模拟j a v a s c r i p t 脚 本的执行。 ( 2 ) 采用工作流机制,系统内嵌了大量信息抽取功能组件,同时提供了一个可 视化的工作流建模工具,使用户能够灵活的定制抽取流程,并能够模拟用户浏览 网页的一些动作,例如输入用户名n 令,提交注册信息,点击网页,翻页等,并 自动生成信息抽取分装器程序,实现网页信息到本地数据库的自动批量抽取。 ( 3 ) 易于使用,用户不需要有多深的专业知识,就能够像平时浏览网页一样完 成信息抽取的任务。 3 6 技术路线、平台的选择 j a v a 技术在极短的时间内就取得了令人瞩目的成就,它以简单性、平台无关 性、安全性、强壮性以及全面支持i n t e r n e t 技术等成为目前很流行的跨平台应用系 统开发工具。j a v a 语言的出现为我们带来了前所未有的活力和广阔的开发空间。 本文选用j a v a 作为开发平台,用s w i n g 实现g u i 界面,主要基于以下考虑: ( 1 ) 我们系统主要是面向互联网上的w e b 数据,而j a v a 就是基于互联网发展 起来的编程语言,在网络编程方面有着得天独厚的优势。 ( 2 ) j a v a 具有高度的稳定性和安全性,采用了多线程技术,其完善的内存分配 和释放技术使编程者不必担心内存溢出、线程死锁等编程问题,而将精力集中于 开发高性能的程序上。 ( 3 ) 在j a v a 技术领域,其开源社区非常活跃,有许多非常优秀的开源代码可 供借用、参考。例如在这个系统中一个非常关键的组件h t m l 渲染引擎,就 有着许多非常优秀的开源实现。 ( 4 ) j a v ab e a n 组件设计功能强大,这样在日后可通过定制插件自由扩展系统新 功信笔 1 4 北京工商大学硕士学位论文 第四章可视化的标签查找器的设计与实现 网页信息抽取首先要解决的问题就是信息定位问题,只有明确了需要抽取的 信息以及其在目标页面中的位置才能将相应的抽取动作应用到其上,由于现在的 网页都是由h t m l 语言描述,因此网页信息定位问题可以转换成相应h t m l 标签 查找的问题。w e b 标签查找主要有两方面的难点: ( 1 ) 网页是易变的,内容几个小时就会变化一次,样式几个月甚至是几个星期 就会变化一次。一旦网页结构发生变化,应用在其上的一系列动作就可能会失效。 抽取规则越敏感,面对网页的变化失效的可能性就越大。 ( 2 ) 网页中往往会存在有大量无关干扰信息( 如页眉,页脚,栏目列表,广告) , 如何能够快速而精确地定位需要抽取的信息的标签位置对一个好的网页信息抽取 系统来说是非常重要的。 对于这个问题现在已经有了一些解决方案【2 9 1 ,最常用的方法是首先将网页的 h t m l 文档转换为x m l ,并且将该x m l 文档解析为d o m ( d o c u m e n to b j e c tm o d e l ) 树,用户根据此网页对应的d o m 树,点击树的标签节点来进行定位,以此指定待 抽取的信息。此方法有一些缺陷,首先文档的转换是一个费时的过程,这将影响 系统的性能,还有就是不够直观,用户需要花费较多的时间去理解文档结构,而 且在一棵结点较多的d o m 树中选择一个目标结点也并非轻松的事情。 我们在上述方法的基础上做了改进,首先,引入了一个内置浏览器,让用户
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 中枢神经系统脱髓鞘疾病的临床护理
- 现代通信及应用概述
- 府奖学金申请书
- 简易委托支付协议
- 2025年幼儿教育教学工作总结模版
- 策划部部门工作总结模版
- 物流管理集装箱体系优化
- 重症疾病护理核心要点解析
- 服装搭配系统化培训指南
- 流动人口清查总结
- 陕西省2024年中考地理试卷(附解析)
- 压力管道分部工程竣工报告
- 土地互换永久合同范本
- 血源性传染病职业暴露的预防处理
- 新版高中物理必做实验目录及器材-(电子版)
- 毒理学习题集(含答案)
- 四川省宜宾市叙州区2023-2024学年八年级下学期期末数学试题(解析版)
- 2024年上海市中考语文试题卷(含答案)
- 2024修理厂钣金喷漆承包合同书
- 湖南省株洲市茶陵二中2025届高一下数学期末学业水平测试试题含解析
- 前厅服务与数字化运营(贵州交通职业技术学院)智慧树知到期末考试答案章节答案2024年贵州交通职业技术学院
评论
0/150
提交评论