(计算机应用技术专业论文)面向deep+web数据集成的数据抽取研究.pdf_第1页
(计算机应用技术专业论文)面向deep+web数据集成的数据抽取研究.pdf_第2页
(计算机应用技术专业论文)面向deep+web数据集成的数据抽取研究.pdf_第3页
(计算机应用技术专业论文)面向deep+web数据集成的数据抽取研究.pdf_第4页
(计算机应用技术专业论文)面向deep+web数据集成的数据抽取研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)面向deep+web数据集成的数据抽取研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

独创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究工作所取得的成果。除文中已注明引用的内容以外,本论 文不包含任何其他个人或集体己经发表或撰写过的作品成果,也不包 含为获得江苏大学或其他教育机构的学位或证书而使用过的材料。对 本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标 明。本人完全意识到本声明的法律结果由本人承担。 学位论文作者签名: 孔惠惠 0 口f 年f 月t 弓目 学位论文版权使用授权书 江苏大学、中国科学技术信息研究所、国家图书馆、中国学术期 刊( 光盘版) 电子杂志社有权保留本人所送交学位论文的复印件和电 子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文 档的内容和纸质论文的内容相一致,允许论文被查阅和借阅,同时授 权中国科学技术信息研究所将本论文编入中国学位论文全文数据 库并向社会提供查询,授权中国学术期刊( 光盘版) 电子杂志社将 本论文编入中国优秀博硕士学位论文全文数据库并向社会提供查 询。论文的公布( 包括刊登) 授权江苏大学研究生处办理。 本学位论文属于不保密。 学位论文作者签名:孑b 燕燕 指导教师签名:渺 3 引f 年月l 弓日0 口f 年莎月,弓日 江苏大学硕士学位论文 摘要 随着w 曲的迅猛发展,w 曲上网页的数量已经超过万亿级,并且其中大部 分都是深层网络( d e e pw e b ) 的数据。这些数据呈现出规模巨大、结构化程度高、 动态性与异质性并且按领域分布的特征。为了以尽可能自动的方式获取和利用这 些数据,近年来d e e pw e b 数据集成技术受到越来越多研究者的关注。d e e pw e b 数据抽取是数据集成中的关键问题,研究如何从w e b 页中抽取出半结构和无结 构的数据以供后续处理及使用,是实现数据集成的基础和保证。 本文分析了已有的d e e pw e b 数据抽取技术,同时结合d e e pw e b 查询结果 页的特点,提出一种d e e pw e b 数据抽取方法。该方法首先对网页进行分块,接 着在分块的基础上进行数据区域识别,最后对数据区域进行数据记录抽取。文最 后设计并实现了一个数据抽取原型系统。本文的研究内容包括: ( 1 ) 网页分块。传统的数据抽取方法将w e b 页视为整体处理,导致网页中无 关的部分直接干扰数据抽取,为此提出基于网页重复结构和相似u r l 的结果页 分块算法,其核心思想是:将w e b 数据抽取的对象由直接的w e b 页面转化成 w e b 页面所包含的特定语义块。网页分块在底层上消除了页面噪音信息对数据抽 取的干扰,降低了数据抽取问题的复杂度,为后续工作提供了重要的基础和支持。 ( 2 ) 数据区域识别。在网页分块的基础上,结合d e e pw e b 查询结果页的特点, 提出基于u r l 相似性变化的d e e pw 曲数据区域识别算法。该算法能准确识别 出数据区域,为下一步的数据抽取奠定了可靠的基础。 ( 3 ) 数据记录抽取。为实现对同一模板生成页面的自动抽取,将待抽取页面 数据记录的抽取转变为待抽取页面中数据区域的定位和数据记录之间边界的查 找。该算法可以准确分割数据记录,实现了数据记录的完整和准确抽取。 ( 4 ) 原型系统研发。设计并实现一个数据抽取原型系统,系统的运行效果和 实验结果表明本文所提方法是可行和有效的。 关键词:d e e pw e b ,数据集成,数据抽取,网页重复结构,相似u r l ,数据区域 江苏大学硕士学位论文 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to ft h ew e b ,t h en u m b e ro fw e bp a g e si sm o r et h a n o n et r i l l i o n m o s to ft h e s ep a g e sa r ei nd e e pw e b ,a n dt h ew e bd a t ah a v et h e s e f e a t u r e si n c l u d i n gl a r g e s c a l e ,s t r u c t u r e d ,d y n a m i c i t y , h e t e r o g e n e i t ya n dd i s t r i b u t i o n b a s e do nd o m a i n s i no r d e rt oa c c e s sa n dm a k ef u l lu s eo ft h e s ed a t aa sa u t o m a t i c a l l y a sp o s s i b l e ,d e e pw e bd a t ai n t e g r a t i o nt e c h n o l o g yh a sr e c e i v e di n c r e a s i n ga t t e n t i o ni n r e c e n ty e a r s h o wt oe x t r a c td a t af r o mw e bp a g e sf o rt h es u b s e q u e n tp r o c e s s i n gi sa k e yi s s u eo fd e e pw e bd a t ai n t e g r a t i o n ,a n di ti st h ef o u n d a t i o na n dg u a r a n t e ef o r d e e pw e bi n t e g r a t i o n t h i sp a p e rp r o p o s e sad e e pw e bd a t ae x t r a c t i o nm e t h o db ya n a l y z i n gt h e e x i s t i n gw e bd a t ae x t r a c t i o nt e c h n o l o g y , c o m b i n e dw i t ht h ec h a r a c t e r i s t i c so fd e e p w e bs e a r c hr e s u l tp a g e i tf i r s tp a r t i t i o n st h es a m p l ep a g ei n t ob l o c k s ,a n dt h e n i d e n t i f i e st h ed a t ar e g i o no nt h eb a s i so fp a g es e g m e n t a t i o n ,f i n a l l y , e x t r a c td a t a r e c o r d si nd a t ar e g i o n ap r o t o t y p es y s t e mo fd e e pw e bd a t ae x t r a c t i o ni sd e s i g n e d a n di m p l e m e n t e d t h em a i nr e s e a r c hc o n t e n t so ft h i sp a p e ra r ea sf o l l o w s : ( 1 ) w e bp a g es e g m e n t a t i o n t h et r a d i t i o n a lm e t h o d so fd a t ae x t r a c t i o nh a n d l et h e p a g ea saw h o l e ,s oa st oc a u s es o m eu n r e l a t e dp a r t st oi n t e r f e r ew i t hd a t ae x t r a c t i o n d i r e c t l y t h e r e f o r e ,t h i sp a p e rp r o p o s e sam e t h o df o rs e a r c hr e s u l tp a g es e g m e n t a t i o n b a s e do nw e bp a g er e p e t i t i v es t r u c t u r ea n ds i m i l a ru r l t h ec o r ei d e ai st h a t t r a n s f o r m i n gt h eo b j e c to fw e bd a t ae x t r a c t i o nf r o mt h ew h o l ep a g ei n t os p e c i f i c s e m a n t i cb l o c ki t c o n t a i n s p a g es e g m e n t a t i o ne l i m i n a t e sn o i s ei n t e r f e r e n c ef o rd a t a e x t r a c t i o no nb o t t o ml a y e r , a n dr e d u c e st h ec o m p l e x i t yo ft h ep r o b l e me f f i c i e n t l y i t p r o v i d e sa l li m p o r t a n tf o u n d a t i o na n ds u p p o r tf o rt h es u b s e q u e n te x t r a c t i o nw o r k ( 2 ) d a t ar e g i o nr e c o g n i t i o n o nt h eb a s i so ft h er e s u l to fp a g es e g m e n t a t i o n , c o m b i n e d 埘t l lt h ec h a r a c t e r i s t i c so fd e e pw e bs e a r c hr e s u l tp a g e ,t h ep a p e rp r o p o s e d am e t h o df o rd a t ar e g i o ni d e n t i f i c a t i o nb a s e do nt h ec h a n g e so fu r ls i m i l a r i t y t h i s m e t h o dc a n a c c u r a t e l yi d e n t i f yt h ed a t ar e g i o na n dp r o v i d e sar e l i a b l ef o u n d a t i o nf o r l i t h en e x td a t ae x t r a c t i o n 江苏大学硕士学位论文 ( 3 ) d a t ar e c o r d se x t r a c t i o n i no r d e rt oa u t o m a t i c a l l y e x t r a c td a t ar e c o r d sf r o m t h ep a g e sg e n e r a t e db yt h es a m et e m p l a t e ,am e t h o df o rd a t ar e c o r d se x t r a c t i o ni s p r o p o s e d f o rt h ep a g e st ob ee x t r a c t e d ,t h i sm e t h o dt r a n s f o r m st h ep r o b l e mo fd a t a r e c o r d se x t r a c t i o ni n t ot h el o c a t i o no fd a t a r e g i o na n dt h es e a r c m n go f t h eb o u n d a r i e s b e t w e e nd a t ar e c o r d s t h em e t h o dc a na c c u r a t e l ys p l i tt h ed i f f e r e n td a t ar e c o r d s i t a c h i e v e sc o m p l e t ea n da u t o m a t i cd a t ar e c o r d se x t r a c t i o n ( 4 ) p r o t o t y p es y s t e md e v e l o p m e n t t h i sp a p e rd e s i g n sa n di m p l e m e n t sa p r o t o t y p es y s t e mo fd e e pw e bd a t ae x t r a c t i o n t h ep r a c t i c a lo p e r a t i o no ft h es y s t e m a n dt h ea n a l y s i so fe x p e r i m e n t a lr e s u l t sv e r i f yt h ef e a s i b i l i t ya n de f f e c t i v e n e s so ft h i s m e t h o d k e yw o r d s :d e e pw e b ,d a t ai n t e g r a t i o n ,d a t ae x t r a c t i o n ,w e bp a g er e p e t i t i v es t r u c t u r e , s i m i l a ru r l ,d a t ar e g i o n 江苏大学硕士学位论文 目录 第一章绪论。 1 1 研究背景1 1 2 国内外研究现状3 1 3 本文研究内容6 1 4 本文内容安排8 第二章研究基础 2 1d e e pw e b 数据集成系统框架9 2 1 1 集成查询接口生成模块1 0 2 1 2 查询处理模块11 2 2w e b 数据抽取技术1 1 2 2 1w e b 数据抽取技术的发展历程1 1 2 2 2w e b 数据抽取技术的分类1 3 2 2 3 典型的w e b 数据抽取系统1 7 2 2 4w e b 数据抽取的评价标准19 2 3 相关技术介绍l9 2 3 1h t m l l9 2 3 2d o m 2 0 2 4 本章小结2 1 第三章基于网页重复结构和相似u r l 的查询结果页分块2 2 3 1 引言2 2 3 2 相关研究工作2 3 3 3d e e pw e b 查询结果页面特点分析2 4 3 4 算法基本思路2 9 3 5 索引路径一2 9 3 6 算法实现3 0 3 6 1 网页预分块3 0 3 6 2 初始重复网页区块的分割3 2 3 7 本章小结3 4 第四章数据区域识别和数据记录抽取3 5 4 1 引言3 5 i v 江苏大学硕士学位论文 4 2 相关研究工作3 6 4 3 数据区域识别3 7 4 3 。1 算法基本思路一一3 7 4 3 2 算法实现4 0 4 4 数据记录抽取4 1 4 5 数据记录抽取维护方法4 3 4 6 本章小结4 4 第五章系统设计与实现。4 5 5 1 系统设计4 5 5 1 1 系统设计目标4 5 5 1 2 系统总体框架4 5 5 1 3 系统各模块功能一4 6 5 1 4 样本页分块模块。4 7 5 2 系统实现4 8 5 2 1 实验平台4 8 5 2 2 运行界面4 8 5 3 实验结果及分析51 5 4 本章小结5 3 第六章总结与展望。5 4 6 1 总结5 4 6 2 展望5 5 参考文献5 6 致谢6 3 攻读硕士学位期间发表的学术论文6 4 v 江苏大学硕士学位论文 1 1 研究背景 第一章绪论 随着互联网的迅猛发展,i n t e m e t 上的w e b 网站以及网页数量以爆炸性的趋 势增长,其中蕴含了海量的信息可供人们利用。文献 1 】中指出,目前整个w e b 的信息量已超过了2 0 0 ,0 0 0 t b ,并仍在快速的增长中。同时,n e t c r a f t 公司在2 0 0 9 年3 月份的调查显示,全球互联网网站数量约为2 2 7 亿。i n t e m e t 已经成为全球 的、巨大的、分布和共享的信息空间。 目前,以g o o g l e 、百度为代表的搜索引擎的出现,在一定程度上满足了用 户在w e b 信息海洋中查找自己所需要信息的需求。这些搜索引擎主要依靠爬虫 程序根据网页间的超链接关系来抓取网页,通过超链接可以被传统搜索引擎索引 到的静态页面的集合被称为s u r f a c ew e b 。但是随着基于w e b 数据库的应用,如 电子商务网站、招聘信息网站等的出现,以及w e b 2 0 的兴起,w e b 正在迅速“深 化 ,越来越多的信息被隐藏在后台数据库中,它们对搜索引擎是不可见的,只 能作为用户提交查询的结果,实时动态地获得,这部分信息被称为d e e pw e b ( 又 称为i n v i s i b l ew e b 2 1 ,或h i d d e nw e b 3 1 ) 。早在1 9 9 4 年,j i l le l l s w o r t h 博士就提出 了“i n v i s i b l ew e b ,用来表示那些不能被传统搜索引擎索引到的、被大量隐藏的 内容1 2 。在实际应用中,d e e pw e b 是指w e b 中可访问的在线数据库( a c c e s s i b l e o n l i n ed a t a b a s e s ) 。整个w e b 按信息存放的深度可以分成s u r f a c ew e b 和d e e pw e b 两大部分。 与s u r f a c ew e b 相比,d e e pw 曲具有很多优点2 】【4 】【5 】【6 】: ( 1 ) 信息量大。d e e pw e b 网站数量已经达到3 0 7 ,0 0 0 个,其背后的数据库数 量已经达到3 6 6 ,0 0 1 ) - 5 3 5 ,0 0 0 个,蕴含的信息量是s u r f a c ew e b 的4 0 0 - 5 0 0 倍,并 且对d e e pw e b 数据的访问量比s u r f a c ew e b 要高出1 5 。 ( 2 ) 质量优、结构好。d e e pw e b 站点在信息内容范围上比一般s u r f a c ew e b 站点更专更深,而且超过5 0 的d e e pw e b 的内容是以结构化形式保存在属于特 定领域的专业数据库中。 江苏大学硕士学位论文 ( 3 ) 信息增长速度快。目前整个d e e pw e b 的规模,即当前d e e pw e b 上w e b 数据库的数量还在迅速增大,平均每年的增长速度是3 7 倍,并且与s u r f a c ew e b 站点相比含有更多的链接。 ( 4 ) 可公开访问。整个d e e pw 曲覆盖了现实世界中的各个领域,其中9 5 的 信息是可以公开访问的,即免费获取,无需付费或订阅。 由此可见,d e e pw e b 中蕴含了数量巨大、高质量、结构化的数据,为了有 效获取和利用这些海量信息,近年来越来越多的研究关注于d e e pw e b 数据集成 系统的构建,其根本目的就在于以尽可能自动的方式获取和集成在线数据库中的 数据,为用户提供一个统一的查询接口,使用户能够高效地完成对w e b 数据库 中数据的有效访问和利用。 d e e pw e b 数据集成的研究主要包括以下几个方面:d e e pw e b 数据库的发现、 w e b 数据库的分类、查询接口的集成、w e b 数据库的选择、w e b 数据抽耿、语 义标注、实体识别等。其中w e b 数据抽取作为d e e pw 曲数据集成中的关键问题, 研究如何从返回d e e pw e b 数据的查询结果页中抽取出这些数据以供后续处理及 使用,它是实现数据集成的基础和保证。但d e e pw e b 数据隐藏在查询接口的后 面,只有在被查询时( 即通过填写网站查询接口表单提交给后台在线数据库) 才会 由w e b 服务器动态生成查询结果页返回给用户,如图1 1 所示【7 1 。 浏览器 图1 1d e e pw e b 数据获取过程【7 l 由文本和超链接构成的网页是w e b 信息发布的主要方式,其独特之处在于 数量惊人、信息丰富,但是由不同个人和群体开发的网页,其内容和形式会有很 大的差异,而且分布在全球i n t e m e t 能够连接的各个角落,从而导致w e b 上发布 2 江苏大学硕士学位论文 的数据具有异质性和缺乏结构性 7 1 。正是由于这些原因,使得自动地从中获取 d e e pw e b 数据成为一件十分具有挑战性的工作,为实现应用程序能够直接解析 和利用这些数据,实现真正的d e e pw e b 数据集成,d e e pw e b 数据抽取的研究越 来越受到重视。 1 2 国内外研究现状 随着w e b 相关技术的日益成熟和d e e pw e b 所蕴含信息量的快速增长,通过 对w e b 数据库的访问逐渐成为获取信息的主要手段。自1 9 9 4 年d r j i l le l l s w o r t h 首次提出“i n v i s i b l ew e b 的概念以来【2 1 ,国外就开始了对该领域的研究。2 0 0 0 年,b r i g h t p l a n e t t 8 j 公司首创了“d e e pw | e b 这一术语,用来描述“i n v i s i b l ew r e b ”, 并对d e e pw e b 领域做了一次较为全面的宏观统计,发布了d e e pw e b 的白皮书。 2 0 0 1 年的v l d b 会议上,美国斯坦福大学的s r a g h a v a n 和h g a r c i a m o l i n a 发 表了一篇题为“c r a w l i n gt h eh i d d e nw r e b 的论文【9 】,文中详细描述了d e e pw e b 的特点和研究意义,并且提出了一个d e e pw e b 搜索原型系统h i w e ( h i d d e nw e b e x p o s e r ) 。 目前,越来越多的d e e pw e b 数据获取和集成的相关研究成果发表在w w w 、 s i g m o d 、v l d b 、i c d e 等项级国际会议和期刊上。d e e pw e b 1 0 1 、b r i g h t p l a n e t 8 】 等公司也在生产相关产品,比如b r i g h tp l a n e t 公司开发了两款检索d e e pw e b 资 源的软件,l e x i b o t 2 0 和后来的d q m 2 。l e x i b o t 2 0 允许用户将其下载到本地计 算机上使用,可同时对2 2 0 0 多个网站和数据库进行检索。后来d q m 2 将其取代, 它更加强大,能对超过7 0 0 0 个的d e e pw e b 专业数据库进行检索,并且允许用 户分类检索。但是,尽管这些公司在产品中加入了d e e pw 曲信息挖掘功能,但 目前还没有提供中文信息服务。 国际上比较著名的d e e pw e b 数据获取和集成研究项目有: ( 1 ) 美国伊利诺斯大学( u i u c ) 的m e t a q u e r i e r 项目【1 1 1 ,目的是建设一个统一的 有效访问w e b 上结构化信息源的w e b 信息检索系统。它有两个子项目, m e t a e x p l o r e r 和m e t a i n t e g r a t o r 。m e t a e x p l o r e r 用于发现在线w e b 数据库并为w e b 数据库建立一个数据源知识库。m e t a i n t e g r a t o r 用于集成在线数据源,为用户提 供访问w e b 数据库的统一接口。该项目的实施对整个d e e pw e b 的研究起到了巨 3 江苏大学硕士学位论文 大的推动作用。 ( 2 ) 美国纽约州立大学宾汉姆顿分校的孟卫一教授研究组提出的w 曲数据库 集成研究项卧1 2 】【1 3 1 。该项目开发了集成访问w 曲数据库的技术,其中涉及了自 动发现和分类w e b 数据库、集成w e b 数据库的查询接口、用户查询转换、查询 结果的抽取和处理等。并开发了两个软件工具w i s e i n t e g r a t o r 、w i s e i e x t r a c t o r , 分别用于查询接口的聚类和查询接口的抽取。 ( 3 ) 华盛顿大学的s h o p b o t 项目 1 4 1 。该项目是一个针对消费产品的比价代理 系统,它利用特定领域的启发式规则来填写表单,从而比较其领域内的商业产品, 其主要针对电子商务网站的表单提交所返回的产品列表页面。s h o p b o t 操作分为 两个阶段:离线学习阶段和在线产品比较阶段。离线学习阶段确定如何填写站点 表单,以及分析结果页面从而获取其站点模式信息。在线产品比较阶段利用得到 的站点模式结构来抽取页面中的结果,找出满足用户要求价格最优的产品,并将 这些产品信息按价格排序输出给用户。 ( 4 ) 佐治亚理工学院( g i t ) 的t h o r 研究项引15 1 。t h o r 是一个d e e pw | e b 数 据抽取系统,用于抽取动态产生的查询结果网页中的数据记录。该系统使用基于 t f i d f ( t e r m f r e q u e n c yi n v e r s e d o c u m e n t f r e q u e n c y ) 的方法来衡量h t m l 文档中 的节点权重,通过文档( 或节点) 的标记权向量来计算文档( 或节点) 相似度。该系 统虽能实现比较成功的抽取,但是整个抽取过程复杂,效率较低,根本原因是没 有充分利用h t m l 文档中的结构信息。 ( 5 ) 微软亚洲研究院开发的学术搜索引擎l i b r a t l 6 1 。l i b r a 学术搜索即微软学术 搜索m i c r o s o f ta c a d e m i cs e a r c h ( h t t p :a c a d e m i e r e s e a r c h m i c r o s o f t c o r n ) ,是一个在线 免费使用的学术搜索引擎,同时也是微软亚洲研究院对象级别垂直搜索技术的试 验平台。它列出的结果是最终对象的集合,而不是杂乱的网页列表。通过该引擎, 可以了解到某个学术研究领域内的顶尖学者、学术会议和期刊;获得一个学术领 域的兴起与发展的详细信息;找到自己感兴趣的学者或学术论文及其在该学术领 域的地位和影响力;发现某个研究领域经典、热点的学术论文和正在升起的学术 新星。目前,微软学术搜索专注于计算机科学和信息科学范围内的搜索,未来还 会将搜索范围扩展至其他学科领域。 微软亚洲研究院早在2 0 0 4 年就提出基于接口中的关键字来抽取d e e pw e b 4 江苏大学硕士学位论文 站点内容的方法【1 7 1 ,近年来提出的第三代搜索引擎技术就是要对深层互联网搜 索,对整个网页做分析和数据挖掘,不仅要找到更多的结果,而且要更加智能化、 人性化、更加精确、能够理解用户需要什么结果,然后将结果进行抽取、聚合和 整理。比如用户要搜索奥迪a 8 相关信息,除了有用的网页和几家广告以外,第 三代搜索引擎还可提供另一个表格,这个表格会告诉用户哪几家在卖奥迪a 8 、 价位如何、多久能够提货、地图和交通路线是什么、距离用户的位置有多远、哪 家在网上的评价最好等内容。类似于当前的比价购物系统,但不同于比价购物系 统只工作在一个很窄的垂直行业,第三代搜索引擎不管用户搜索哪一个行业都可 以达到这样的效果。 国内对d e e pw e b 数据获取和集成的研究大约起步于2 0 0 2 年,香港大学的 j i y i n gw a n g 首先对w r e b 数据抽取等进行了探索性的研列1 8 】【1 9 1 ,但直到2 0 0 6 年 左右并从这一年开始,国内才开始有越来越多的d e e pw e b 研究成果发表。目前 国内对该领域的研究尚处于学习、跟踪和探索阶段,对该领域的研究单位及相关 报道也非常少。国内研究单位主要有中国人民大学网络与移动数据管理实验室和 苏州大学智能信息处理及应用实验室。中国人民大学信息学院孟小峰教授领导的 “网络与移动数据管理实验室 对d e e pw e b 数据抽取、w e b 数据集成、d e e pw e b 实体识别等方面进行了深入的研究【2 0 乏4 1 。该实验室研究w 曲数据抽取技术已经 很多年,在国内也处于领先地位,并承担了国家自然科学基金项目“w e b 数据抽 取和集成技术研究”,提出了基于模式导航方式的w e b 数据抽取s g w r a p 2 5 1 、 基于视觉的w e b 数据抽取v i d e 2 6 1 、数据驱动的w e b 数据抽取【2 7 1 等多种不同技 术的抽取方法。更进一步地,在数据抽取技术的基础上,他们已经构建了 j o b t o n g ( 工作通) 系统【2 引、c d b l p 系统( 面向计算机领域的中文文献集成系统) 和 图书价格比较网等系统,这些系统中的数据质量较高,抽取准确性也较高。以 j o b t o n g ( i 作通) 来说,该系统比较成功地实现了对中华英才网、智联招聘、5 1 j o b 等国内大型工作信息发布网站的招聘信息的集成查询。目前,j o b t o n g 的原型系 统( w w w j o b t o n g c n ) 已经在网上公布,利用此搜索引擎,用户可以方便地查找多 种工作招聘信息。不过该系统在很多方面还不成熟,集成的信息量还很小,用户 界面过于简单,因此距离真正的实用阶段还有很大差距。苏州大学智能信息处理 及应用实验室在d e e pw r e b 数据源发现、d e e pw e b 数据源分类、d e e pw e b 数据 5 江苏大学硕士学位论文 抽取等方面也进行了深入的研究【2 9 铷1 。此外,西安电子科技大学、东北大学、吉 林大学等也有学者从事d e e pw e b 数据抽取和集成方面的研究3 2 。4 1 。 前述的数据抽取系统、比价购物系统、搜索引擎和工作通系统等,它们的实 现都涉及到了w r e b 数据抽取技术,它们是w e b 数据抽取技术的应用。面向d e e p w 曲的数据抽取技术,是信息抽取技术在w 曲领域的扩展,针对d e e pw 曲,对 返回的查询结果页面进行抽取,又有着其自身的特点。信息抽取技术研究是从 2 0 世纪8 0 年代末开始蓬勃开展的,主要目的是从自然语言文本中抽取出感兴趣 的信息,并对信息进行结构化处理,供人们查询以及进步分析利用。比较好的 信息抽取系统有l i n g u i s t i cs t r i n g f 3 5 1 和f r u m p 3 6 】等。l i n g u i s t i cs t r i n g 系统的主要 研究内容是建立一个大规模的英语计算语法,用于从医疗领域的x 光报告和从 医院出院记录中抽取信息。f r u m p 系统是根据故事脚本理论建立,从新闻报道 中抽取信息。该系统采用了期望驱动与数据驱动相结合的处理方法,这种方法被 后来的许多信息抽取系统采用。 9 0 年代以后,随着w e b 的流行和不断发展,对w e b 网页进行抽取的需求越 来越大,研究人员开始把目光转向针对w e b 的信息抽取。d e e pw e b 数据作为用 户对w e b 数据库提交查询的结果,是通过h t m l 语言编写的w e b 页面的形式展 现;当把w e b 数据库中的信息以w e b 页面形式展现时,数据库相关模式结构信 息就完全丢失了;从w e b 页面中将查询结果抽取出来的过程是指将w e b 页面上 半结构和无结构的数据通过各种技术手段抽耿出来,保存为可以自动处理的格 式。目前国内外对该领域的研究主要分为以下几类:页面抽取语言、基于d o m 树的技术、基于模式的技术、基于自然语言处理的技术、抽取规则推导技术、基 于本体的技术、基于视觉的技术等,本文将在第二章中做详细介绍。 1 3 本文研究内容 通过前文的介绍已经了解到,d e e pw e b 中的数据隐藏在w e b 数据库中,只 有当用户填写了表单并提交查询后,w e b 服务器才会根据用户的输入返回以 h t m l 语言编写的包含查询结果记录的动态w e b 网页。而h t m l 语言是在w e b 上发布的,内容多样、形式各异,使得w e b 上的数据半结构甚至无结构的,给 应用程序直接利用这些数据造成了极大的困难。d e e pw e b 数据抽取研究如何从 6 江苏大学硕士学位论文 查询返回的w e b 页面中将半结构和无结构的数据抽取出来,本文着重对其进行 研究,主要的研究内容如下: ( 1 ) 网页的分块 在信息量日益剧增的今天,w e b 页面提供信息的密集程度也在不断增强。除 了本身想要显示的主要内容外,页面中往往还包含了许多其他的内容。比如:为 了便于用户浏览而增加的导航链接,为了商业因素而加入的广告链接,以及为了 增强用户交互性而加入的脚本( s c r i p t ) 。传统的数据抽取方法将w e b 页面作为一 个整体处理,导致与主题无关的部分,即噪音信息,对数据抽取造成极大的干扰。 针对这个问题,本文在分析了大量d e e pw 曲查询结果页面特征的基础上,提出 一种基于网页重复结构和相似u r l 的结果页分块算法,以获得具有重复结构的 网页区块,目的是将w e b 数据抽取的对象由直接的w e b 页面转化成w e b 页面所 包含的特定语义块,力求在底层上消除页面噪音信息对数据抽取的干扰,降低数 据抽取问题的复杂度。 ( 2 ) 数据区域的识别 在( 1 ) 的基础上,结合查询结果页的特点,提出基于u r l 相似性变化的数据 区域识别算法。在生成结果页面时,不同的d e e pw e b 网站均是由该网站特定的 模板加载后台在线数据库中的数据对其进行填充,然后将数据记录显示到结果页 面上,这些数据记录就构成了结果页面中的数据区域。本文的数据区域识别算法, 相比于现有算法,如利用视觉信息、子树相似性或者单纯去除相同部分等,所存 在的实现困难或准确度不高的缺点,能更加准确地识别数据区域,为下一步的数 据抽取提供可靠的基础。 ( 3 ) 数据记录的抽取 数据记录的抽取需要在正确识别数据区域的基础上进行。数据记录抽取的关 键是分割不同的数据记录,实现对同一模板生成页面的自动和完整抽取。本文提 出的数据记录抽取算法,将待抽取页面数据记录的抽取转变为待抽取页面中数据 区域的定位和对数据记录之间边界的查找。 ( 4 ) 原型系统的设计和实现 在上述研究工作的基础上,设计并实现一个数据抽取原型系统,以验证本文 所提出方法的可行性和有效性。 7 江苏大学硕士学位论文 1 4 本文内容安排 本文共分为6 章,具体内容安排如下: 第一章为绪论,介绍论文的研究背景、国内外研究现状、本文研究内容和本 文内容安排。 第二章为研究基础,介绍d e e pw e b 数据集成系统的基本框架和各个模块的 功能,其中重点介绍集成框架中w e b 数据抽取技术的发展历程、技术分类、典 型的w e b 数据抽取系统和评价标准,最后简述本文研究过程中涉及的相关技术。 第三章先引入d e e pw 曲查询结果页的分块问题,介绍相关研究工作,接着 分析和研究d e e pw e b 查询结果页的特点,根据结果页的特点提出分块算法的基 本思路,最后给出关键的d e e pw e b 查询结果页面的分块算法。 第四章对d e e pw 曲数据抽取过程中的数据区域定位和数据记录的自动化抽 取进行研究。首先介绍相关研究工作,提出基于u r l 相似性变化识别数据区域 的算法,接着提出数据记录抽取算法,最后简述当数据区域路径发生变化时,进 行数据记录抽取的维护方法。 第五章介绍原型系统的设计与实现过程,给出系统运行结果、实验结果与分 析。 第六章对本文工作进行总结,并对以后的研究工作进行展望。 8 江苏大学硕十学位论文 第二章研究基础 人们希望从d e e pw e b 这个海量的数据库中获取更多更有价值的信息,而对 d e e pw r e b 数据集成的研究正是为了实现对w e b 数据库中信息的自动获取和有效 利用。w e b 数据抽取作为d e e pw - e b 数据集成中查询结果处理部分的关键问题受 到越来越多的关注。本章首先对d e e pw e b 数据集成系统框架进行概述,重点介 绍w e b 数据抽取技术的发展历程、技术分类、典型的抽取系统和w e b 数据抽取 的评价标准,最后简述研究过程中涉及的相关技术。 2 1d e e pw e b 数据集成系统框架 i n t e m e t 技术的飞速发展,使得d e e pw e b 上w e b 数据库的数量也在飞速增 长。面对纷繁复杂的w e b 数据库,用户为了获得所需的信息,往往会遇到很多 不便和困难。比如,用户想要在网上购买一本书时,他可能最希望了解到不同网 上书店中关于此书的信息,再决定购买哪一本。实际当中,他需要通过网络来寻 找每一家网上书店,对每一家书店,都需要填写书店的查询表单,提交后才能得 到返回的包含很多无关信息的结果页面,最后人工进行各种返回数据的分析和处 理。概括来说,用户遇到的问题是,如何找到w e b 上某个领域的数据库? 如何 在某个领域( l l 如图书领域) 成千上万的w e b 数据库中找到一系列相对比较相关 的数据库? 即使是同属于一个领域的数据库,每个数据库查询接口表单的设计也 不尽相同,用户必须了解每个数据库查询接口的填写细节,对每个数据库都要填 写表单才能得到数据库中返回的相关信息。同时,由于同一领域各数据库中的内 容存在一定的重叠,使得返回的查询结果中必然存在很多重复的数据,结果页面 的设计也存在很大差异,数据也失去了明确的模式,必须通过人工对结果数据的 识别、抽取、合并等过程,用户才能得到需要的结果。可见,虽然d e e pw e b 中 包含了大量用户需要的信息,但如果以手工的方式进行处理在实际当中是一件非 常繁琐和困难的事情。为了方便快捷地访问和利用这些不同数据库中的信息,迫 切需要一种尽可能自动的方法来帮助用户完成这些复杂的工作,这就是d e e p w e b 数据集成所要解决的问题和研究的目标。 9 江苏大学硕士学

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论