




已阅读5页,还剩128页未读, 继续免费阅读
(计算机应用技术专业论文)deep+web信息集成若干关键技术研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
d e e pw e b 信息集成若干关键技术研究 中文摘要 d e e pw e b 信息集成若干关键技术研究 中文摘要 随着i n t e m e t 信息的迅速增长,整个w e b 信息已经被各种各样的可搜索的在线数 据库所深化,那些信息被隐藏在w e b 查询接口下面,即d e e pw 曲信息。传统的搜索 引擎爬虫程序由于技术原因不能索引d e e pw e b 信息。为了方便用户快捷高效的使用 d e e pw e b 信息,d e e pw 曲信息集成的研究已成为一个非常迫切的问题,具有广泛的 应用前景和实用价值,已成为近年来的研究热点。 本文对d e e pw 曲信息集成的研究现状和发展趋势进行了深入的分析。在课题组 前期工作的基础上,就d e e pw 曲信息集成中若干关键技术进行了研究,这些研究包 括了d e e pw 曲数据源发现、d e e pw 曲数据源分类聚类、d e e pw e b 数据增量抓取策 略以及d e e pw e b 模式和数据抽取技术等内容。所做的工作和取得的创新成果主要体 现在下面五个方面: ( 1 ) 针对d e e pw e b 数据源的动态性和稀疏分布的特征,提出了一种基于查询接 口聚焦爬虫的d e e pw e b 数据源发现方法,聚焦访问那些可能链接到d e e pw 曲入口 页面的链接,避免访问下载不必要的页面。除了考虑d e e pw e b 入口页面和链接本身 的特征以外,还考虑了通向目标页面路径上的特征。实验结果表明,该方法可以有效 的提高d e e pw e b 数据源发现的效率。 ( 2 ) 把d e e pw 曲数据源按其所属领域进行组织,方便用户浏览这些有价值的资 源,这是d e e pw e b 信息集成的一个关键步骤。本文提出了一种基于查询接口特征的 d e e pw e b 分类方法和基于查询接口连接图的d e e pw 曲聚类方法,从而可以对d e e p w 曲数据源按其所属领域进行自动组织和管理。该方法不需提交查询采样d e e pw 曲 内部数据,同时由于d e e pw 曲的接口页面获取容易,因此其具有较强的可扩展性。 ( 3 ) 由于d e e pw e b 是自治的,独立更新的,因此对于一些应用需要周期性的抓 取d e e pw 曲内容以检查其更新。由于不同的d e e pw e b 数掘源或同一个d e e pw e b 数 据源内部数据记录的变化频率不一,按统一频率更新所有数据是非常浪费资源的。针 对该问题本文提出了基于不同粒度的d e e pw 曲数据增量抓取策略,其粒度可分为数 据源和数据记录,根据不同的应用需求可选取不同的粒度。实验结果表明,该方法在 中文摘要 d e e pw e b 信息集成若干关键技术研究 相同资源约束前提下,可有效提高本地数据的时新性。 ( 4 ) d e e pw e b 查询接1 :3 和结果页面主要是通过h t m l 语言编写的,使得d e e pw 曲 上的数据是半结构化的甚至是无结构的,给d e e p w e b 信息集成带来了很大的困难。 网页主要是为了方便人们浏览从中获取有用的信息,而不是被计算机自动处理,因而 获取页面的视觉信息可以从某种程度上模拟人类的行为对页面进行识别。本文提出了 一种基于视觉特征的d e e pw e b 模式和数据自动抽取方法,该方法使用d e e pw e b 页 面的视觉特征,避免了传统基于d o m 树的方法依赖于h t m l 的定义,并且页面可 以是h t m l 语言或任何其它语言描述的,包括非规范h t m l 语言描述,因此该方法 具有较强的适应性。 ( 5 ) 根据所研究的关键技术和实际应用需求,提出了一个面向d e e pw e b 的信息 集成体系结构,并开发了一个d e e pw e b 信息集成原型系统,该原型系统具有数据源 发现、数据源管理、模式与数据抽取等功能,实际应用表明,该系统具有一定的实用 价值。 本项研究工作受到国家自然科学基金项目“面向d e e pw e b 的不完备知识处理的 逻辑模型研究”( 编号:6 0 6 7 3 0 9 2 ) 、江苏省高技术研究计划项目“面向d e e pw e b 的搜索和挖掘关键技术研究”( 编号:b g 2 0 0 5 0 1 9 ) 以及江苏省高校研究生科技创新计 划项目“d e e pw e b 信息集成关键技术研究”( 编号:e x 0 7 b - j 2 2 z ) 的资助。 关键词:d e e pw e b ,信息集成,数据源发现,数据源管理,增量数据抓取, 模式抽取,数据抽取 i l 作者:赵朋朋 指导老师:崔志明( 教授) r e s e a r c ho nk e yt e c h n o l o g i e so fd e e pw e b i n f o r m a t i o ni n t e g r a t i o n a b s t r a c t a st h ea m o u n to fi n f o r m a t i o no nt h ew e bi n c r e a s e sr a p i d l y ,t h ew e bh a sb e e nr a p i d l y d e e p e n e dw i t ht h ep r e v a l e n c eo fs e a r c h a b l ed a t a b a s e so n l i n e t r a d i t i o n a lc r a w l e rd o e sn o t i n d e xd e e pw e bi n f o n n a t i o nf o rs o m et e c h n i c a lr e a s o n s a sar e s u l tt h ei n f o r m a t i o ni s h i d d e na n di n v i s i b l et ou s e r s ,s ot h e ya r ec a l l e dd e e pw e b t oh e l pu s e r st om a k eu s eo f d e e pw e be f f e c t i v e l y , t h er e s e a r c ho nt h ei n f o r m a t i o ni n t e g r a t i o nh a sb e c o m ear e a l l y u r g e n ti s s u e ,w i t hv e r yb r o a dp r o s p e c t i na p p l i c a t i o na n dp r a c t i c a lv a l u e d e e pw e b i n f o r m a t i o ni n t e g r a t i o nh a sa l r e a d yb e c o m et h ef o c u so fr e s e a r c hi nr e c e n ty e a r s t h i sd i s s e r t a t i o nf u l l ya n a l y s e st h es t a t u sq u oa n dd e v e l o p i n gt r e n do fd e e pw e b i n f o r m a t i o ni n t e g r a t i o n b a s e do nt h ep r e l i m i n a r yw o r ko fo u rr e s e a r c hg r o u p ,i ta d d r e s s e s s e v e r a lk e yt e c h n i c a lp r o b l e m so ft h i st e c h n o l o g y ,c o v e r i n gd e e pw e bs o u r c e sd i s c o v e r y , d e e pw e bs o u r c e sc l a s s i f i c a t i o na n dc l u s t e r i n g ,d e e pw e bi n c r e m e n t a ld a t ac r a w l i n g s t r a t e g y , d e e pw e bs c h e m aa n dd a t ae x t r a c t i o n t h ea c h i e v e m e n t sh a v eb e e nm a d ei nt h e f o l l o w i n gf i v er e s p e c t s ( 1 ) f o rt h ed y n a m i ca n ds p a r s ed i s t r i b u t i o no fd e e pw e bs o u r c e s ,w eh a v ep r o p o s e da q u e r yi n t e r f a c ef o c u s e dc r a w l i n gm e t h o dt od i s c o v e r yd e e pw e bs o u r c e s ,v i s i t i n g s p e c i f i c a l ly t h el i n k st h a t m a yl i n k t oe n t r a n c e p a g e so fd e e pw e ba n da v o i d i n g d o w n l o a d i n gu n n e c e s s a r yp a g e s i na d d i t i o nt ot h ef e a t u r e so ft h ee n t r a n c ep a g e s ,l i n k sa n d a n c h o rt e x t s ,t h ef e a t u r e so fl i n kp a t ht ot h eg o a lp a g e sa r ea l s oc o n s i d e r e d e x p e r i m e n t s h a v es h o w nt h a to u rm e t h o de f f e c t i v ei m p r o v e st h ee f f i c i e n c yo fd e e pw e bs o u r c e s d is c o v e r y ( 2 ) b yo r g a n i z i n gd e e pw e b s o u r c e si n t oad o m a i nh i e r a r c h y , u s e r sc a nb r o w s et h e s e v a l u a b l er e s o u r c e sc o n v e n i e n t l y t h i si sa l s oo n eo ft h ec r i t i c a ls t e p st o w a r dt h el a r g e - s c a l e d e e pw e bi n f o r m a t i o ni n t e g r a t i o n i nt h i sd i s s e r t a t i o n ,w eh a v ep r o p o s e dad e e pw e b s o u r c e sc l a s s i f i c a t i o nm e t h o db a s e do nq u e r yi n t e r f a c e sf e a t u r e sa n dad e e pw e bs o u r c e s c l u s t e r i n gm e t h o db a s e do nq u e r yi n t e r f a c e sl i n kg r a p h s t h e s em e t h o d sh a v ef a v o r a b l e a b s t r a c t r e s e a r c ho nk e yt e c h n o l o g i e so fd e e pw e bi n f o r m a t i o ni n t e g r a t i o n e x p a n s i b i l i t y f o ri t s n o n n e c e s s i t y i ns a m p l i n gd a t ah i d d e ni n d e e pw e ba n dt h e c o n v e n i e n c ei nc r a w l i n gq u e r yi n t e r f a c ep a g e s a n ds ot h ed e e pw e bs o u r c e sc a nb e a u t o m a t i c a l l yo r g a n i z e da c c o r d i n gt ot h e i rd o m a i n sr e s p e c t i v e l y ( 3 ) a sd e e pw e bi su p d a t e da u t o n o m o u s l ya n di n d e p e n d e n t l y , w eh a v et oc r a w ld e e p w e bc o n t e n tt op e r i o d i c a l l yc h e c kt h e i ru p d a t e s s i n c ed i f f e r e n td a t as o u r c e so rd i f f e r e n t r e c o r d sa r ec h a n g e di nd i f f e r e n tf r e q u e n c i e s ,r e s o u r c e sw i l lb ew a s t e db yu p d a t i n ga l lt h e d a t ai nt h es a m ef r e q u e n c y w eh a v ep r o p o s e dt w o d e e pw e bi n c r e m e n t a lr e f r e s hp o l i c i e s b a s e do nd i f f e r e n tg r a n u l a r i t y , w h i c hc a nb ec l a s s i f i e di n t od a t as o u r c e so rd a t ar e c o r d s a c c o r d i n gt o d i f f e r e n ta p p l i c a t i o nr e q u i r e m e n t s ,d i f f e r e n tg r a n u l a r i t yc a nb es e l e c t e d e x p e r i m e n t ss h o wt h a to u rp r o p o s e dr e f r e s hp o l i c i e sc a ni m p r o v et h ef r e s h n e s so fl o c a l d a t av e r ys i g n i f i c a n t l yb yu s i n gt h es a m et o t a ld o w n l o a dr e s o u r c e s ( 4 ) q u e r yi n t e r f a c e sa n dr e s u l tp a g e so fd e e pw e ba r em a i n l yd e s c r i b e di nh t m l l a n g u a g e ,w h i c hm a k e sd a t as e m i - s t r u c t u r e do ru n s t r u c t u r e d p a g e sa r ed e s i g n e df o rp e o p l e t ob r o w s ea n dn o tf o rm a c h i n ep r o c e s s ,t h u sb ya c c e s s i n gv i s u a lf e a t u r e sf r o mp a g e s , h u m a nb e h a v i o rm i g h tb es i m u l a t e d i nt h i sd i s s e r t a t i o n ,w eh a v ep r o p o s e dad e e pw e b d a t ae x t r a c t i o nm e t h o db a s e do nv i s u a lf e a t u r e s t h ee x i s t i n gs o l u t i o n sa r ep r i m a r i l yb a s e d o nt h ea n a l y s i so nh t m ld o mt r e ea n dh t m lt a g o u rm e t h o dh a sa v o i d e dt h e d e p e n d e n c eo nt h ed e f i n i t i o no fh t m l i nt h et r a d i t i o n a lm e t h o db a s e do nd o mt r e e a n d i no u rm e t h o d ,d a t ac a nb ed e s c r i b e db yh t m lo ro t h e rm a r k u pl a n g u a g e si n c l u d i n g n o n s t a n d a r dh t m l d e s c r i p t i o n a n ds oi th a sh i g ha d a p t a b i l i t y ( 5 ) b a s e do nt h ek e yt e c h n o l o g i e sa n dp r a c t i c a lr e q u i r e m e n t ,w eh a v ep r o p o s e da d e e pw e bi n f o r m a t i o ni n t e g r a t i o na r c h i t e c t u r ea n di m p l e m e n t e dap r o t o t y p es y s t e mo f d e e pw e bi n f o r m a t i o ni n t e g r a t i o n t h es y s t e mh a sf u n c t i o n ss u c ha ss o u r c e sd i s c o v e r y , s o u r c e so r g a n i z i n ga n dd a t ae x t r a c t i o n ,e t c p r a c t i c a la p p l i c a t i o ns h o w st h a tt h es y s t e mh a s c e r t a i np r a c t i c a lv a l u e t h i sw o r ki sp a r t i a l l ys u p p o r t e db yn a t u r a ls c i e n c ef o u n d a t i o no fc h i n au n d e r g r a n t n o 6 0 6 7 3 0 9 2 ,t h eh i g h t e c h n o l o g yr e s e a r c hp r o g r a mo fj i a n g s up r o v i n c eu n d e rg r a n t n o b g 2 0 0 5 0 1 9a n dt h eh i g h e re d u c a t i o ng r a d u a t er e s e a r c hi n n o v a t i o np r o g r a mo f j i a n g s up r o v i n c ei n2 0 0 7u n d e rg r a n tn o c x 0 7 b 12 2 z i v k e y w o r d s :d e e pw e b ,i n f o r m a t i o ni n t e g r a t i o n ,d a t as o u r c e sd i s c o v e r y , d a t as o u r c e sc l a s s i f i c a t i o n ,i n c r e m e n t a lc r a w l i n g ,s c h e m a e x t r a c t i o n , d a t ae x t r a c t i o n w r i t t e nb yz h a op e n g p e n g s u p e r v i s e db yc u iz h i m i n g 图表目录 图1 1d e e pw e b 数据库和查询接口1 图2 1d e e pw 曲站点,数据库和查询接i s 1 9 图2 2d e e pw 曲查询接口深度分布图2 1 图2 3d e e pw e b 领域分布图2 2 图2 4 搜索引擎d e e pw e b 的覆盖率2 3 图2 5d e e pw e b 聚焦爬虫系统框架2 5 图2 6 网页表单自动分类过程2 7 图2 7 网页表单的h t m l 代码2 9 图2 8 从网页表单中自动提取出来的特征2 9 图2 9d e e pw 曲数据源聚焦爬虫算法3 2 图2 1 0d e e pw e b 爬虫实验结果3 4 图3 1f o r m 特征抽取示例3 9 图3 2f g c 构架示意图4 3 图3 3 关于旅馆和航空订购的查询接口4 4 图4 1 在给定平均周期内的数据记录变化比例5 5 图4 2 在给定平均周期内的各领域数据记录变化比例5 5 图4 - 3d e e pw e b 数据记录的变化间隔5 7 图4 4 一个属性一值图的例子5 9 图5 1m cg r a wh i l l c o r n 查询返回页面实例6 6 图5 2v i p s 算法流程图6 8 图5 3 判断语义块再分割算法6 8 图5 4a m a z o n c o r n 的图书查询接口7 0 图5 5 图书查询接口页面的内容结构( a ) 与视觉块树( b ) 7 3 图5 6 三种常见的d e e pw e b 结果页面数据区结构模型7 5 图5 7m cg r a wh i l l c o m 查询返回记录采样8 0 图5 8 目标d t d 模式x m l 描述和结构树8 0 图5 9d e e pw 曲页面的部分h t m l 树结构81 图5 10 规则抽取系统演示界面8 2 图5 1 1 规则归纳算法8 4 图5 1 2 规则优化算法8 5 图5 1 3 数据特征对w r a p p e r 维持影响程度百分比8 9 图6 1d e e pw e b 信息集成系统架构9 1 图6 2 系统的工作流程9 3 图6 3 聚焦爬虫子系统总体结构图一9 5 图6 4 爬虫工作流程图9 6 图6 5 对象数据抽取子系统总体结构图9 8 图6 6 对象数据抽取子系统工作流程图9 9 图6 7 信息检索子系统系统结构图1 0 0 图6 8 信息检索子系统工作流程图1 0 1 图6 9 系统配置1 0 2 图6 1 0 数据采集资源管理一1 0 3 图6 1 1 采集网站管理1 0 3 图6 1 2u r l 发生器1 0 4 图6 1 3 采集规则的定制一1 0 4 图6 1 4 抽取规则的定义一1 0 5 图6 15 索引系统结构管理。1 0 5 图6 1 6 数据库连接管理1 0 6 图6 ,17 数据库表信息1 0 6 图6 1 8 系统管理1 0 7 图6 1 9 设置采集的线程数1 0 7 表2 1 中国d e e pw 曲规模的采样和估计2 2 表2 2 查询接口判定实验结果3 2 表3 1d e e pw e b 测试和训练数据集4 1 表3 2 实验结果数据一4 1 表3 - 3d e e pw 曲查询接口表单数据集4 8 表3 4d e e pw e b 数据源聚类结果性能评价5 0 表4 1d e e pw e b 数据时新性和年龄6 3 表5 1 部分属性字段名及其对应属性值,7 5 表5 2d e e pw e b 结果模式列表7 9 表5 3 选取各领域站点数。,8 6 表5 4d e e pw e b 接1 5 i 模式抽取实验结果8 7 表5 5d e e pw e b 结果模式抽取实验结果8 8 表5 - 6d e e pw e b 数据抽取实验结果8 8 苏州大学学位论文独创性声明及使用授权声明 学位论文独创性声明 本人郑重声明:所提交的学位论文是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含 其他个人或集体已经发表或撰写过的研究成果,也不含为获得苏州大学 或其它教育机构的学位证书而使用过的材料。对本文的研究作出重要贡 献的个人和集体,均已在文中以明确方式标明。本人承担本声明的法律 责任。 夕 研究生签名:;窑丝! 兰日 学位论文使用授权声明 期:出塑坐 苏州大学、中国科学技术信息研究所、国家图书馆、清华大学论文 合作部、中国社科院文献信息情报中心有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本 人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文 外,允许论文被查阅和借阅,可以公布( 包括刊登) 论文的全部或部分 内容。论文的公布( 包括刊登) 授权苏州大学学位办办理。 p 研究生签 导师签 e t 期:丛墨:竺:兰兰 堂燮堡墨塞盛董王羞篓垫查曼墨蔓! 妻堕堡 11 研究背景 第1 章绪论 随着w e b 数据库的广泛应用,w e b 正在加速“深化”。如图1 1 所示,i n t e r n e t 上有大量页面是由后台数据库动态产生,这部分信息不能直接通过静态链接获取,只 能通过填写表单( f o r m ) 提交查询来获取。由于传统的网络爬虫( c r a w l e r ) 不具有填 写表单的能力,爬不出这些页面。因此,现有的搜索引鼙搜索不出这部分页面信息, 从而导致这部分信息对用户是隐藏的、不可见的,我们称之为d e e pw e b ( 又称为 i n v i s i b l ew e b ,h i d d e nw e b ) 。d e e pw e b 是一个与s u r f a c ew e b 相对应的概念,最初由 d r j i l l e l l s w o r t h 于1 9 9 4 年提出,指那些由普通搜索引擎难以发现其信息内容的w e b 页面口】。由于s u r f a c ew e b 链接了上亿个静态页面,我们有理由相信有更多有意义的 信息隐藏在d e e p w e b 中,存储在后台w e b 数据库中。 图i - 1d e e p w e b 数据库和啬询接口 b e r g m a n 采用多个搜索引擎重叠分析的方法对全球的d e e pw e b 的规模进行了调 查1 2 】,调查发现全球共有4 3 ,0 0 0 9 6 ,0 0 0 个d e e pw e b 站点,约有7 5 0 0 t b 的信息量, 是s u r f a c ew e b 的5 0 0 倍。m e t a q u e r y 研究小组在2 0 0 4 年使用m 采样的方法对全球 ? 。釜兰 三詈一俨ll一 一骥漶回 囊一麓一 坠一莹警。;籍 第l章绪论deep w e b 信息集成若干关键技术研究 的d e e pw 曲作过类似的研究3 】【4 】,得到了一些有意义的发现: ( 1 ) d e e pw e b 页面信息大约是s u r f a c ew e b 的5 0 0 倍,其中大约有3 0 7 ,0 0 0 个站 点,4 5 0 ,0 0 0 个后台数据库和1 , 2 5 8 ,0 0 0 个查询接口。它仍在迅速增长,从2 0 0 0 年到 2 0 0 4 年,它增长了3 7 倍。 ( 2 ) d e e pw e b 内容分布于多种不同的主题领域,尽管电子商务是其主要的驱动力 量,但w e b 数据库的发展趋势不仅仅在此领域,同时还在非商业领域占有相对更大 的比重。 ( 3 ) 当今的爬虫并非完全爬行不到d e e pw e b 后台数据库内容,当前主要的搜索 引擎已经覆盖d e e pw e b 大约三分之一的内容。然而,在覆盖率上当前搜索引擎存在 技术上的本质缺陷。 ( 4 ) d e e pw e b 中的后台数据库大多是结构化的i 其中结构化的是非结构化的3 4 倍之多。 ( 5 ) 虽然一些d e e pw e b 目录服务已经开始索引w e b 数据库,但是它们的覆盖率 比较小,仅为0 2 1 5 6 。 ( 6 ) w e b 数据库查询接口往往位于站点浅层,9 4 之多的w e b 数据库查询接口位 于站点的前3 层。 由此可见,d e e pw e b 和s u r f a c ew e b 相比信息量更大,主题更专一,信息质量更 高,信息结构化更好。随着w 曲相关技术的日益成熟和d e e pw e b 所蕴含信息量的快 速增长,通过对w e b 数据库的访问逐渐成为获取信息的主要手段。尽管d e e pw e b 对 用户来讲是非常有用的数据源,但要想以手工的方式对其加以有效利用是一件非常困 难的事情。为了方便用户快捷高效的使用d e e pw e b 信息,对d e e pw e b 信息集成的 研究成为一个非常迫切的问题。由于d e e pw e b 的异构性和自治性,d e e pw e b 信息集 成成为一项具有挑战性的工作。如何让用户高效的从d e e pw r e b 中获取有用的信息, 正成为互联网信息检索的前沿研究课题之一,越来越受到国内外学者的关注【3 】【4 j 【5 】【6 1 。 本文进行的d e e pw e b 信息集成若干关键技术研究,是国家自然科学基金项目“面 向d e e pw e b 的不完备知识处理的逻辑模型研究”和江苏省高技术研究计划项目“面 向d e e pw e b 的搜索和挖掘关键技术研究的一部分。本文从d e e pw e b 数据源发现、 d e e pw 曲数据源管理、d e e pw e b 数据增量抓取策略、d e e pw e b 模式与数据抽取技 2 d e e pw e b 信息集成若干关键技术研究 第l 章绪论 术四个方面展开研究。这些研究内容构成了d e e pw e b 信息集成技术的核心。其研究 意义主要体现在以下三个方面: 第一,d e e pw e b 信息集成问题引起了国内外学者的高度重视,并进行了许多有 益的探索,然而国内在这方面的研究起步稍晚,与国际上最先进的研究相比存在一定 差距。本文所研究的d e e pw 曲信息集成关键技术对互联网信息产业的发展具有一定 的推动作用,因此本文的研究具有重要意义,有必要作为一项新技术进行探索研究。 第二,从表面搜索向深层搜索发展,从非结构化向结构化发展,从信息搜索向知 识发现发展是w e b 相关技术的发展趋势。本文的研究适应了这种趋势,在d e e pw 曲 数据源发现技术基础上,研究d e e pw 曲信息集成若干关键技术,该技术可与数据挖 掘等技术相结合实现d e e pw e b 深度挖掘和知识发现。由此可以看出本文的研究具有 一定的科学意义。 第三,本文的研究为人们充分利用大规模高质量的深层信息进行了有益的探索, 为最终实现大规模d e e pw e b 信息集成应用系统奠定了基础,可广泛应用于商业智能、 情报分析、生物信息等多个领域。由此可以看出本文的研究具有一定的实际应用意义。 1 2 国内外研究动态 在本节中,我们首先介绍了d e e pw 曲信息集成国内外研究动态以及发展趋势, 然后就本文研究的d e e pw e b 信息集成中四个关键问题,分别阐述了其国内外发展现 状与研究趋势。 1 2 1 d e e pw e b 信息集成 目前d e e pw e b 的研究已引起了越来越多研究者的兴趣,国内外有一些大学和研 究机构在研究中进行了许多有益的探索。 国外研究现状 华盛顿大学的s h o p b o t 7 】研究小组:s h o p b o t 是一个针对消费产品的比较代理, 它利用特定领域的启发式方法来填写表单以比较其领域内的商业产品。其聚焦于处理 电子商务网站的表单提交所返回的的产品列表页面。s h o p b o t 操作分为两个阶段:离 第1 章绪论 d e e pw e b 信息集成若干关键技术研究 线学习阶段和在线产品比较阶段。在学习阶段,确定如何填写站点表单,以及对产品 站点结果页面进行分析获取其站点模式信息。在比较阶段,利用得到的站点模式结构 来抽取结果信息,寻找满足用户要求价格最优的产品,最终将这些产品信息格式化输 出。实验结果表明s h o p b o t 能帮助用户找到价格合适的商品并且节省网上购物的时 间,但其研究领域非常狭窄,不适用于大规模领域独立的信息集成。 斯坦福大学的w e b b a s e t 8 】研究小组:d a v u l c 等人很早就提出了设计w e b b a s e 的 框架,它可以帮助用户实现特定领域复杂搜索服务。 斯坦福大学的h i w e 9 1 研究小组:h i d d e nw e be x p o s e r ( h i w e ) 是s t a n d f o r d 大学另 一个研究项目。r a g h a v a n 和g a r c i a m o l i n a 设计了一种可以抽取d e e pw r e b 信息的爬 虫。在此系统中爬虫管理器负责管理搜集过程,它对下载的w e b 页面进行分析,将 包含表单的页面送到表单处理器中处理。表单处理器首先从页面中抽取表单结构再从 预先准备好的数据集中选择数据自动地完成表单的填写,然后将合成的u r l 提交爬 虫管理器去下载响应的结果页面。由于系统需要自动完成表单填写,所以要求用户预 先准备相应的表单数据集。h i w e 只能面向特定的领域,而且必须在人工辅助下完成, 因此存在很大的局限性。 哥伦比亚大学的q p r o b e r 研究小组:哥伦比亚大学的i p e i r o t i s 等人研究了自动地 将w e b 页面所连接的后台数据库进行分类的方法【l o 】【l l 】 1 2 】。首先使用机器学习技术生 成一个基于规则的分类器( c l a s s i f i e r ) ,然后抽取分类器规则和基本u r l 组合成查询 u r l ,对后台数据库进行查询探测,计算查询返回的结果数。最后,该算法根据查询 返回的结果数对数据库进行分类。在分类的基础上他们又提出了数据源内容摘要和选 择算法【1 3 】 1 4 】【1 5 】,提出了聚焦探测采样算法,自适应的抽取具有主题代表性的文档, 估计出摘要中词汇的绝对文档频率,并采用s h r i n k a g e 技术进一步提高了数据源内容 摘要的质量。在内容摘要的基础上提出了基于主题分类模式的层次化数据源选择算 法,自适应的决定是否使用s h r i n k a g e 过的内容摘要。然而其研究仅针对非结构化的 d e e pw r e b ,而对占主导地位的结构化d e e pw e b 不适用。 伊利诺斯大学m e t a q u e r i e r t 3 】【6 】【1 6 】【1 7 】【1 8 】【1 9 j 【2 0 j 【2 l 】【2 2 1 1 2 3 1 研究小组:该小组建立一个元 查询系统( m e t a q u e r y ) ,目标是有效获取w 曲上结构化的信息。首先,m e t a e x p l o r e r 项目聚焦于发现、模型化和重构w e b 数据库来建立一个可搜索的数据源知识库。特 别是,m e t a q u e r y 系统开发了一个w 曲数据库搜索引擎,它可以有效发现w e b 上含 4 d e e pw e b 信息集成若干关键技术研究 第l 章绪论 有数据库的站点,设计模型来描述这些数据库,设计包装器自动抽取这些模型中的参 数,重组和索引可搜索的w 曲数据库。其次,m e t a e x p l o r e r 项目聚焦于集成在线数据 库,研究了数据源选择,查询转换和模式集成问题。在研究大规模信息集成的过程中 将依赖于前面所建立的数据源知识库,其重点研究了动态信息集成技术。与传统的信 息集成不同,所设计的m e t a q u e r y 系统是动态的,即可以将新发现的数据源加入系统 中,同时动态选择数据源将用户查询进行相应转换,从而获取用户查询结果。 美国纽约州立大学b i n g h a m t o n 分校m e n gw e i y i 研究小组:建立了一个 w i s e i n t e g r a t o r 2 4 】系统可以对e c o m m e r c e 进行数据集成,针对查询接口集成问题提出 了一个综合的解决方梨2 5 】【2 6 】【2 7 】。首先对每个查询接口进行分析,获取其中的属性信 息。然后进行属性匹配,在完成对所有查询接口的属性匹配后,为匹配的属性在集成 的查询接口上确定其全局名称和类型以及取值范围,这样就得到了一个集成的查询接 口。该工作总的来说实现了接口的集成,但也存在着不足:首先把查询接口看作是一 个平的结构,实际上查询接口具有很丰富的结构信息;其次是只考虑了查询接口之间 属性1 :1 的映射情况,但现实中的查询接口存在着大量的1 :m 的复杂映射。针对上述 问题,文献 2 8 1 对查询接口的集成提出了较大的扩展与改进。首先,把查询接口的模 式看作有层次的树状结构;其次,通过“桥接”的方式对查询接口的属性实现更准确 地匹配聚类;由于复杂的1 :m 映射频繁的出现,针对这种情况,对复杂映射划分为 a g g r e g a t e 和i s a 两种类型;让用户参与到集成过程中来,对集成过程加以指导。 微软亚洲研究院开发出一个学术搜索引擎l i b r a l 2 9 】,集成了多个在线文献库。在 此基础上可以挖掘出许多有用的信息,比如在某领域内哪些是最重要的文献、哪些是 最重要的研究人员。当具体查询某个权威人士的时候,可以总结出他历年发表的论文 和资料。另外还可以列出此人的研究工作经历并反映出其在某领域中是否活跃等。近 来微软亚洲研究院提出的第三代搜索技术就是要对深层互联网进行搜索与挖掘,不仅 可以找到更多的结果,而且要更加智能化、
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 插件机购销合同5篇
- 合水县2025甘肃庆阳市合水县事业单位引进高层次急需紧缺人才22人(第三批)笔试历年参考题库附带答案详解
- 丰都县2025二季度重庆丰都事业单位考核招聘12人笔试历年参考题库附带答案详解
- 2025陕西金融资产管理股份有限公司员工招聘(26人)笔试参考题库附带答案详解
- 2025辽宁省能源控股集团所属抚矿集团招聘76人笔试参考题库附带答案详解
- 2025江苏南京六合科技创业投资发展有限公司招聘10人笔试参考题库附带答案详解
- 2025广东湛江市麻章区城乡国有资产经营有限公司招聘5人笔试参考题库附带答案详解
- 2025年潍坊交通发展集团有限公司公开招聘(19人)笔试参考题库附带答案详解
- 2025年江西井冈山市市场监督管理局面向社会公开招聘4人笔试参考题库附带答案详解
- 2025年国网湖南省电力有限公司高校毕业生招聘(第二批)笔试参考题库附带答案详解
- 居室环境的清洁与消毒
- ××领导班子及成员分析研判报告
- GB/T 9124.1-2019钢制管法兰第1部分:PN系列
- GB/T 2518-2008连续热镀锌钢板及钢带
- Frenchay构音障碍评定
- 第二讲国外教育评价的发展历程
- 教育学原理课后答案主编项贤明
- 建筑装饰施工技术-轻质隔墙工程施工课件(-)
- 语言领域核心经验《学前儿童语言学习与发展核心经验》
- 德国工业4.0与数字化制造课件
- 肉制品加工技术完整版ppt课件全套教程(最新)
评论
0/150
提交评论