(计算机软件与理论专业论文)吃玩网中deep+web数据集成研究.pdf_第1页
(计算机软件与理论专业论文)吃玩网中deep+web数据集成研究.pdf_第2页
(计算机软件与理论专业论文)吃玩网中deep+web数据集成研究.pdf_第3页
(计算机软件与理论专业论文)吃玩网中deep+web数据集成研究.pdf_第4页
(计算机软件与理论专业论文)吃玩网中deep+web数据集成研究.pdf_第5页
已阅读5页,还剩65页未读 继续免费阅读

(计算机软件与理论专业论文)吃玩网中deep+web数据集成研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

山东大学硕士学位论文 摘要 随着互联网的发展,涌现出大量同类网站( 例如房产网、吃玩网、旅游网 等) ,由于各个网站间信息的孤立性,人们为获得有效信息不得不游离于各个网 站之间。虽然,像谷歌、雅虎、百度等( 称为传统搜索引擎) 提供搜索服务的网 站也可以搜索出不同网站中的信息,但它们的爬虫只能从一个链接爬行到另一个 链接。这样,新的网页要从旧的网页中发现,如果一个网页不被别的网页索引, 那么就永远不能被发现,从而形成t d e e pw e b 。传统搜索引擎爬虫的爬行特点 决定对于d e e pw e b 中的信息一筹莫展,此外传统搜索引擎还存在信息主题性不 强、信息冗余和爬行周期过长等问题。因而传统搜索引擎从一定程度上已经无法 满足人们的需求。 本文针对传统搜索引擎的种种不足,在信息集成的基础上,综合传统搜索 引擎的技术,设计了基于领域本体的d e e pw e b 爬虫模型。并在此模型的基础 上,提出了一个面向吃玩类网站d e e pw e b 数据集成框架- - d w d i s 。围绕着这 个模型和框架,对其中涉及的若干关键问题进行了深入的研究,并对其设计和 实现进行了初步的探讨,实现了一个基于d w d i s 的吃玩易搜系统,对d w d i s 框架进行了初步的实现和应用验证。 本文主要的研究内容和创新工作包括: 1 建立了面向特定领域的d e e pw e b 爬虫的爬行模型,并以此为本文的理 论基础。该模型在传统搜索引擎的爬虫模型基础上,根据搜索d e e pw e b 内容 的需求,增加了特有的工作步骤。该爬虫的主要任务是分析网页中是否含有搜 索表单,在本体的帮助下,对表单中的搜索表单进行识别、分析和试填提交, 并且对返回的结果进行分析。而传统搜索引擎爬虫的任务是不断的从一个链接 爬向另一链接,并在爬行过程中,对链接的网页下载,进行索引存储。 2 在d e e pw e b 爬虫的模型基础上,建立了一个面向用户的、应用于吃玩 类网站d e e pw e b 数据集成框架一d w d i s 。该框架中广泛的应用了信息集成中 的模块和技术,建立吃玩类商家本体,使系统能够在本体管理器的管理下顺利 运行。 山东大学硕十学位论文 3 在d e e pw e b 爬虫模型内,对其中的环节进行了关键部分的实现工作, 并讨论了关键部分的实现算法。在模型中,与传统爬虫相同的环节没有进行讨 论,重点讨论了不同环节的实现。包括标签与表单元素的匹配算法、表单元素 与本体属性的映射、表单填写的质量标准以及衡量方法。最后,还分析了结果 返回页面信息抽取的困难以及克服困难的一些方法。 。4 对本文提出的模型和方法进行了关键部分的实现工作,建立了一个基于 d w d i s 的吃玩易搜系统,以吃玩类网站d e e pw e b 数据集成为应用背景,对本 文工作进行了验证。通过这些实际的开发和验证工作,为进一步的研究,并使 之在更多领域的广泛应用奠定了一定的实验基础。 5 在基于d w d i s 的吃玩易搜系统中提出了活动地图的概念,并对活动地 图的生成显示以及用户交互进行了实现。为了方便用户的交互,本系统采用了 异步刷新技术。使本系统通过修改本体,就可以运用在其它与地理信息相关的 领域。 本文针对解决传统搜索引擎的问题,对如何有效的搜索出吃玩类网站d e e p w e b 中的信息进行了探索性的研究,希望为该问题的解决提供一种有效的思路和 方法。本文的课题基础也是目前信息集成领域应用比较广泛的技术,不但为互联 网领域的信息搜索提供了思路和方法,同时也为信息集成领域提供了一定的帮 助。这使本文课题研究既具有探索性的理论研究价值,也具有较大的应用价值和 现实意义。 关键词:传统搜索引擎:爬虫;d e e pw e b 本体;匹配;信息集成 i i 山东大学硕士学位论文 a b s t r a c t w i t ht h ed e v e l o p m e n to ft h ei n t e m e t ,al a r g en u m b e ro fv b a i o u st y p e so fw e b s i t e sw e r ea p p e a r e di nas h o r tt i m e p e o p l eh a v et ob ee f f e c t i v ei nv a r i o u sw e b s i t e s ,b u ts p e n dag r e a td e a lo ft i m ea n de f f o r tt of i n dt h eu s e f u li n f o r m a t i o n a l t h o u g h ,t h es i t e s ,s u c h 私g o o g l e ,y a h o o ,b a i d u ( c a l l e dt r a d i t i o n a ls e a r c h e n g i n e ) ,w h i c hp r o v i d es e a r c hs e r v i c e s ,c a na l s os e a r c hi n f o r m a t i o nf r o mt h e d i f f e r e n ts i t e s b u tt h ec r a w l e r so ft r a d i t i o n a ls e a r c he n g i n e so n l yc r a w lf r o mal i n k t oa n o t h e rl i n k ,s on e w w e bm u s tb ef o u n df r o mt h eo l dw e b i fap a g ew a sn o tb e i n d e x e d , t h e ni tw i l ln e v e rb ef o u n d t h o s ew e b sw h i c hc a nn o tb ei n d e x e da r eap a r t c o n t e n to ft h ed e e pw e b i nt h i sp a p e r , b e c a u s eo ft h es h o r t c o m i n g so ft r a d i t i o n a ls e a r c he n g i n e s ,t h e s p e c i f i ct a s k - o r i e n t e dc r a w l e rm o d e lo fd e e pw e bw h i c hi sb a s eo ni n f o r m a t i o n i n t e g r a t i o na n dt r a d i t i o n a ls e a r c he n g i n et e c h n o l o g yi sp r o p o s e d a n do nt h eb a s i s o ft h i sm o d e l ,t h ef r a m e w o r k ,d w d i s ,w h i c hi sas p e c i f i ct a s k - o r i e n t e du s e rq u e r y s y s t e mi sd e s i g n e d a r o u n dt h i sm o d e la n dt h ef r a m e w o r k ,w h i c hi n v o l v e san u m b e r o fk e yi s s u e sc a r r i e do u td e e pr e s e a r c h i t sd e s i g na n di m p l e m e n t a t i o ni sa c h i e v e da p r e l i m i n a r yd i s c u s s i o n b a s e do nd w d i sf r a m e w o r k ,t h es y s t e mo fe a s yt oe a to r p l a yi si m p l e m e n t e d t h ef r a m e w o r ko fd w d i sw e r ec o n d u c t e da ni n i t i a l i m p l e m e n t a t i o na n da p p l i c a t i o no fc e r t i f i c a t i o n i nt h i sp a p e r ,t h er e s e a r c ha n di n n o v a t i o ni n c l u d e 1 e s t a b l i s h e das p e c i f i ct a s k - o r i e n t e dc r a w l e rm o d e lo fd e e pw e b ,w h i c hi st h e t h e o r e t i c a lb a s i so ft h i sp a p e r b a s e do nt h em o d e lo ft r a d i t i o n a ls e a r c he n g i n e s c r a w l e ra n dt h ed e m a n do fd e e pw e b ,w eh a v ei n c r e a s e dt h ew o r ks t e p so fc r a w l e r t h em a i nt a s ko fc r a w l e rw h i c hw o r k si nd e e pw e bi st oa n a l y s et h es e a r c hf o r mi n t h ew e b w i t ht h eh e l po fs e m a n t i co n t o l o g y ,i ta n a l y s i s e ss e a r c hf o r m 抽dt e s t st o f i l ls e a r c ha n da n a l y s i s e st h er e t u r no ft h er e s u l t s t h et a s ko ft r a d i t i o n a ls e a r c h e n g i n e sc r a w l e ri st oc r a w lf r o mal i n kt oa n o t h e rd l i n ka n dt od o w n l o a da n di n d e x i i i 山东大学硕士学位论文 2 b a s e do nt h i sm o d e l ,t h ef r a m e w o r kd w d i sw h i c hi sas p e c i f i ct a s k - o r i e n t e d u s e rq u e r ys y s t e mi sd e s i g n e d aw i d er a n g eo fi n f o r m a t i o ni n t e g r a t i o no ft h e m o d u l e sa n dt e c h n o l o g yh a sb e e na p p l i e di n t h i sf r a m e w o r kw h i c he s t a b l i s h e d d o m a i no n t o l o g y w i t ht h eh e l po fd o m a i no n t o l o g y ,t h es y s t e mr i m ss m o o t h l y 3 ,i nt h em o d e lo fd e e pw e b sc r a w l e r ,w ed oak e yp a r to ft h er e a l i z a t i o no f w o r k ,a n dd i s c u s st h ek e yp a r to ft h ea l g o r i t h m i nt h em o d e l ,w ed o n td ot h ew o r k w h i c hi st h es a n l ea st r a d i t i o n a ls e a r c he n g i n e sc r a w l e r t h ed i s c u s s i o ni sf o c u s e d o nt h er e a l i z a t i o no fd i f f e r e n ts e g m e n ti n c l u d i n gl a b e l ,f o r me l e m e n tm a t c h i n g a l g o r i t h m , f o r me l e m e n ta n da t t r i b u t eo n t o l o g ym a p p i n ga n df i l l i n gt h ef o r ma n dt h e q u a l i t ys t a n d a r d sa n dm e a s u r e m e n tm e t h o d s f i n a l l y ,w ed i s c u s st h ed i f f i c u l t i e s e x t r a c t i n gi n f o r m a t i o n f l o r at h er e s u l to fp a g e sa n dt h ew a y st oo v e r c o m e 出f f i c u l t i e s 4 t h i sp a p e rp r e s e n t st h em o d e la n dm e t h o d sw h i c hw e r ea c h i e v e dak e yp a r to f t h ew o r k b a s e do nt h ef r a m e w o r ko fd w d i s ,w ei m p l e m e n tt h es y s t e mo fe a s yt o e a to rp l a y b a s e do ne a t i n ga n dp l a y i n gf i e l d s ,t h ep a p e r sw o r kw a sv e r i f i e d t h r o u g ht h e s ea c t u a ld e v e l o p m e n ta n dv a l i d a t i o nw o r k ,f o rf u r t h e rr e s e a r c h ,m a k e si t t ou s ei nt h ea r e ao ft h ee x t e n s i v ea p p l i c a t i o nf o rac e r t a i na m o u n to fe x p e r i m e n t a l b a s i s 5 i nt h et h es y s t e mo fe a s yt oe a to rp l a y ,w ep r o p o s et h ec o n c e p to f a c t i v i t i e s - m a p i t sp r o d u c i n ga n ds h o wi si m p l e m e n t e d w ea l s oi m p l e m e n t et h e i n t e r f a c eo fu s e ri n t e r a c t i o n t h r o u g ht h er e v i s i o no ft h es e m a n t i co n t o l o g y ,t h e s y s t e mc a nb eu s e di no t h e rf i e l d sw i t hg e o g r a p h i ci n f o r m a t i o n b a s e do nt h es h o r t c o m i n g so ft r a d i t i o n a ls e a r c he n g i n e s ,t h i sp a p e ra d d r e s s e d t h ei s s u eo fh o wt oe f f e c t i v e l ys e a r c ht h ed e e pw e bi n f o r m a t i o ni nt h ee x p l o r a t i o n o ft h es t u d ya n dh o p et os o l v et h ep r o b l e mo fp r o v i d i n ga ne f f e c t i v ei d e a sa n d a p p r o a c h e s t h i sp a p e r ss u b j e c ti sab r o a d e rt e c h n o l o g yi nt h ec u r r e n ta p p l i c a t i o n a r e a so fi n f o r m a t i o ni n t e g r a t i o n ,n o to n l yf o rt h ei n f o r m a t i o ni nt h ef i e l do fi n t e m e t s e a r c hp r o v i d e di d e a sa n dm e t h o d s ,b u ta l s oi nt h ea r e ao fi n f o r m a t i o ni n t e g r a t i o n p r o v i d e ds o m eh e l p t h i si sn o to n l yar e s e a r c hp a p e re x p l o r i n gt h et h e o r yt h a tt h e v a l u eo fr e s e a r c h ,a n di sa l s oo fg r e a tv a l u ea n dp r a c t i c a ls i g n i f i c a n c e f jj 东大学硕士学位论文 k e y w o r d s :t r a d i t i o n a ls e a r c he n g i n e ;c r a w l e r ;d e e pw e b ;o n t o l o g y , m a t c h i n g ; i n f o r m a t i o ni n t e g r a t i o n v 原创性声明和关于论文使用授权的说明 原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独 立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不 包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研 究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明 的法律责任由本人承担。 论文作者签名:丕丝窒: 日 关于学位论文使用授权的声明 本人完全了解山东大学有关保留、使用学位论文的规定,同 意学校保留或向国家有关部门或机构送交论文的复印件和电子 版,允许论文被查阅和借阅;本人授权山东大学可以将本学位论 文的全部或部分内容编入有关数据库进行检索,可以采用影印、 缩印或其他复制手段保存论文和汇编本学位论文。 ( 保密论文在解密后应遵守此规定) 论文作者签名:霍坌瞳:导师签名:论文作者签名:亟型壶:导师签名: 山东大学硕士学位论文 1 1 研究背景 第一章绪论 随着互联网的飞速发展,各行各业已经进入了信息化时代。新的网站层出不 穷,信息也变的日益丰富。互联网上的网站虽然众多,但是从服务功能上可以划 分为不同的类别。比如有的网站提供搜索服务,有的网站提供信息咨询,还有的 提供吃玩、租房和旅游等专门的服务项目。各类网站随着互联网技术的巨大进步 也出现了许多问题,由于问题都很相似,本文主要以吃玩类的网站为例来说明这 些问题以及解决方案。 第一点是信息孤立。在一个城市里提供吃玩信息的网站非常多,但是这些网 站之间的信息都是孤立的,在一定程度上形成了一个一个的“信息孤岛”,人们 为了获得需要的吃玩信息往往需要对这些网站一一访问,浪费了大量人力物力。 第二点是高质量信息很难获得。随着互联网上技术的发展,网站的结构也发 生了很大的变化,从开始的静态的网页构成变成了现在的动态的网页自动生成。 即在互联网的初级阶段,网站都是由一个个的静态网页构成,信息存储在这些静 态的网页中,而现在的网站都是动态的,信息都存储在后台数据库中,前台网页 都是根据用户的需求自动生成的,在w e b 服务器上并不是真实存在的。这些特征 的变化从一个层面上可以说互联网技术发生了巨大进步,使网站的展示、与用户 的交互以及信息维护和规模都有了一个质的进步;但是从另外一个层次上来说对 互联网中的信息检索带来了新的挑战。 在信息膨胀和信息源多样性的共同作用下,对有用信息的检索更趋复杂。在 大量的软件精英的努力下,针对互联网中出现的新特征,开发出了很多优秀的搜 索软件,比如谷歌、雅虎、百度等都是人们生活中比较常见的搜索引擎,称之为 传统搜索引擎【。多年来,它们在人们的生活学习中发挥着重要的作用,甚至已 经成为人们生活学习中不可缺少的工具。一般来说传统的搜索引擎通过爬取浅层 w e b 网页建立它们的索引。这些网页必须是静态且和其它页面互相链接的才能被 发现进而被爬取。如果一个网页不被任何网页所链接,则此网页就不会被索引, 也不会被爬行到。由于现在大部分吃玩类网站的商家信息都存储在后台数据库 i 东大学硕士学位论文 中,用户访问时才能形成网页,这些网页很少被别的网页索引。便形成了大量的 传统搜索引擎所爬行不到的网页。这些传统搜索引擎所爬行不到的网页,称为 d e e pw e b 。由于传统搜索引擎对d e e pw e b 内容的不作为使其在吃玩类信息搜索 时受到了很大的限制,所以很多高质量的信息搜索不出来。 第三点是数据太杂乱,主题性不强。人们搜索吃玩信息时,往往想得到吃玩 的具体场所名称、位置以及消费隋况,但是传统搜索引擎搜索出来的却大部分是 提供吃玩信息的网站。这样,人们完成搜索后,还需要到搜出来的网站中进一步 查询,来获得有用的信息,浪费了大量的精力和时间。 第四点是数据实时性不强。人们对商家的信息的实效性往往比较关心,谁也 不想搜出来的都是过时的信息。但是,人们用传统的搜索引擎搜出来的信息,都 是爬虫爬行到后存在数据库中的,由于互联网信息的海量性,爬虫需要一个月左 右的时间才能爬行一遍。这样,人们搜到的信息往往是几天甚至是几十天以前的 信息,这些信息到人们手中后,往往成为了失效的信息。 解决上述问题,关键一点就是对吃玩类网站q b d e e pw e b 数据能够进行实时 信息集成。这也是本文的研究目标。 1 2d e e pw e b 相关技术国内外的研究现状 数据是人们生活中最熟悉的概念,广义的数据包含了人类所发明的一切符 号,而有意义的符号则是我们通常所说的“信息。信息的生产、传播、搜集与 查询是人类最基本的活动之一,也是人类社会文明能够延续和发展的最基本的 手段。为了能够交流和记载,人类发明了语言和文字。而信息的载体就是文字, 文字的聚集行成了书,而书的集合则形成了图书馆。在图书馆中,书如浩瀚海 洋,寻找到一本所需的书非常的困难,为了解决这个问题,人们制定了相应的 编目体系,并配有专门的工作人员来协助寻找所需的书本。随着计算机与信息 技术的发展,有了信息检索( i n f o r m a t i o nr e t r i e v a l ,r ) 学科领域,有了图书 的检索系统,人们可以方便的通过输入“关键词”来得到相关信息。 一般来说,被检索的信息源通常是规模相对有限、内容相对稳定的。被检 索的对象也通常是经过认真筛选和预先处理的,并且信息查询数量通常都不会 太大,对响应时间要求也不会太严格。 2 山东大学硕士学位论文 1 9 9 4 年左右,出现了万维网( w b r l d 、m d ew e b ,简记为w w w 或w e b ) , 现在人们通常习惯称其为互联网。它的开放性、信息的互联性和广泛的可访问 性使人们对其非常感兴趣,极大地鼓励了人们的创造性。作为一个新型的信息 源,与传统的信息源( 如图书馆等) 相比,具有很多不同的特征,它们为信息 检索领域带来了新的发展机遇和技术挑战【2 l 。 第一个特征是规模非常大且增长迅速。十几年来网页的增长速度令人惊叹, 据g o o s e 在2 0 0 4 年统计,人类至少已经生产了4 0 多亿网页,且增长速度成指 数增加。而从人类发明文字开始,上万年才产生了1 亿本书。虽然网页的容量 和质量都不能和书籍相比,但是其信息的传播速度和影响程度也足以使人们感 到惊叹。 第二个特征是内容冗余且极不稳定。网页的数量虽然增长迅猛,但是内容 比较冗余。且在新的网页出现时,旧的网页可能会因为各种原因被删除。有的 研究表明将近5 0 的网页平均生命周期大约为5 0 天。 从一定原则上来讲,网页生产者和阅览者在同一个量级上,形式和内容的 随意性也很强,权威性相对也不高,不太可能进行人工筛选和预处理。 虽然网络有着各种各样的缺点,但是其快捷性使人们爱不释手,人们利用 自己的智慧把各种事物数字化、网络化。网络的优点和缺点使其是一把双刃剑: 一方面便于人们搜集和处理;另一方面也使人们感到信息冗余,蜂拥而至,鱼 目混珠。 互联网作为一个有着自己特征的信息源,为信息查询系统提供了新的要求, 不但使系统具有处理大规模数据的能力,还要有足够快地响应时间。现在很多 搜索引擎都能很好的做到这一点,比如g o o s e 、b a j d u 、y a h o o 等。但是这些搜 索引擎只能搜出互联网中的一部分内容,大部分藏在网络深层的内容无法搜索 出来。 早在1 9 9 4 年,j i l le l l s w o r t h 博士首次提出“不可见网 这个词描述那些相对 传统搜索引擎“不可见”的信息内容。后来“不可见网”被习惯称为d e e pw e b 。 可搜索数据库的重要性也通过由他们开发的第一个搜索站点( “a t l 引擎) 反 映出来,这个搜索站点曾在1 9 9 7 早期被大誓吹嘘。然而,“a t l 的表现却令所 有人失望,在1 9 9 8 年被a o l 收购,“a t l 服务也因此而中止。 3 山东大学硕士学位论文 但自1 9 9 9 年开始,国外针对d e e pw e b 的研究相当热烈,成果众多。从o c l c f i r s ts e a r c h 数据库系统的检索结果来看, 目前在这个研究领域已有数本英文著 作,包括c h r i s ts h e r m a n 和g a r yp r i c e 合著的t h ei n v i s i b l ew e b :u n c o v e r i n g i n f o r m a t i o ns o u r c e ss e a r c he n g i n e sc a n ts e e ) ) ( 9 0 0 1 ) 和p a u lp e d l e y 所著的( ( t h e i n v i s i b l ew e b :s e a r c h i n g t h eh i d d e np a r t so f t h ei n t e m e t ) ) ( 2 0 0 1 ) 等,相关论文的数 量则达几百篇。与此形成对照的是,国内学者并不太重视这个问题,相关论述较 少,其中只有台湾的学者研究得较多。d e e pw e b 资源无论在质量还是在数量上, 相对于s u r f a c ew e b 来看均占优势,具有重要的应用价值。此外,一般搜索引擎 的索引库中却往往遗漏 d e e pw e b 资源,如何检索d e e pw e b 资源已经引起了广 泛的关注。 其实,d e e pw e b 资源的爬行是传统搜索引擎的一个补充和延伸,任何一方 都不能代替另外一方,双方的技术也有很多重合的地方。下面分别来介绍一下两 者的技术。 1 2 1 传统搜索 传统搜索引擎一般通过两种方式获得它们的索引信息。一种是用户把自己的 网页内容添加到搜索引擎,这只占整个搜索引擎的索引库很小部分。另外一种方 式是搜索引擎通过“c r a w l e r ”或“s p i d e r ”从一个链接爬行到另一个链接下载爬 行到的网页内容。简单点说,在索引一个网页的时候,当在该网页上发现了一个 指向其它网页的超链接,那么就记录这个链接并计划在稍后时间爬取这个页面。 就像水波在湖面上扩散一样,通过这种爬取方式,搜索引擎很快就能从一个初始 链接集合索引到非常多的内容。 静态w e b 大概包含1 0 亿文档并且以每天1 5 0 万的速度增长。尽管那些最大的 搜索引擎在增加它们的索引内容方面已经做了非常出色的工作,不过w e b 的增长 速度已经超过了搜索引擎的爬取能力。 人们对搜索引擎这种毫无选择的爬取页面方式提出了合理的批评,很大程度 上缘于它们返回了太多的搜索结果,而且因为新的文档要从旧文档的链接中发 现,所以如果文档有大量的链接引用,那么它被搜索引擎索引的概率会比那些新 的或者很少有相互链接的文档要高8 倍。 4 山东大学硕士学位论文 为了解决这种局限,大多数新一代的搜索引擎( 特别是g o o g l e 和新成立的 d i r e c th i t ) 用一种新的方式取代过去那种随机跟随链接的爬取方式:直接爬取且 根据页面的流行度来索引。在这种新方法里,那些有着更多链接引用的网页会同 时在爬取和结果显示上获得优先权。 这种方法的一个优势是:即使查询词很简短,返回的结果也是很相关的;不 过却加剧了另一个矛盾:那些链接引用很少的文档会很难被索引。 当然,一旦搜索引擎需要更新它的上百万索引页面的时候,就会遭遇难题。 许多评论人士都指出搜索引擎索引新信息的间隔时间正在延长。据测试,搜索引 擎更新它们索引库的间隔为3 至t j 4 个月或者更多。 从传统搜索引擎的爬行方式可以看到:无论是否引入页面流行度,如果一个 页面没有被任何一个页面链接,那么它就永远不会被发现。因而这种索引方式导 致了如今很多w e b 上的信息没有被发现。 1 2 2d e e pw e b 数据集成 专家通过对互联网进行了分析,发现整个w e b 看似杂乱无章,但如果按其所 蕴涵信息的“深度”可以划分为s u r f a c ew e b 和d e e pw e b 两大部分【3 】。s u r f a c ew e b 是指通过超链接【4 】可以被传统搜索引擎索引到的页面的集合。d e e pw e b 是指w e b 中不能被传统的搜索引擎索引到的那部分内容。又称为h i d d e nw e b 或深层网络 1 5 ,最初由d r j i l le l l s w o r t h 于1 9 9 4 年提出,指那些由普通搜索引擎难以发现其信 息内容的w e b 页面。2 0 01 年,c h r i s ts h e r m a n 和g a r yp r i c e 将d e e pw e b 定义为:虽 然通过互联网可以获取,但普通搜索引擎由于受技术限制而不能或不作索引的那 些文本页、文件或其它通常是高质量、权威的信息。 2 0 0 0 年b r i g h tp l a n e t 公司曾针对d e 印w e b 作过一个详细的调查【6 - 7 1 ,以下是 几点调查发现: o d e e pw e b 上资源的数量是w w w 上资源数量的4 0 0 5 0 0 倍; 目前存在的d e e pw e b 站点超过2 0 0 ,0 0 0 个; 最大型d e e pw e b 站点6 0 个所包含的资源数量大约有7 5 0 g b ,已是s u r f a c e w e b 的5 0 倍; q d e e pw e b 站点的月访问量是一般站点的1 5 0 倍,并且更经常地被链接,但 东大学硕+ 学位论文 是,典型的d e e pw e b 站点都不太有名: d e e pw e b 是互联网上最大、发展最快的新型信息资源: d e e pw e b 站点与一般站点比较,所涉及范围较小,内容更为精深: ( d d e e pw e b 资源的质量比一般网络资源要好得多: 大约一半d e e pw e b 资源存在于各种主体明确的网络数据库中; 9 5 的d e e pw e b 资源是免费信息。而现在随着互联网的发展,有关d e e p w e b 的数据将更加惊人。 广义上来说,d e e pw e b 的内容主要包含4 个方面: ( 1 ) 网上可检索的数据库 网上可检索的数据库8 1 中绝大部分都是结构化的数据,用户可以通过填写搜 索表单对数据库进行查询,从而得到动态结果页面和这些页面所包含的内容; ( 2 ) 未被链接的网页 由于缺乏被指向的超链接而没有被传统搜索引擎索引到的页面,大约占整个 w e b 比例的2 1 3 : ( 3 ) 受限制的网页 需要通过注册、认证或其它限制才有权限访问的内容: ( 4 ) 部分非删网页 w e b 上可访问的非网页文件,比如图片文件、p 断口w o r d 文档等。 而在实际中应用中,人们则更关注于d e e pw e b 中的第一部分内容。其原因 不难理解,这部分内容对结构化数据的集成更有意义,可以采用的技术也更丰富。 d e e pw e b 数据集成也主要是指对结构化信息的集成。同时把w e b 中可访问的在 线数据库称为w e b 数据库或者后台数据库,这些内容只有在被查询时才会由w e b 服务器动态生成,把结果返回给访问者,因此没有超链接指向这些页面,这和那 些可以被直接访问的静态页面有着根本的区别。随着w e b 相关技术的日益成熟和 d e e pw e b 所蕴含信息量的快速增长,通过对w e b 数据库的访问逐渐成为获取信 息的主要手段,而d e e pw e b 的研究也越来越受到人们的关注。 其实并不是说d e e pw e b 搜索引擎比传统的搜索引擎要先进,而是传统搜索 引擎的进一步补充,以满足人们的不同需求,搜索的结果信息的来源也不一样, 其工作原理也不同。 6 山东大学硕士学位论文 d e e pw e b 搜索引擎并不是面对整个互联网进行搜索,而是针对某个领域进 行信息搜索,返回的结果也是经过整理后的结果。现在,针对d e e pw e b 检索方 式主要有两个方向: ( 1 ) 分布式检索d e e pw e b 分布式检索d e e pw e b 主要分为两步走,首先是把用户的检索请求同时推送 到多个网站的网络数据库网中;接着,各个网站会根据检索请求返回不同的结果, 对各种结果进行处理后返回给用户。整个过程虽然比较简单,但是也有很多问题 需要解决: 用户检索请求推送到哪些网络数据库; 由于各个网站的网络数据库存在很大的异构性,如何统一这些异构; 返回结果的过滤处理: 资源消耗巨大,如何有效地分配资源消耗和检索结果质量水平的关系。 现在,在此方向的研究是个热点问题,本文也是主要对这个方向进行研究和 讨论。 ( 2 ) 元数据与d e e pw e b 的结合 元数据的思想经过多年发展,尤其随着都柏林核心集( d u b l i nc o r e ) 的不断完 善,已经得到了不少应用。利用元数据来标注网络资源可以大大提高检索效率。 那么想到把元数据的思想应用于d e e pw e b 就是理所当然了。 o p e na r c h i v e si n i t i a t i v e ( o a i ) 开发了一个协议:o p e na r c h i n e si n i t i a t i v e p r o t o c o lf o rm e t a d a t ah a r v e s t i n g ,该协议简称为o a i 协议,是1 9 9 9 年由美国数字 图书馆联盟( d l f ) 和网络信息联盟( c n f ) 等组织提出的一个应用框架,最初是为 了解决电子期刊的预印本( p r e p r i n t ) 的互操作和元数据收割( m e t a d a t ah a r v e s t i n g ) 问题。2 0 0 1 年o a i 协议的应用扩展到数字图书馆领域,目的是实现分散的、不同 系统平台之间的元数据交换和共享,提高系统的互操作能力。2 0 0 3 年度, a l c t s ( a s s o c i a f i o nf o rl i b r a r yc o l l e c t i o n s & t e c h n i c a l s e r v i c e s ) 的年度会议项目 ( a l c t sa n n u a lc o n f e r e n c ep r o g r a m s ) 为:m e t a d a t ah a r v e s t i n g :u s i n gt h eo p e n a r c h i v e si n i t i a t i v ep r o t o c o lt oe x p o s et h ed e e pw e b 。该项目旨在利用o a i 协议把元 数据的思想应用于d e e pw e b ,利用元数据来标注d e e pw e b 资源, 以获得更好的 检索效率。目前这方面的研究正在起步阶段。 7 山东大学硕十学位论文 1 3 课题研究的主要内容 从以上讨论来看,d e e pw e b 数据集成确实很大程度上能为人们搜索信息带来 方便,同时国内外很多专家也正在研究如何能有效的把d e e pw e b 资源搜索出来, 总的来说主要有以下几个方向: d e e pw e b 爬虫模型的建立以及爬行策略的探索; d e e pw e b 数据的发现、分类与选择; d e e pw e b 查询接i = 1 集成: d e e pw e b 模式匹配; d e e pw e b 数据查询处理: d e e pw e b 数据抽取、标注与识别: w e b 历史信息( w e ba r c h i v e ) 处理; w e b 数据隐私和安全; x m l 数据管理【1 1 1 。 1 4 本文所做的主要工作 随着互联网的飞速发展,人们对互联网上的信息检索越来越重视。但是,由 于传统搜索引擎所表现出的针对互联网上的一个重要组成部分一d e 印w e b 内 容的检索的不足催生t d e e pw e b 数据集成的出现。这种需求的出现,使人们开 始对d e e pw e b 数据集成进行了研究,并且研究出了很多成果,解决了一些已经 或可能出现的问题。 本文首先回顾了信息检索发展的历史,以及在互联网领域对信息检索带来的 新的挑战和新的机遇。并且对互联网上的传统搜索引擎进行了分析,使人们知道 一直忽略了互联网中的重要组成部分一一d e e pw e b 内容。并且分析d e e pw e b 的规 模和特征,并提出了针对传统搜索引擎的不足,创建吃玩类网站d e e pw e b 信息 检索系统,使人们能够快速、方便的获取吃玩类网站q b d e e pw e b 内容的目标。 围绕这个目标,本文对相关的关键技术问题进行了研究,主要的研究内容 和创新工作包括: 1 建立了面向领域的d e e pw e b 爬虫的爬行模型,并以此为本文中的理论 8 【j 东大学硕士学位论文 基础。 2 在d e e pw e b 爬虫的模型基础上,建立了一个面向用户的、应用于吃玩 类网站的的d e e pw e b 数据集成框架d w d i s ,此数据集成框架同样可以应用于 其他相似类网站信息的d e e pw e b 数据集成( 比如房产类,旅游类等) 。 3 在d e e pw e b 爬虫模型内,对其中的环节进行了关键部分的实现工作, 并讨论了关键部分的实现算法。这些算法和环节主要适应于中文网页的数据抽 取和吃玩类网站搜索表单的识别,稍加修改后可以用在其他类的网站上。 4 对本文提出的模型和方法进行了关键部分的实现工作,建立了一个基于 d w d i s 的吃玩易搜系统,并以吃玩类网站信息的d e e pw e b 数据集成为应用背 景,对本文工作进行了验证。通过这些实际的开发和验证工作,为进一步的研 究,并使之在更多领域的广泛应用奠定了一定的实验基础。 5 在基于d w d i s 的吃玩易搜系统中提出了活动地图的概念,并对活动地图 的生成显示以及用户交互进行了实现。使本系统通过修改本体,就可以运用在 其他与地理信息相关的领域。 1 5 本文的结构 本论文各章节的组织方式如下: 第一章是本文的绪论部分。主要讨论了本文的研究背景,通过分析d e e pw e b 相关技术以及国内外的研究现状,总结了本课题的研究内容以及本文所做的工 作。 第二章中针对人们的需求,提出了吃玩类网站d e e pw e b 数据集成的d e e p w e b 数据集成系统架构d w d i s ,它是一个针对吃玩类网站的,能够为用户直 接提供搜索结果的系统框架。并对框架中模块进行了说明。最后实现了一个基 于d w d i s 的吃玩易搜系统,框架成功应用在吃玩易搜系统上,并且,在易搜 系统中提出了活动地图的概念,并进行了实现。 第三章和第四章是对第二章中提出的d w d i s 框架中的部分重要模块进行 了重点的讨论和研究。 第三章主要构建了吃玩类网站的本体和本体的学习技术。 第四章建立了面向特定领域的d e e pw e b 爬虫的爬

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论