




已阅读5页,还剩112页未读, 继续免费阅读
(信号与信息处理专业论文)基于用户浏览行为的深度网络挖掘.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
鳓 u n i v e r s i t yo fs c i e n c e a n dt e c h n o l o g yo fc h i n a ad i s s e r t a t i o nf o rd o c t o r sd e g r e e d e e p w e b m i n i n g b a s e do n u s e rb r o w s i n gb e h a v i o r a u t h o r :j i n g t i a nj i a n g m a j o r : s i g n a la n d i n f o r m a t i o np r o c e s s i n g a d v i s o r :p r o f n e n g h a i y u f i n i s h e dt i m e :m a y8 t h ,2 012 中国科学技术大学学位论文原创性声明 本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的 成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或 撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作 了明确的说明。 作者签名:签字日期:边矽之 中国科学技术大学学位论文授权使用声明 作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学 拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构 送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入中 国学位论文全文数据库等有关数据库进行检索,可以采用影印、缩印或扫描 等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内 容相一致。 保密的学位论文在解密后也遵守此规定。 酸开口保密( 年) 作者签名:螽施显 导师签 签字日期:丝2 三:竺:生 签字日 摘要 摘要 近年来,随着互联网的快速发展,网络中蕴含了海量的信息,并且仍在以惊 人的速度增长。一般来说,互联网中信息的主要发布形式为静态网页,每个静态 网页都含有一定数量的静态超链接,指向其他的静态网页。传统的搜索引擎正是 利用这些静态网页中的超链接来收集、索引和显示用户所感兴趣的网页和信息。 然而,除此之外,互联网中还有很大一部分信息是以动态数据源的形式存在的。 这些信息并不存在于静态网页中,而是存储在网站背后的在线数据库中,并且根 据用户的关键词实时地、动态地生成网页来呈现给用户。由于缺乏足够的静态超 链接指向这些动态网页,传统的搜索引擎很难发现和索引这些网页,因此这部分 信息相对于用户是“隐藏”的。这些“隐藏”信息的集合被称为深度网络( 即 d e e pw e b ,又名i n v i s i b l ew e b 或h i d d e nw e b ) 。与此相对应,那些静态网页集合 被称为s u r f a c ew e b 。 现在,d e e pw e b 的信息量远远超过了s u r f a c ew e b ,尤其是d e e pw e b 中的 高质量数据,更是高达s u r f a c ew e b 的2 0 0 0 多倍。但是,有效而充分地利用d e e p w e b 中的高质量数据在目前仍然是一个巨大的挑战,其中最重要的问题就是 d e e pw e b 数据源的发现和d e e pw e b 数据源的采集。一当前的关于d e e pw e b 数 据源的发现与采集的研究工作各有一些不足,比如,有些需要人工参与,有些依 赖于特定的领域,所以它们都很难大规模应用。因此,本文围绕着d e e pw e b 挖 掘的研究,重点关注d e e pw - e b 数据源的发现和采集这两个问题,以方便用户利 用d e e pw - e b 中的信息,进一步推动d e e pw - e b 的发展。本文通过仔细分析用户 在d e e pw 曲中特有的浏览行为,归纳出了用户在d e e pw 曲中特有的浏览路径, 并基于此浏览路径提出了全自动的、不依赖特定领域的、高效的d e e p w e b 数据 源发现和采集的方法,使得大规模的d e e pw 曲挖掘成为可能。 本文的创新之处主要有三点: 1 深入分析了网络用户在d e e pw e b 中的浏览行为 首先分析了用户在s u r f a c ew e b 和d e e pw e b 中的浏览记录与浏览行为,并 将它们转换为更为直观的图形表示( 浏览图) ,然后仔细对比了它们的不同之处; 再结合d e e pw e b 中网页的功能与布局特点和链接规则,最后提出了用户在d e e p w e b 中的模型化的浏览路径:表单页面一列表页面一目标页面。这条浏览路径很 好地描述了用户在d e e pw e b 中的浏览行为的独特性。据我们所知,本文是第一 次提出类似的概念。 摘要 2 提出了一种高效的发现d e e pw e b 数据源的方法 基于用户在d e e pw 如中的独特的浏览路径,提出了一种高效的从浏览记录 中发现d e e pw 曲数据源的方法。该方法利用d e e pw 曲中的链接特点,首先通 过链接聚类把用户浏览过的表单页面、列表页面、目标页面聚类到一块,然后根 据用户在浏览过程中的转移关系重建用户的浏览图;接着,该方法从建好的浏览 图中检测浏览路径,来发现d e e pw 曲数据源。由于该方法使用链接聚类取代了 页面聚类,因此大大提高了d e e pw - e b 数据源发现的效率,而且也不依赖于特定 的主题。此外,从用户浏览记录中寻找d e e pw e b 数据源,进一步降低了代价, 而且提高了发现d e e pw e b 数据源的准确率和发现高质量d e e pw e b 数据源的概 率,降低了发现低质量d e e pw e b 数据源的风险。 3 提出了一种高效的采集d e e pw e b 数据源的方法 基于用户在d e e pw e b 中的独特的浏览路径,提出了一种高效的采集d e e p w e b 数据源的方法。由于用户的浏览过程就是访问大量目标页面的过程,因此我 们尝试模拟用户的浏览行为,沿着用户在d e e pw e b 中的浏览路径来获取大量的 目标页面。该方法从表单页面出发,首先收集一定数目的列表页面;然后,该方 法利用d o m 树对齐技术和目标链接的布局特点在列表页面上检测目标链接;之 后,在列表页面和目标页面上,该方法利用翻页链接的特点来检测翻页链接。当 收集到足够的链接后,该方法会学习这些链接的链接规则,并使用学到的这些链 接规则去采集目标d e e pw e b 数据源,以提高采集效率。 关键词:d e e pw e b ,深度网络挖掘,用户浏览行为,浏览路径,d e e pw 曲数据 源发现,d e e pw e b 数据源采集 i i a b s t r a c t a b s t r a c t r e c e n t l yw i t ht h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h ew o r l dw i d ew e bc o n t a i n s t r e m e n d o u sv a l u a b l ei n f o r m a t i o n ,a n dt h ei n f o r m a t i o ni ss t i l lg r o w i n gw i t haf a s t s p e e d g e n e r a l l y , i n f o r m a t i o ni nt h ew e bi sm a i n l yp u b l i s h e dv i as t a t i cw e bp a g e s , a n de a c hs t a t i cp a g ec o n t a i n san u m b e ro fo u t g o i n gu g t sp o i n t i n gt oo t h e rs t a t i c p a g e s t h et r a d i t i o n a ls e a r c he n g i n e sj u s tm a k eu s eo ft h e s eo u t g o i n gu r l st oc o l l e c t , i n d e xa n ds h o wt h ep a g e sa n di n f o r m a t i o n h o w e v e r , b e s i d e st h es t a t i cw e b p a g e s ,a l a r g ep r o p o r t i o no fi n f o r m a t i o ni nt h ew e bi ss t o r e di no n l i n ew e bd a t a b a s e s s u c h i n f o r m a t i o nd o e sn o te x i s ti nt h es t a t i cp a g e s ,b u tc a l lb ed y n a m i c a l l yr e t r i e v e da n d d i s p l a y e da sd y n a m i cw e bp a g e st ot h eu s e r sa c c o r d i n gt ot h eq u e r i e sp r o v i d e db yt h e u s e r s d u et ot h el a c ko fs t a t i cu r l sp o i n t i n gt os u c hd y n a m i cp a g e s ,i ti sh a r df o rt h e t r a d i t i o n a ls e a r c he n g i n e st od i s c o v e rt h e m ,a n dt h u ss u c hi n f o r m a t i o ni s “h i d d e n t o u s e r s t h e r e f o r e ,t h ec o l l e c t i o no fs u c h “h i d d e n ”i n f o r m a t i o ni sc a l l e dd e e pw e b ( a l s o n a m e da si n v i s i b l ew e bo rh i d d e nw e b ) a n dc o r r e s p o n d i n g l y , t h ec o l l e c t i o no fs t a t i c w e bp a g e si sc a l l e ds u r f a c ew e b n o w , t h ei n f o r m a t i o ni nd e e pw e bi sm u c hm o r et h a ns u r f a c ew e b ,e s p e c i a l l y f o rt h eh i g hq u a l i t yi n f o r m a t i o ni nd e e pw e b ,w h i c hi sm o r et h a n2 0 0 0t i m e so ft h a t i ns u r f a c ew e b h o w e v e r , c u r r e n t l yi ti ss t i l lah u g ec h a l l e n g et oe f f e c t i v e l ya n d c o m p l e t e l ye x p l o i tt h eh i g hq u a l i t yi n f o r m a t i o ni nd e e pw e b ,a n dt h em o s ti m p o r t a n t p r o b l e m sa r ed e e pw e bd i s c o v e r ya n dd e e pw e bc r a w l i n g t h e r eh a v eb e e ns o m e r e s e a r c hw o r k so nt h e s et w op r o b l e m s ,b u tt h e ya r eh a r dt ob ea p p l i e di nl a r g e s c a l e a p p l i c a t i o n s i ti sb e c a u s et h a tt h e yh a v er e s p e c t i v ed i s a d v a n t a g e s ,f o re x a m p l e ,s o m e w o r k sn e e dh u m a ni n t e r a c t i o na n ds o m ed e p e n do ns p e c i f i ct o p i c s i nt h i sd i s s e r t a t i o n , a r o u n dt h ep r o b l e mo fd e e pw e bm i n i n g ,w em a i n l yf o c u so nt h ep r o b l e m so f d e e p w e bd i s c o v e r ya n dd e e pw e bc r a w l i n g ,i no r d e rt om a k ei tc o n v e n i e n tf o ru s e r st o e x p l o i td e e pw e bi n f o r m a t i o na n de n c o u r a g et h ed e v e l o p m e n to fd e e pw e b a f t e r c a r e f u l l yi n v e s t i g a t i n gt h eu s e rb r o w s i n gb e h a v i o ra n ds u m m a r i z i n gt h es p e c i f i cu s e r b r o w s i n gp a t hi nd e e pw e b ,w ep r o p o s e da u t o m a t i c ,t o p i ci n d e p e n d e n ta n de f f i c i e n t m e t h o d sf o rd e e pw e bd i s c o v e r ya n dd e e pw e bc r a w l i n gr e s p e c t i v e l y , w h i c hm a k ei t p o s s i b l ef o rd e e pw e bm i n i n gi nl a r g e s c a l ea p p l i c a t i o n s t h em a i nc o n t e n t sa n dc o n t r i b u t i o n so ft h i sd i s s e r t a t i o na r ea sf o l l o w s : i i i a b s t r a c t 1 d e e p l yi n v e s t i g a t e dt h eu s e rb r o w s i n g b e h a v i o ri nd e e pw e b f i r s td e e p l yi n v e s t i g a t e dt h eu s e rb r o w s i n gb e h a v i o ri nd e e pw e ba n ds u r f a c e w e b ,t r a n s f o r m e di ti n t oav i s u a l i z e dg r a p h ( b r o w s i n gm a p ) ,a n dc a r e f u l l yc o m p a r e d t h eu s e rb r o w s i n gb e h a v i o ri nd e e pw e ba n ds u r f a c ew e b a f t e rt h a t ,b a s e do nt h e p a g e s f u n c t i o n ,l a y o u ta n dt h eu r l r u l e si nd e e pw e b ,p r o p o s e dam o d e lu s e r b r o w s i n gp a t h :f o r mp a g e - l i s tp a g e _ o b j e c tp a g e t h i sb r o w s ep a t hw e l l p r e s e n t st h es p e c i f i cc h a r a c t e r i s t i c so fu s e rb r o w s i n gb e h a v i o ri nd e e pw e b 。t ot h e b e s to fo u rk n o w l e d g e ,t h i si st h ef i r s tt i m et h a ts u c hac o n c e p ti sp r o p o s e d 2 p r o p o s e da ne f f i c i e n tm e t h o df o rd e e pw e bd i s c o v e r y b a s e do nt h es p e c i f i cu s e rb r o w s i n gp a t hi nd e e pw e b ,p r o p o s e da ne f f i c i e n t m e t h o dt od i s c o v e rd e e pw e bs i t e sf r o mb r o w s el o g s t h i sm e t h o df i r s tc l u s t e r st h e f o r mp a g e s ,l i s tp a g e sa n do b j e c tp a g e st h r o u g hu r lc l u s t e r i n g ,a n dr e b u i l d st h e b r o w s em a pb a s e do nt h ej u m p sb e t w e e np a g e s 。t h e ni tt r i e st od e t e c tt h es p e c i f i c u s e rb r o w s i n gp a t hf r o mt h eb r o w s em a p n e x t ,i fau s e rb r o w s i n gp a t hi sd e t e c t e d a n di ts a t i s f i e ss o m er e q u i r e m e n t s ,t h i ss i t ei sc o n s i d e r e da sad e e pw e bs i t e i ti sv e r y e f f i c i e n ta n da l s ot o p i ci n d e p e n d e n ta si tu s e su r lc l u s t e r i n gi n s t e a do ff e t c h i n gt h e p a g e sa n dc l u s t e r i n gp a g e s i na d d i t i o n ,d i s c o v e r i n gd e e pw e bs i t e sf r o mb r o w s el o g s r e d u c e st h ec o s ti nf u r t h e r , a n di n c r e a s e st h ep r e c i s i o no fd e e pw e bd i s c o v e r ya n dt h e p r o b a b i l i t yo fd i s c o v e r i n gh i g hq u a l i t yd e e pw e b s i t e s 3 p r o p o s e da ne f f i c i e n tm e t h o df o rd e e pw e bc r a w l i n g b a s e do nt h es p e c i f i cu s e rb r o w s i n gp a t hi nd e e pw e b ,p r o p o s e da ne f f i c i e n t m e t h o dt oc r a w ld e e pw e bs i t e s o b s e r v i n gt h a tt h eu s e r sv i s i tal a r g en u m b e ro f o b j e c tp a g e sd u r i n gt h e i rb r o w s i n g ,w et r yt os i m u l a t et h eu s e rb r o w s i n gt oc o l l e c ta s m a n yo b j e c tp a g e sa sp o s s i b l e s t a r t i n gf r o mt h ef o r mp a g e ,t h em e t h o d f i r s tc o l l e c t sa n u m b e ro fl i s tp a g e s ;t h e ni tm a k e su s eo fh t m ld o mt r e ea l i g n m e n tt e c h n i q u ea n d t h el a y o u to fo b je c tu r l st od e t e c to b je c tu r l sf r o mt h ec o l l e c t e dl i s tp a g e s ;n e x t ,i t t a k e sa d v a n t a g eo ft h ec h a r a c t e r i s t i c so fp a g e - f l i p p i n gu r l st od e t e c tp a g e - f l i p p i n g u r l sf r o mb o t hl i s tp a g e sa n do b j e c tp a g e s a f t e rc o l l e c t i n ge n o u g hu r l s ,t h e m e t h o dl e a r n su r lr u l e sf r o mt h ed e t e c t e du r l s ,a n du s e st h el e a r n tu r lr u l e st o c r a w lt h et a r g e td e e pw e bs i t e si no r d e rt oi n c r e a s et h ec r a w l i n ge f f i c i e n c y k e yw o r d s :d e e pw e b , p a t h ,d e e pw e bd i s c o v e r y , d e e pw e bm i n i n g ,u s e rb r o w s i n gb e h a v i o r ,b r o w s i n g d e e pw e bc r a w l i n g i v 目录 目录 摘要i a b s t r a c t i i i 目录v 图表目录及缩略语i x 插图目录i x 表格目录x i 算法目录x i i 第1 章绪论l 1 1d e e pw e b 研究背景1 1 1 1d e e pw e b 的概念1 1 1 2 d e e pw e b 的现状4 1 2d e e pw e b 研究现状8 1 2 。1d e e pw e b 数据源的发现8 1 2 2d e e pw e b 数据源的采集9 1 3 关键问题与研究内容1 l 1 3 1 关键问题1 1 1 3 2 研究内容1 2 1 4 论文的结构安排1 5 第2 章基本知识介绍1 7 2 1d e e pw e b 与s u r f a c ew e b 1 7 2 1 1s u r f a c ew e b 1 7 2 1 2d e e pw e b 1 7 2 2 浏览记录( b r o w s el o g ) 1 8 2 2 1s e s s i o n 1 ; v 目录 2 3 浏览路径1 8 2 4 页面类型及链接类型2 0 2 5 浏览图2 1 2 6 小结2 2 第3 章用户浏览行为分析2 3 3 1 简介2 3 3 1 1 浏览行为的图形表示2 3 3 。2 用户在s u r f a c ew e b 中的浏览行为分析2 4 3 3 用户在d e e pw e b 中的浏览行为分析2 4 3 4d e e pw e b 中的浏览路径2 6 3 4 1 用户在d e e pw e b 中和s u r f a c ew e b 中的浏览行为对比2 6 3 4 2 用户在d e e pw e b 中的独特的浏览路径2 8 3 5 小结2 8 第4 章d e e pw e b 数据源的发现3 l 4 1 简介。3 1 4 1 1 背景介绍,3 1 4 1 2 研究现状3 1 4 2 基于用户浏览行为的d e e pw e b 数据源发现3 5 4 2 1 链接聚类3 8 4 2 2 建立浏览图4 2 4 2 3 浏览路径检测一4 3 4 2 4 列表页面验证4 4 4 2 5d e e pw e b 数据源判定4 5 4 。2 。6 查询接口检测4 6 4 3 实验5 0 4 3 1 实验设置5 0 4 3 2 实验数据5 1 4 3 3 实验结果5 1 4 3 4 实验小结5 4 4 4 小结5 4 v i 目录 第5 章d e e pw e b 数据源的采集5 5 5 1 简介5 5 5 1 1 背景介绍5 5 5 1 2 研究现状5 7 5 2 基于用户浏览行为的d e e pw e b 数据源采集6 3 5 2 1 概述6 3 5 2 2 列表页面获取6 5 5 。2 。3 目标链接检测。7 2 5 2 4 翻页链接检测7 2 5 2 5 链接规则学习7 4 5 2 6 在线采集7 6 5 3 实验7 8 5 3 1 实验设置7 8 5 3 2 实验数据7 9 5 3 3 实验结果8 1 5 3 4 实验小结8 7 5 4 小结8 7 第6 章总结与展望8 9 6 1 论文总结9 0 6 2 未来研究展望9 1 参考文献9 3 致谢9 9 在读期间发表的学术论文与取得的其他研究成果1 0 1 作者简介1 0 3 i 原书空白页 不缺内容 图表目录及缩略语 图表目录及缩略语 插图目录 图1 1 访问d e e pw e b 数据源的流程示意图2 图1 2d e e pw e b 数据源的查询接口示例3 图1 3d e e pw e b 数据源的列表页面示例3 图1 4d e e pw e b 数据源的目标页面示例4 图1 5d e e pw e b 数据源在各个主题领域的分布情况6 图1 6s u r f a c ew e b 和d e e pw e b 的数据量对比示意图6 图2 1 一条简单的浏览路径1 9 图2 2 目标链接与翻页链接示例2 1 图2 3 浏览图示例2 2 图3 1 来自d e e pw e b 数据源h t t p :a l l r e c i p e s c o 州的一个s e s s i o n 的浏 览记录的图形表示2 6 图3 2 用户在d e e pw e b 和s u r f a c ew e b 中的浏览行为对比2 7 图3 3 用户在d e e pw e b 中的模型化的浏览路径2 8 图4 1 遍历网络地址发现d e e pw e b 数据源的流程图3 3 图4 2 利用搜索引擎发现d e e pw e b 数据源的流程图3 3 i x 图表目录及缩略语 图4 3 利用聚焦爬虫发现d e e pw 曲数据源的流程图3 4 图4 4 一个典型的查询接口( 左) 及其对应的h t m l 代码( 右) 3 4 图4 5 查询接口分类器示例一3 5 图4 6 从图3 2 中的浏览轨迹归纳得到的新的浏览轨迹3 8 图4 7 创建链接层次树的一个例子4 1 图4 9 上面的h t m l 代码所对应的查询接口的d o m 树4 9 图4 1 0 不同阈值时的准确率与召回率及f 1 5 2 图4 1 1 阈值t = 0 3 5 时的测试结果5 3 图4 1 2 效率对比结果图5 4 图5 1 一个典型的查询式d e e pw e b 的首页( 查询接口) 5 6 图5 2 一个典型的浏览式d e e pw e b 的首页5 6 图5 3 元搜索的搜索过程示意5 8 图5 4d e e pw e b 中的列表页面( 左) 与目标页面( 右) 6 0 图5 5s t r u c t u r e d r i v e nc r a w l e r 采集d e e pw e b 示意图6 0 图5 6i r o b o t 采集浏览式d e e pw e b 数据源示意图6 2 图5 7 我们提出的d e e pw e b 数据源采集方法的整体流程图6 4 图5 8 浏览式d e e pw e b 数据源的首页和列表页面示例6 8 图5 9 列表页面、目标页面和帖子链接、翻页链接示例一6 9 图表目录及缩略语 图5 1 0h t m ld o m 树对齐的一个示例7 1 图5 1 1 一个“单个翻页链接”的例子7 4 图5 1 2 各种方法在查询式d e e pw e b 数据源上的准确率对比8 1 图5 1 3 各种方法在查询式d e e pw - e b 数据源上的覆盖率对比8 2 图5 1 4 各种方法的学习效率对比8 3 图5 1 5 各种方法在浏览式d e e pw e b 数据源上的准确率对比8 4 图5 1 6 各种方法在浏览式d e e pw _ e b 数据源上的覆盖率对比8 4 表格目录 表1 1 一些商业机构所索引的d e e pw e b 数据源数目及其覆盖率7 表2 1 来自于s i n a c o r n c a 的一个s e s s i o n 的b r o w s el o g 一19 表3 1 来自于d e e pw e b 数据源h t t p :a l l r e c i p e s c o 州的一个s e s s i o n 的 b r o w s el o g 2 5 表4 1 链接聚类的过程示例4 0 表4 2 从图4 7 学到的链接规则及其匹配到的链接4 1 表4 3 总体测试结果对比5 2 表5 1 列表页面和目标页面分类器的主要特征7 0 表5 2 从h t t p :w w w g a r d e n s t e w c o m 学到的链接规则7 6 x i 图表目录及缩略语 表5 3 对比实验中使用的查询式d e e pw - e b 数据源的相关信息7 9 表5 4 关于实验使用的浏览式d e e pw 曲数据源软件的一些统计8 0 表5 5 对比实验中使用的浏览式d e e pw e b 数据源的相关信息8 0 表5 6 各种方法的学习过程所消耗的时间。8 4 表5 7 大规模采集实验的微平均与宏平均结果8 7 算法目录 算法4 1 链接层次树创建算法3 9 算法4 2 浏览图创建算法4 2 算法4 3 浏览路径检测算法4 4 算法5 1 关键词的自动地选择与列表页面的获取的算法6 6 算法5 2 列表链接和目标链接的检测算法7 2 算法5 3 翻页链接的检测算法7 5 算法5 4 查询式d e e pw e b 数据源在线采集算法7 7 算法5 5 浏览式d e e pw e b 数据源在线采集算法7 8 x i i 中国科学技术大学博士学位论文第l 章绪论 第1 章绪论 自诞生以来,互联网就一直在快速发展。一般来说,互联网中信息的主要发 布形式是静态的网页,其中每个网页都含有一定数量的静态超链接,指向其他的 静态网页。传统的搜索引擎 3 3 】正是利用这些静态网页中的超链接来收集、索引 和显示用户所感兴趣的信息。不过,早期的静态网页缺乏动态性,因此由这些静 态网页所构成的站点也不具备与用户交互的能力。在这种背景下,动态网页技术 和网络数据库技术应运而生。这些技术的出现,大大地促进了互联网上的信息的 增长。也因为这些技术的出现,在所有的信息当中,有很大一部分并不存在于静 态的网页中,而是存储在网站背后的在线数据库中,并且根据用户的检索词实时 地、动态地生成动态网页来呈现给用户。由于缺乏足够的静态超链接指向这类网 页,传统的搜索引擎很难发现和索引它们,所以这些信息相对于用户是“隐藏” 的。因此,我们把这部分“隐藏”的信息集合称之为深度网络( 即d e e pw e b , 也有文献称之为i n v i s i b l ew e b 或h i d d e nw 曲) 。 从这个角度上讲,整个互联网所蕴含的信息可以划分为s u r f a c ew e b 和d e e p w e b 两大部分。s u r f a c ew e b 是指静态的、可以通过超链接被传统搜索引擎收集 和索引到的网页集合;d e e pw 曲是指那些存储在网站背后的在线数据库中,根 据用户提供的检索词实时地、动态地生成的网页所包含的内容集合 6 1 。 本章首先介绍d e e pw e b 的概念与研究现状,以及d e e pw e b 的研究意义, 然后指出d e e pw e b 研究的关键问题,并提出本论文的研究内容,最后介绍本论 文的结构安排。 1 1 d e e pw e b 研究背景 1 1 1 d e e pw e b 的概念 1 9 9 4 年,j i l le l l s w o r t h 第一次提出了d e e pw - e b 的概念,主要是指那些传统 的搜索引擎难以发现的信息内容的集合,并将其称之为“i n v i s i b l ew e b 7 3 02 0 0 1 年,b e r g m a n 在对全球d e e pw e b 的调查中最先使用了“d e e pw e b ”的概念 3 2 1 , 这个概念在后来的研究中被广泛接受。同年,c h r i s t 和g a r y 6 9 将d e e pw e b 的 概念定义为:那些虽然可以通过互联网来获取,但是普通搜索引擎由于受到技术 限制而不能或不做索引的网页、文件或者其它通常是高质量、权威的信息的集合。 中国科学技术大学博士学位论文第1 章绪论 随着搜索引擎尝试着发现和索引d e e pw e b 的内容,d e e pw e b 的概念正在变得越 发的复杂。现在,当我们提到d e e pw e b 时,一般认为其涉及的内容主要包括以 下三个方面: 数据库中的内容:这部分内容是指存储在狭义的数据库中的内容,比如由 a c c e s s ,o r a c l e ,s q ls e r v e r 和m y s q l 等生成的数据库。网络上的很大一部分 富有价值的信息都是从数据库中检索并显示在页面中的。 非文本文件的内容:这是指多媒体,图像,软件和p d f 或者w o r d 格式的文 档等。 动态改变的内容:这是指一直在改变或更新的内容,比如论坛,博客,新闻, 评论和机票等。 不同于s u r f a c e w e b 的静态网页,d e e p w e b 中的内容一般存储在网站背后的 在线数据库中,其页面是根据用户提供的检索词实时、动态地生成的。因此,访 问d e e p w - e b 与访问s u r f a c e w e b 有很大的不同。在访问s u r f a c e w - e b 时,用户可 以随意点击网页中的链接来访问其他页面;而在访问d e e pw e b 时,用户需要提 交一些关键词来获得自己感兴趣的页面。图1 1 给出了访问d e e pw e b 数据源的 流程。用户首先打开查询页面( 如图1 2 所示) ,然后通过查询接口提交一个或 者多个关键词,网站服务器收到关键词后,从后台数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 商业合作诚信守秘保证承诺书3篇范文
- 科技创新及知识产权维护承诺函4篇
- 2025辽宁能源控股集团所属阜矿集团招聘90人模拟试卷附答案详解(完整版)
- 2025金华市八达供电服务有限公司招聘60人模拟试卷附答案详解(突破训练)
- 2025年河北沧州南皮县中医医院公开招聘工作人员16名模拟试卷完整答案详解
- 合同管理模板法律风险防控版
- 2025届春季中建八局总承包公司校园招聘正式启动考前自测高频考点模拟试题及答案详解(有一套)
- 项目货款按时回笼保证承诺书9篇
- 2025内蒙古气象部门(第二批)招聘70人模拟试卷及答案详解(考点梳理)
- 2025江苏南京市建邺区平安联盟工作辅助人员招聘42人(二)模拟试卷及完整答案详解一套
- 项目经理年中会议汇报
- 小学生美容知识培训内容课件
- 7-函数的连续性省公开课一等奖全国示范课微课金奖课件
- 2024年北控水务集团招聘笔试真题
- 2025年盘锦市总工会面向社会公开招聘工会社会工作者52人考试参考试题及答案解析
- 技术部经理竞聘演讲稿
- 2025年具有良好的商业信誉和健全的财务会计制度承诺书范本
- 2025年秋人教版数学四年级上学期第一次月考测试卷【附答案】
- 2025年行政执法考试题库及答案(单选题)
- T/CCAS 022-2022水泥工业大气污染物超低排放标准
- 安全生产“五个一”、“十个一次”活动内容
评论
0/150
提交评论