(计算机应用技术专业论文)基于页面分块的web档案构建技术研究.pdf_第1页
(计算机应用技术专业论文)基于页面分块的web档案构建技术研究.pdf_第2页
(计算机应用技术专业论文)基于页面分块的web档案构建技术研究.pdf_第3页
(计算机应用技术专业论文)基于页面分块的web档案构建技术研究.pdf_第4页
(计算机应用技术专业论文)基于页面分块的web档案构建技术研究.pdf_第5页
已阅读5页,还剩68页未读 继续免费阅读

(计算机应用技术专业论文)基于页面分块的web档案构建技术研究.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

jl11,-r at h e s i sf o rt h ed e g r e eo fm a s t e ri n c o m p u t e ra p p l i e dt e c h n o l o g y s t u d y o nc r e a t i o nt e c h n i q u e f o rb l o c k - b a s e dw e ba r c h i v e b yy uc h a n g f u s u p e r v i s o r :p r o f e s s o rw a n gd a l i n g n o r t h e a s t e r nu n i v e r s i t y j u n e2009ne 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 意。 学位论文作者签名:j 长当 日期:7t 毛 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年囤一年口一年半口两年口 学位论文作者签名:于长庙 签字日期: 卅7 l 导师签名: 签字日期: 习尘以 川罗7 f iiifl0,1 ,0,2 at h e s i sf o rt h ed e g r e eo fm a s t e ri n c o m p u t e ra p p l i e dt e c h n o l o g y s t u d yo nc r e a t i o nt e c h n i q u e f o rb l o c k b a s e dw e ba r c h i v e b yy uc h a n g f u s u p e r v i s o r :p r o f e s s o rw a n gd a l i n g n o r t h e a s t e r nu n i v e r s i t y j u n e2009ne2 u u rilllflk 独创性声明 本人声明,所呈交的学位论文是在导师的指导下完成的。论文中取得 的研究成果除加以标注和致谢的地方外,不包含其他人已经发表或撰写过 的研究成果,也不包括本人为获得其他学位而使用过的材料。与我一同工 作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢 :出 恧。 学位论文作者签名:j 长当 日期: 2 j 名 学位论文版权使用授权书 本学位论文作者和指导教师完全了解东北大学有关保留、使用学位论 文的规定:即学校有权保留并向国家有关部门或机构送交论文的复印件和 磁盘,允许论文被查阅和借阅。本人同意东北大学可以将学位论文的全部 或部分内容编入有关数据库进行检索、交流。 作者和导师同意网上交流的时间为作者获得学位后: 半年囤一年口一年半口两年口 学位论文作者签名:于长每 签字日期: 卅7 f 导师签名:参企涉 签字日期:矿7 7 石 j_ i 上 东北大学硕士学位论文摘要 基于页面分块的w e b 档案构建技术研究 摘要 随着i n t e m e t 的普及和飞速发展,万维网累积了大量的信息资源。它作为一个巨大 的资源库和知识库,与人们的生活联系越来越紧密。通过万维网看新闻、写博客、查找 资料等等,已经成为日常生活不可或缺的一部分。但是,随着时间的推移,万维网也在 默默地发生着变化,其体积在不断的增大,其中的内容也在不断消失、更换和增多。 在万维网不断发展壮大的过程中,i n t e r n e t 有一部分内容在逐渐地消失,像一些过 期的网页、个人博客等等。这种消失分为两种情况,一是w e b 页面所在的服务器不再 提供服务,二是这些内容被新的内容替换了,但这两种消失都可能是永久性的。针对这 种情况,近年来很多机构开始研究和建立各自w e b 档案系统,并不断地扩展其应用, 使其成为一个不断增长的知识库,一个w e b 的历史博物馆。 网页档案系统按照时间顺序将i n t e r n e t 上存在的大量网页收集起来,进行必要的整 理,以供将来的研究和使用。其意义在于它能够将随着时间大量流逝的网页保留下来, 为针对i n t e m e t 的研究提供一个比较全面的数据源,并可以以近似原貌的形式将其显示 出来,通过更深入的研究还可以在其基础上实现进一步的应用。 基于此,本文提出了一种面向w e b 档案的页面分块方法,初步建立了一个基于页 面分块的w e b 档案原型系统,该系统以页面块为单位探测w e b 页面的变化,并能够实 现块级别的增量存储,为历史页面的查询和研究提供数据源。 与传统的基于整个页面的w e b 档案构建方法相比,本文工作的特点是基于页面分 块技术,使版本比较、存储均以块为单位,减少了版本比较和存储的开销。实验表明, 本文提出的基于页面块的w e b 档案系统构建方法是可行和有效的。 关键词:w e b 存档;历史页面;w e b 页面分块;版本比较 liitj中 o 一;j1il, 东北大学硕士学位论文 a b s t r a c t s t u d yo nc r e a t i o nt e c h n i q u ef o rb l o c k b a s e dw e ba r c h i v e a b s t r a c t w i t ht h ep o p u l a r i t ya n dt h er a p i dd e v e l o p m e n to fi n t e r n e t ,t h ew 6 r l dw i d ew e bh a s a c c u m u l a t e dal a r g ea m o u n to fi n f o r m a t i o nr e s o u r c e s a sah u g er e s o u r c eb a s ea n dk n o w l e d g e b a s e ,i n t e r n e th a sb e c o m i n gm o r ea n dm o r ec l o s e l yw i t hp e o p l e sl i v e s t h r o u g ht h ew - 0 d d w i d ew 曲t or e a dn e w s ,w r i t eb l o g s ,f i n di n f o r m a t i o n ,a n ds oo n ,h a sb e c o m ea l le s s e n t i a lp a r t o f d a i l yl i f e h o w e v e r , 勰t i m eg o e sb y , t h ew o r l dw i d ew e bi sc h a n g i n gq u i e t l ya n di t ss i z e i si n c r e a s i n gc o n t i n u o u s l y , i nw h i c hp a r to ft h ec o n t e n th a sd i s a p p e a r e d ,b e e nr e p l a c e da n d a p p e n d e d 、胁i l ew o r l dw i d ew e bi sg r o w i n g , s o m ec o n t e n to fi n t e r a c ti sd i s a p p e a r i n gg r a d u a l l y , a ss o m eo u t - o f - d a t ew e bp a g e s ,p e r s o n a lb l o g sa n ds oo n 砸si sd i v i d e di n t ot w oe a s e s d i s a p p e a r e d ,o n ei st h a tt h es e r v e rw h e r et h ew e bp a g eo ni sn ol o n g e rp r o v i d i n gs e r v i c e s ,a n d t h es e c o n d l y , t h e s eo l de l e m e n t sh a v eb e e nr e p l a c e d ,b u tt h ed i s a p p e a r a n c eo ft h et w om a yb e p e r m a n e n t i nv i e w o ft h i ss i t u a t i o n ,i nr e c e n ty e a r s ,m a n yi n s t i t u t i o n sb e g a nt or e s e a r c ha n d t oe s t a b l i s ht h e i ro w nw e ba r c h i v es y s t e m ,a n dw i l lc o n t i n u et oe x p a n di t s a p p l i c a t i o nt o m a k ei tb e c o m eag r o w i n gk n o w l e d g eb a s e , aw e b h i s t o r ym u s t d l , l m w 曲a r c h i v es y s t e mc o l l e c t sa l a r g en u m b e ro fw e bp a g e st h a te v e re x i to ni n t e r n e t ,a n d p r o c e s s e si tf o ru s ea n dr e s e a r c hi nt h ef u t u r e i t ss i g n i f i c a n c ei st h a ti tc a np r e s e r v eal a r g e m o u n to fw e bp a g e st h a tw i l ld i s a p p e a ra st i m eg o e sb y , p r o v i d eam o r ec o m p r e h e n s i v ed a t a s o u r 潞f o rr e s e a r c hf o rt h ei n t e r n e t ,a n dc a nf o r mn e ww e bp a g e ss i m i l a rt ot h eo r i g i n a lo n e s , e x p a n df u r m e ra p p l i c a t i o nt h r o u g ham o r ei n - d e p t hr e s e a r c hb a s e do ni t f o rt h i sr e a s o n , aw 曲p a g es e g m e n t a t i o na l g o r i t h mt h a tf a c e dw e ba r c h i v es y s t e ma n d ab l o c kb a s e d 胁6a r c h i v es y s t e mp r o t o t y p ei sp r o p o s e di nt h i st h e s i s 。砀ep r o t o t y p ec a n d e t e c tb l o c k l e v e lc h a n g e si nw 曲p a g e s ,a c h i e v et h eb l o c k - l e v e li n c r e m e n t a ls t o r a g e ,a n d p r o v i d ed a t ar e s o u r c ef o rq u e r y i n ga n ds t u d y i n gw e bh i s t o r i c a lp a g e s c o m p a r i n g 丽mt r a d i t i o n a lw 曲a r c h i v es y s t e mb a s e do nt o t a lw e bp a g e ,t h em e t h o di n t h i st h e s i si sb a s e do nb l o c k ,s ot h a tt h ev e r s i o nc o m p a r i s o na n ds t o r a g ea r ep r o c e s s e di n b l o c k l e v e l ,a n do v e r h e a di sr e d u c e d t h ee x p e r i m e n t a lr e s u l t ss h o wt h a tt h ep r o p o s e d c r e a t i o nt e c h n i q u ef o rb l o c kb a s e dw e ba r c h i v ei sf e a s i b l ea n de f f e c t i v e k e yw o r d s :w e ba r c h i v e ;h i s t o r i c a lp a g e ;w e bp a g eb l o c k ;v e r s i o nc o m p a r i s o n v ilij - 一irj蠢 东北大学硕士学位论文 目录 目录 独创性声明i 摘要i i i a b s t r a c t v 第l 章绪论。l 1 1w 曲档案系统1 1 1 1w e b 档案构建的意义_ l 1 1 2w e b 档案系统的归档模式2 1 1 3w e b 档案系统的一般结构。2 1 2w 曲网页分析4 1 2 1w e b 网页特点4 1 2 2w e b 网页组织结构5 1 2 3w e b 网页的更新特点5 1 3 问题的提出。5 1 4 本文的研究目标与研究内容6 1 4 1 本文的研究目标。6 1 4 2 本文的研究内容7 1 5 本文的组织结构7 第2 章相关工作9 2 1w e b 档案构建相关工作9 2 2w e b 页面分块相关工作9 2 3 本文工作的特点1l 2 4 本章小结1 2 第3 章面向w e b 档案系统的页面分块1 3 3 1 问题描述。1 3 3 1 1w 曲页面块定义13 3 1 2w e b 页面块分类1 4 3 1 3w e b 页面分块问题形式化描述。1 5 v i i 、 东北大学硕士学位论文目录 3 2w e b 页面分块相关技术1 7 3 2 1w e b 页面构建基础1 7 3 2 2 基于节点熵的页面分块技术。1 9 3 2 3 基于视觉特征的页面分块技术2 0 3 2 4 基于内容距离的页面分块技术2 6 3 3 面向w e b 档案系统的页面分块算法2 9 3 3 1 主题块的识别2 9 3 3 2 其它块的判定。2 9 3 3 3 算法描述3 0 3 4 本章小结3 5 第4 章基于页面分块的w e b 存档3 7 4 1 问题描述3 7 4 2w e b 页面获取相关技术3 8 4 3w e b 版本比较3 9 4 4w e b 页面分块。4 0 4 5w e b 增量存储4 l 4 6w e b 页面的历史查询与重构4 3 4 7 本章小结4 4 第5 章实验分析与评价4 5 5 1 基于页面分块的w e b 存档原型系统4 5 5 2 实验结果与分析。4 7 5 3 本章小结 第6 章结论与展望 6 1 本文工作的总结 6 2 进一步的工作 参考文献。 致谢。 攻读学位期间参与的项目 v i l l 东北大学硕士学位论文第1 章绪论 1 1w e b 档案系统 第1 章绪论 w e b 历史或w e b 档案( w e ba r c h i v e s ) 是一种基于w e b 的信息服务,它每隔一段时 间就从i n t e m e t 中抓取网页并且以快照的形式保存起来,逐渐形成了一个w e b 历史网页的 博物馆。这些网页不只是被收集存储起来,还要进行分类和处理以方便历史浏览和检索 【i 】 1 1 1w e b 档案构建的意义 由于w c b 搜索的成功,大量w c b 用户都习惯于通过搜索引擎来检索信息,但是,这 种方式仅能检索到当前的网页。像新闻、博客、论坛这样的w e b 信息在一年内就会消失 【2 】。有人说过i n t e m e t 上的内容可以理解为一个知识库,但这是一个不断变化的知识库, 有一些新的知识在不断地加入,也有很多内容在不断的更新,这些被更新和替换的内容 也可能很重要,如果将这些内容以某种方式保存下来,为后人的研究提供资料和数据, 那将是非常有意义的。例如研究i n t e m e t 结构的变化和变化规律、i n t e r n e t 文化等等,这些 资料和数据作为知识本身也具有相当重要的历史和人文意义。w e b 档案的任务就是保存 曾经出现的w c b 历史数据,总结而言,构建w c b 档案有以下几点意义: ( 1 ) w e b 档案是强大的数据资料库。从理论上看,由于它几乎保存了所有曾经出现 过的w e b 网页,那么它和目前的i n t e r n e t 上的w e b 网页相比,数据量将更为巨大,知识内 容将更加丰富,在其基础上进一步开发搜索引擎、q a 系统和知识发现等系统,在数据 量和知识内容的广度上具有更大的优势。 ( 2 ) w e b 档案是不可或缺的档案资料库。人们都很关注历史,因为研究历史人们可 以收获更多知识和财富。w c b 档案就是i n t e m e t 发展壮大的历史,通过w e b 档案人们可以 看到w e b 从产生到发展到强盛的点点滴滴,除了独特的i n t e r n e t 文化,人类的一切活动在 w e b 档案中都有详细的记录和解说。w e b 档案甚至可以成为某个事件曾经发生的证据, 如犯罪证据( 这需要法律支持) 等。 ( 3 ) w e b 档案具有历史浏览功能。不论用户是因为怀旧,还是突然找不到历史上某 天他( 她) 在某个u r l 站点上曾经看到的对其至关重要的资料,他( 她) 都可以在w e b 档案上看到其本来面目,对应的网页可以通过在w e b 档案上搜索找到,也可能通过对应 的u r l 和具体的存档日期找到。 、, 东北大学硕士学位论文第1 章绪论 1 1 2w r e b 档案系统的归档模式 在很多国家,国家图书馆担负着领导研究和实验网络归档的角色,也有一些国际组 织合作进行网络电子资料归档的研究,一些国家还为归档电子资源提供了法律依据。目 前网络归档主要表现为以下几种模式【3 】: ( 1 ) 全域归档 全域归档是指利用网络爬虫自动地在整个网络空间内收集和爬取全部的网站和网 络资源,一般是在本国网络内部,如瑞典所进行的k u l t u r a r w 3 项目、芬兰的e v a 项目以 及我国北京大学的w e bi n f o m a l l t 4 1 ,更大规模的如美国的i n t e r a c ta r c h i v e ,则是在全球网 络上进行搜集和保存全部的内容。 ( 2 ) 选择性归档 选择性归档是按照特定的标准,选择特定的网络空间或特定类型的网络资源进行归 档。选择性归档通过资源的重要性、质量、主题等信息指定网络资源或相关网站,如澳 大利亚的p a n d o r a 归档项目【5 】,按照特定时间间隔收集特定的网站或网页快照。 ( 3 ) 专题性归档 专题性归档是另一种形式的归档,它只收集和保存与特定主题或事件相关的部分, 美国国会图书馆的m i n e r v a 项目【6 1 ,就是收集和存档被选定的电子出版物,作为2 0 0 2 年选 举和冬季奥运会项目的一部分。 ( 4 ) 主动汇缴归档 在一些国家网络资源提供商要依据法律主动汇缴其提供的在线资源。现阶段在很多 国家并没有主动汇缴数字资源的法律要求,但一些这方面的设想正在酝酿。在荷兰已经 有一个成功实施的协议,该协议要求出版商主动汇缴其电子期刊。目前,在瑞典主动汇 缴静态和动态的网络资源已经有立法依据。 ( 5 ) 综合归档 越来越多的网络归档程序得出结论认为,没有一种归档模式能够完全令人满意地完 成国家数字资源归档。而很多国家像法国和丹麦采用综合的、有选择性的以及基于主题 的归档技术对数字资源进行覆盖,取得了比较好效果。 1 1 3w e b 档案系统的一般结构 经过研究人员的不断研究和实践,目前已经有很多w c b 档案成功地部署和运行,搜 集了大量的网页资料。一些研究人员还在进一步研究如何提高w e b 档案系统的整体性 能,像提高运行效率、减小对网络带宽的压力、更高效更准确的版本比较方法以及如何 在w e b 档案系统基础上构建新的应用等等。目前,对w e b 档案系统的整体结构多数的研 2 东北大学硕士学位论文第1 章绪论 究都基本一致。如图1 1 所示,图中给出了w c b 档案系统的一般系统结构。 h i s t o r ys t o r a g e 图1 1w e b 档案系统结构示意图 。 i f i g 1 1e x a m p l eo fw e b a r c h i v es y s t e ma r c h i t e c t u r e w e b 档案系统一般包括以下几个部分: 网络爬虫( c r a w l e r ) :用于在w w w 站点上抓取w e b 页面数据,由于w w w 站点 上w e b 数据量的海量特点,网络爬虫是w e b 档案获取w 曲数据的唯一通道; 版本控制系统( v c s ,v e r s i o nc o n t r o ls y s t e m ) :w e b 档案保存的是一系列的w e b 历史数据,而w e b 网页的变化又是不固定的或者可以说是不规律的,具有一定的随机性, 这些都要求w e b 档案的版本控制系统能够较好的把握w e b 页面的变化,既能够及时探测 到w c b 的变化,减少w 曲历史的丢失,又要准确地判断w e b 页面的变化,以减少重复页 面的存储,减少w e b 档案的存储开销; 存储管理器:对于版本控制系统已经判定为新的需要保存的网页,按照w e b 档 案本身的存储格式和要求存储对应的w e b 页面; 索引和检索模块:一些w e b 档案系统还提供在其上检索信息的功能,这需要有 独立的索引模块将存储在其数据库中的w c b 信息做必要的索引,以保证用户使用检索功 能的速度和时间要求; 历史查询模块:这也是大多数w e b 档案系统都具有的经典应用。w e b 档案系统根 据用户给定要查询的u r l ,将所有系统内存储的对应该u r l 的w e b 页面存档列表返回给 - 3 - 东北大学硕士学位论文第1 章绪论 用户,一般按时间顺序给出,用户可以自行选择需要的w e b 档案,浏览接近于历史原貌 的网页。 1 2w ,e b 网页分析 随着i n t e m e t 的发展,w e b 网页也在潜移默化地发生着变化。为此,本文通过查阅大 量的资料,仔细观察和研究i n t e r a c t 上广泛存在的各种风格的w c b 网页,并深入分析其代 码结构,对w e b 网页的特点、结构和表现有了更深入地理解。 1 2 1w 曲网页特点 1 2 1 1 数据的半结构化特征 w e b 网页的数据为半结构化数据。半结构化数据是一种非完全结构化的数据,所谓 半结构化是相对于完全结构化的传统数据库的数据而言,半结构化是w e b 数据的最大特 点。它既不像数据库中数据那样具体严格的结构,又不像普通文本数据那样完全没有结 构。在w e b 数据中,文本、声音、图像等数据会按照一定的方式组织起来,即被一定次 序的h t m l 标签包围起来,这些标签形成一定的嵌套结构,为没有结构的文本、图片、 图像等信息赋予了一定的结构特性。 1 2 1 2 面向显示与面向数据 目前,i n t e m e t 上的大量网页主要还是主要以h t m l ( h y p e r t e x tm a r k u pl a n g u a g e , 超文本标记语言) 的形式存在,这些w e b 数据具有h t m l 的特点,即面向显示。h t m l 自身包含的大量标签主要用来向浏览器提供数据的显示特征,而其中数据的含义和语义 特性是主要靠用户自己去理解和把握。与面向显示相对应的是面向数据,与之相对应的 是另一种数据形式,即订l 。x m l ( e x t e n s i b l em a r k u pl a n g u a g e ,可扩展标记语言) 是 一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识。x m l 是元标记语言,可以定义其他与特定领域有关的、语义的、结构化的标记。 1 2 1 3 静态性与动态性 大量存在于i n t e m e t 上的网页一般可分为静态网页和动态网页。静态网页与动态网页 的主要区别是数据源不同。静态网页是指网页上的数据直接保存于h t m l 标签中,该类 网页是直接保存在服务器上的文件,如不直接更改该文件本身,该页面的显示内容就是 不变的。动态网页是指有数据库支持的网页,动态网页可以将数据库中查询得到的数据 直接显示到页面上,因而在动态网页上不同时间访问同一个页面因为不同用户等原因显 示的内容都有可能不可7 】。 4 东北大学硕士学位论文第1 章绪论 随着时| 日j 的推移和技术的发展,w w w 站点上的信息在不断的增加,w e b 网页的结 构也在不断地发生着变化。w e b 信息在较短的时间内是相对稳定的,但从长远来看它又 是在不断的增加和变化。同一页面的信息由于信息有用性的变化及作者的喜好等原因既 可能发生信息内容的更换、增加,也有可能发生结构性的变化。 1 2 2w e b 网页组织结构 随着网页制作技术和制作工具的发展,w w w 的网页除了页面数据不断增多之外, 已经经历了结构从简单到复杂、界面从单调到漂亮、功能从单一到多样、数据流向从单 一到交互、单页面主题从少到多的变化。另外,还有两个明显的特征: 一是单个页面上的多个主题呈现块状化特点。这里应该至少有两方面的原因,一是 为了便于用户区分页面上的多个主题,方便阅读信息,有一定的导航功能;二是这些网 页的设计者方便更新的需要,这些显示独立的主题,往往在其代码结构中存在一定的并 列关系,就像列表一样,便于更新其中信息,还有一些网页中每个独立主题都是一个功 能模块,这些功能模块或者适时或者按照一定的规律来更新,有的是服务器从数据库中 提取信息更新和显示到页面上。 二是页面上的链接趋向于功能化。目前,设计者对于链接的应用得到了空前的发展, 很多页面有独立的链接区,停留于页面的一侧。表现尤为突出的是一些新闻网站,像搜 狐、新浪等门户网站主页则主要由链接来组织,这些链接信息根据栏目不同,区分为不 现的主题块,如体育、音乐等等,用于导航用户的需要。 1 2 3w 曲网页的更新特点 通过对大量网页的长期观察和研究发现,w c b 网页的变化具有以下特点: ( 1 ) 大量网页的更新只是页面局部内容的变化,变化的内容一般是从语义上较为独 立和重要的部分,如该页面的一个主题或多个主题区域可能是经常变化的部分; ( 2 ) 网页的整体结构变化的频率较低,如果发生变化,变化后的结构在一段时间内 是相对稳定的; ( 3 ) 不同类型的网站有不同的更新规律。 1 3 问题的提出 万维网作为全球性的信息资源库为数字化资料归档带来了特殊的挑战,网络不断扩 大的规模,使如何收集、存储和可以长期保存并提供访问i n t e r n e t 上内容丰富和短暂存在 的数据成为数字归档系统的重要研究课题。 很多研究人员已经展开了许多与数字归档相关的研究,如w e b 网页归档、网页消重 - 5 - 东北大学硕士学位论文笫1 章绪论 等等,以及在数字归档系统基础上的应用研究。就w e b 网页归档而言,也已经有很多研 究成果,还有一些机构和组织进行了w e b 存档的应用研究和实验。 随着技术的进步和w w w 站点上w e b 网页结构的变化,人们对w e b 网页归档的研究 也在不断的深入。由于w w w 站点数量多,结构复杂,设计风格多变等原因,使归档w c b 网页的难度加大、挑战增多。因此,对现有数字归档系统的改进或研究出性能更优秀、 结构更科学的数字归档系统是人们对数字归档领域研究的重要课题之一。 w e b 网页归档系统虽然有各种各样的结构和研究思路,但其评价指标是固定的,至 少有以下几点:一是能不能尽可能地减少归档系统的存储开销。这是显而易见的要求, 万维网目前的数据量是海量的,对其中数据的更新和扩展又在不断地进行着,如果没有 一个优化的策略,那么归档系统对存储空间需求的增长会是爆炸式的;二是能不能更大 限度地为后续开发和应用提供较好的基础。w e b 网页归档系统所存储的数据是研究人员 对海量w e b 数据研究的宝贵资源,人们已经在其基础上进行着各种课题的研究。其中语 义网和搜索引擎的研究是两个重要而热门的研究课题,如果在构建w e b 归档系统之时, 考虑到这些研究的需要,进而改进w e b 网页归档系统的结构,那对后续的相关研究将有 相当大的便利。 本文通过研究发现,由于w e b 页面更新的内容往往只是整个页面的一部分,如果在 存档w e b 页面时只保存这部分变化的内容,将能够最大化地减少w e b 档案的存储开销。 另外,由于w e b 页面局部变化的部分往往是页面中一个或多个主题区域,因此对这部分 内容存储并加以利用又能够对w e b 档案的应用研究提供帮助,如抽取页面主题的相关应 用,对搜索、语义网研究、知识发现、q a 系统等研究都有一定的现实意义。 1 4 本文的研究目标与研究内容 1 4 1 本文的研究目标 目前,有调查显示人们对互联网的依赖程度越来越高,互联网作为一个巨大的数据 库、知识库,只要人们有需要,就可以通过搜索引擎搜索想要的知识。然而,互联网上 的数据多数都以w e b 页面来提供,这些页面存放在其设计者或拥有者的服务器上,其设 计者随时都可能对其进行更新,那些被替换掉的数据对一些用户来说可能是至关重要 的,而这些数据内容的消失可能是永久性的。由于这个原因,w e b 档案应运而生,有了 w e b 档案,如果用户再找不到曾经在某个页面上看到的信息,只要输入相应u r l 就可以 查询到该u r l 对应网页的历史存档记录,如果进一步在w e b 档案之上开发相应的搜索引 擎,与当前的适时搜索相比将有更强大的数据源,搜索到的结果将更加全面。海量的 w e b 数据为w e b 档案带来了不少挑战,为了减少存储重复w 曲内容,w e :b 系统中都设计 6 东北大学硕士学位论文第1 章绪论 了版本控制模块,来保证同- - u r l 的w e b 页面的同一个版本只被保存一份。除此之外, 很多研究人员还在研究更进一步的网页消重方法。 本文通过对w e b 网页结构特点和更新特点进行了分析,希望通过以降低处理粒度的 方式来降低w e b 档案的存储开销。即从处理整个网页变成处理网页中的各个组成部分, 本文称之为块( b l o c k ) 。如果能够检测到网页变化的局部,只对这个变化的部分进行保存, 这样一定可以减少网页上大量相同内容的重复保存。 1 4 2 本文的研究内容 目前,各国都在探索、研究和建立各自的w e b 归档系统,尽管已经有很多成型的和 投入使用的w e b 归档系统,还有许多研究人员在不断地研究和探索新的归档系统的构想 和实现,本文认为基于页面分块的w e b 归档系统以其更优的粒度降低存储开销,以及块 级别的处理为后续应用带来的便利等优点,将是未来w e b 归档系统的一大发展趋势。本 文旨在对建立一种可行的基于页面分块的w e b 归档系统进行初步探讨。 本文的主要研究内容是相对于传统的w e b 归档系统的,主要关注的内容包括以下几 个方面: ( 1 ) 基于页面块的w e b 归档系统相对于传统的w e b 归档系统具有哪些优势? ( 2 ) 如何对w e b 页面进行分块? ( 3 ) 如何区分主题块和非主题块? ( 4 ) 如何判断页面的变化? ( 5 ) 如何对w e b 页面的变化实现数据块级别的存储? ( 6 ) 如何实现对基于页面分块的w e b 归档系统中存储的数据进行历史浏览? 1 5 本文的组织结构 本文力求总结和借鉴前人的研究成果,研究设计一种可行的基于页面分块的w e b 归 档系统。根据研究的内容,本文的组织结构如下: 第l 章为“绪论”部分。本章主要介绍w e b 档案系统的构建意义、归档模式和一般结构, 并对w e b 网页进行简单的分析,包括网页特点、组织结构及其更新特点,引出本文研究 的问题,并提出本文的研究目标和研究内容。 第2 章为“相关工作”部分。本章简要对国内外现有的主要w c b 档案系统进行相关的介 绍,简要总结相关文献对w c b 档案系统及网页分块的研究结果,并针对性地提出本文工 作的特点。 第3 章为“面向w e b 档案系统的页面分块”部分。本章首先对网页分块进行具体的问题 - 7 东北大学硕士学位论文第1 章绪论 描述,对热点研究的主要分块算法进行简要的描述,而后提出面向w e b 档案的页面分块 算法。 第4 章为“基于页面分块的w e b 存档”部分。本章重点阐述基于页面分块的w e b 档案系 统实现相关的主要算法和步骤,并一一做简要的描述和讨论。 第5 章为“实验分析与评价”部分。本章描述基于页面分块的w e b 档案系统结构,并对 实验和测试结果进行分析和总结。 第6 章为“结论与展望”部分。本章对本文目前所做的工作和贡献进行总结,并指出 将来进一步研究工作的方向。 8 东北大学硕士学位论文 第2 章相关工作 第2 章相关工作 2 1w r e b 档案构建相关工作 w e b 档案属于一种新兴的技术,根据澳大利亚国家图书馆的统计,仅有1 7 个国家拥 有完整的国内w e b 归档系统1 3 1 。对w e b 档案的处理也处于发展阶段,本文在研究w e b 档 案处理成果的同时也参考了大量w e b 归档领域的相关工作。 许多研究与开发人员在w e b 归档系统的实现技术上做出了大量的研究和实践。t h e i n t e r n e ta r c h i v e 【8 】是w e b 归档系统的先锋,它通过一个叫做h e r i t r i x 的开源爬虫实现对页 面的抓取。“中国网页博物馆”【4 ) ( w e bi n f o m a l l ) ,亦称“中国w e b 信息博物馆”,是北京大 学网络实验室开发并于2 0 0 2 年1 月1 8 日正式投入运行的针对中国互联网上的网页的搜 集、存储,并提供历史浏览服务的海量信息系统,它平均每天搜集约1 5 0 万网页,截止 2 0 0 7 年,已经积累超过2 5 亿中国互联网上出现过的网页,数据量已经超过3 0 t b ,目前全 部存放在北京大学网络实验室维护的一个海量数据仓储系统中,并通过 h t t p :w w w i n f o m a l l c a 提供历史网页浏览服务。 很多研究人员也在一些文献中描述了他们的研究结果。文献【9 】和文献【l o 】描述了实 现一个w e b 归档系统的系统结构和相关标准,并且实现了一个名为t o m b a 的原型系统。 文献【l l 】提出一种w e ba r c h i v es y s t e m ,它是建立在斯坦福w e b b a s e 项目基础之上的,该 项目是加利福尼亚数字图书馆( c a l i f o r n i ad i g i t a ll i b r a r y ) 与斯坦福通信部( s t a n f o r d 。s c o m m u n i c a t i o n sd e p a r t m e n t ) 合作的,主要关注于w e b 页面快照的爬取、索引、聚类和 搜索。w e ;ba r c h i v es y s t e m 收集w e b b a s e 搜索中不断更新和替换的快照,与其系统内保 存的相同u r l 对应的版本通过版本控制系统v c s ( v e r s i o nc o n t r o ls y s t e m ) 进行比较, 如果没有前一个版本的网页存在或是比较结果显示网页存在更新,就将该w e b 网页传送 给版本管理系统( v e r s i o na s s i g n m e n ts y s t e m ) 存储到w 曲a r c h i v es y s t e m 的存储节点中。 2 2w r e b 页面分块相关工作 w c b 页面分块及其技术的发展受了很多研究人员的关注,并将分块技术与其它相关 领域进行了某种结合,并推动了相关领域的发展。 文献【1 2 】和文献【1 3 】提出了一种基于视觉特征的w e b 页面分块技术,作者完整地定义 了基于视觉特征进行w c b 页面分块的算法模型,给出了详细的算法执行流程。该算法在 解析d o m 树的基础上,充分利用各个节点的属性及其在浏览器中的视觉特征,比如背 小及权重、各个显示区域的间隔、子节点数目及大小、节点对应的标签 - 9 - 东北大学硕士学位论文第2 章相关工作 类型等等,充分利用标签、d o m 树以及页面的显示特征,完成对整个页面的分块,并 且根据不同的应用可以设置不同的分块级别。根据文献的实验,该算法的分块效果非常 好。其缺点是过于复杂,很多必要的信息需要通过浏览器级别的解析才能得到,通过抽 取块、建立分隔符、再确定具体分块的复杂算法流程对实现技术要求较高。 文献 1 4 】给出了基于节点熵的页面分块算法,该算法引用信息论中熵的概念作为衡 量节点内部结构是否稳定的依据。该算法的思路比较新颖,但由于忽略了很多其它信息, 得出的块的内容在显示上可能是与主题无关的。文献 1 5 】提出了一种面向手机等小屏幕 设备用户浏览针对计算机用户设计的网页需求而设计的页面分块算法,该算法通过计算 w e b 页面内部各

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论