




已阅读5页,还剩42页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
盛奎迪厶:差亟:望位迨塞生羔地璺 中文摘要 摘要:随着网络技术的巨大发展以及互联网使用肯的不断增加,互联网已经成为 二e 流的信息发布媒介之一。如何快速、准确地在网络中找到所需信息,并且以更 加人性化的方式为用户提供服务成为了阿络技术研究的热点。 r s s 技术是近几年发展起来的在互联网上被f “泛采用的内容包装和投递协议, 各种类别的信息通过r s s 发送,被广泛应用于博客、新闻信息、个性化搜索、电 予商务等各个领域。目6 口对r s s 的研究:e 要集中在r s s 技术在各个领域的应用, 肘于大规模数据中r s s 的识别方法,r s s 网站的行为特征的研究还比较少。 本文通过研究r s s 协议规范及报文结构,提出了两种从大规模的数据中i _ 别 r s s 应用数据的方法:根据h t t p 请求报文中r e q u e s t u r l 的内容进行识别、根 据r s s 响应报文第一个数据包的内容进行识别,结合上面 眄种方法尉r s s 技术在 校匦j 网中的用户数量进行了统计。 采用单机抓取r s s 应用数据,研究了r s s 网站的一些行为特征,重点分昕了 网站输出的r s s 文件更新的频度,更新的规模、r s s 文件的冗余信息量以及流量 等方面的特征,得出结论:r s s 的“推送服务”机制存在浪费带宽的缺陷:网站 r s s 文件的更新频度和更新规模在很大程度上可以反映出频道的性质:用户通过 调整r s s 浏览器的订阅时间问隔可以有效节省带宽。 关键词:r s s 、x m l 、r s sf e e d 、报文识别、数据分析、更新频度 e 盛奎丝厶:羔塑:差i ! 途奎旦51 i a b s t r a c t a b s t r a c t w i t ht h eh i g hd e v e l o p m e n to fi n t e m e tt e c h n o l o g ya n di n c r e a s i n gi n t e m e t u s e r s ,t h ei n t e n l e th a sb e c o m eo n eo fm em a i nm e d i a so fi n f o m l a t i o ni s s u i n g m o s t n e t w o r kr e s e a r c hh a sf o c u s e do nt e c h n o i o 西e st oc 0 1 l e c tv a l u a b l ei n f o 肌a t i o no nt h e i n t e m e ta n dt op r o v i d eu s e rw i t hm o r eh u m a n k i n ds e r v i c e r s sp r o t o c o l ,w h i c hh a sb e e np r o p o s e da n dd e v e i o p e di nr e c e n ty e a r s ,i sw i d e l y u s e df o rm e s s a g ep a c k a g i n ga n dd e l i v e r i n go nt h ei n t e m e t m a n yi n t e m e ta p p l i c a t i o n s u s er s st od e l i v e ri n f o 咖a t i o n ,s u c ha sb l o g ,n e w sw e b s i t e ,s e a r c h ,e c o m m e r c i a l 卸d s oo n m o s tr s sr e s e a r c hh a st h u sf h re m p h a s i z e dr s st e c h n o l o g ya p p l i c a t i o n si n d i f f 打e n tf i e i d s h o w e v e r f 色wr e s e a r c hf o c u so nr s s p a c k e t so rf l o w si d e n t i f i c a t i o na n d t h eb e h a v i o rc h a r a c t e r i s t i c so f r s sw e b s i t e t h i sp a p e ra n a i y z e sr s sp m t o c o l sa n dp a c k e tf b n t l a ta n d p r e s e n t sm o m e t h o d o l o g i e st oi d c n t i 黟r s sa p p i i c a t i o nt m m cf 如ml a r g e s c a l ed a t a t h es t a t i s t i co f a m o u n to fr s su s e r si nt h ec a m p u sn c t w o r ki s 西v e nb yc o m b i n i n g “v om e t h o d o l o 西e s o n er e l i e so nt h er e q u e s t u r lp a y l o a di nt h eh t t pr e q u e s tm e s s a g ew h i i et h eo t h e r r e l i e so nt h ep a y i o a do f t h ef i r s tp a c k e to f r s sr 印l ym e s s a g e i np u r s u “o ft h eb e h a v i o rc h a m c t e r i s t i c so fr s sw e b s i t e ,w ee m b a r ko nt h e m e a s u f e m e n to f r s st m 币c ,i np a r t i c u l a rt h e 厅e q u e n c ya n ds c a l eo f r s sn l e su p d a t i n 舀 r s sf i l e sr e d u n d a n c ya n dt m 佑ca m o u n t w ef i n dt h a t :t h em e c h a n i s m so fr s sp u s h s e i c ec a u s eb a i l d w i d t hw a s t e ;t h e 矗q u e n c ya n ds c a l eo fr s sf i l e su p d a t i n gi n d i c a t e t h ec h a m c t e fo f t h ec h a n n e l ;u s e r sc a l ls a v eb a i l d w i d f hb ys e t t i n gal o n g e rr s se x p l o r e r u p d a t i n gi n t e r v a l k e y w o r d s :r s s 、x m l 、r s sf e e d 、m e s s a g ei d e n t i f i c a t i o n 、d a t aa n a l y s i s 、u p d a t e f r e q u e n c y 致谢 本论文的工作是在我的导师张有根教授的悉心指导下完成的,张有根教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 张老师对我的关心和指导。 陈常嘉教授悉心指导我们完成了实验室的科研工作,在学习上和! l 三活上邵给 予了我很大的关心和帮助,在此向陈常嘉老师表示衷心的谢意。 胡师舜老师肘实验盆的科研:亡作给予了悉心的指导,在学习和! e 活各个方面 都给予了我很大的关心和帮助,在此向胡师舜老师表示衷心的谢意。 张立军老师对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作及撰写论文期日j ,高贺、任唯贤、罗丹,秦艳飞、刘斯伟等同 学对我论文中的分析与研究工作给予了热情帮助,在此向他们表达我的感激之情。 另外也感谢我的父母,他们的理解和支持使我能够在学校专心完成我的学业。 盛 垒适厶 堂 亟:羔位淦塞缝途 1 绪论 1 1选题的意义及背景 随着网络技术的巨大发展以及互联网使用者的不断增加,互联网已经成为主 流的信息发自i 媒介之一。较传统的各种信息发俪媒介,用户在网络中发以衍阅读 信息要方便得多,但讵因为如此,互联网上的各种信息资源洁如烟海,对用户的 使用以及信息服务提供者提出了巨大的挑战。如何快速、准确地找到所需信息, 并且以更加人性化的方式为用户提供服务成为了网络技术研究的热点。 r s s 技术足近几年发展起来的新技术,各种类别的信息通过r s s 发送,被广泛 应用于博客、播客、新闻信息、个性化搜索、电子商务等各个领域,强调个性化 获取信息的用户群f 1 益壮大,r s s 一词逐渐从一种技术性的概念延伸到网络应用领 域,并作为一种重要传媒形念构筑着网络传插的新景观。r s s 为“r e a l l ys i m p l e s 、r 1 1 d i c a l i o n ”或“r i c hs i t es u m m a 的英文首字母缩写,意思足“真j 下简单联合供稿 系统”,或译为“简易信息聚合”、“纯粹简易聚合”,网络用户可以在客户端借助于 支持r s s 的新闻聚合工具软件,在不打开网站内容页面的情况下阅读支持r s s 输出 的网站内容。 目前国内对于r s s 的研究主要集中在r s s 技术在各领域的应用,肘于网站输 出的r s s 文件内容、更新的频度、更新的规模、流量特征等方面的研究还比较少, 通过上面几个方面的研究可以更好的了解目前r s s 技术本身的特点及存在的问 题,针对r s s 技术本身存在的问题进行一些技术改进,可以更好的推动这项技术 的发展,以及在各个领域的应用。 1 2本文的主要工作 本文主要进行了以下三个方面的研究工作: 1 、研究了r s s 技术相关的技术标准,对r s s 文件的内容结构进行了研究。 对r s s 技术的工作过程进行了研究,包括服务器抽取信息生成r s s 文件的过程和 用户与服务器交互的过程。 2 、结合实验室的研究项目,提出了两种r s s 数据的识别方法,对实验室采集 的大规模数据进行了分析,统计了校园网中r s s 技术的使用情况。 3 、通过单机采集数据的方法,对r s s 文件内容、更新舰模、更新频度、流量 e立塞 适 厶望亟: 翌位迨 塞绪 论 特征等方面进行了研究。 1 3 本文的组织 本文的第一章介绍了选题的背景及意义,对论文的组织及主要工作:第二章 介绍了r s s 技术的发展简史、r s s 技术的特点;第三营介绍了r s s 技术的相关技 术标准,包括x m l 标准和r s s2 0 技术规范:第四章是肘r s s 技术: 作过程的研 究,分别从服务器端和用户端两个方面研究了r s s 技术的工作过程:第血章介绍 了两种从大规模数据中识别r s s 应用数据的方法,对这两种方法进行了比较,及 校园网中r s s 技术的使用状况;第六章介绍了笔者单机抓取和分析r s s 应用数据 的方法,以及对r s s 网络特征方面的研究,包括服务嚣对r s s 文件的更新规模、 更新频度等方面的研究;第七章是本文的总结及对未来工作的展望。 2 e2 :i 窑丝厶望亟:望位淦塞 bss菌企 2r s s 简介 r s s 为“r e a l l y s i m p l es ”d i c a t i o n 或“r i c h s i t e s u m m a 可的英文首字母缩写, 意思是“真j f 简单联合供稿系统”,或译为“简易信息聚合”、“纯粹简易聚合”、“真 正简单的连锁”、“真i f 简单的整合”等等,足在线共享内容的一种简易方式,足一 种基于x m l 标准、在互联网上被广泛采用的内容包装和投递协议。r s s 的原意是 指把网站内容如标题、链接、部分内文甚至全文转换为可延伸标识语言( x m l : e x t e n s i b l em a r k u pl a n g u a g e ) 的格式,以向其它网站供稿。网络用户可以在客户端 借助于支持r s s 的新闻聚合工具软件,在不打开网站内容页面的情况下阅读支持 r s s 输出的网站内容。 2 1 r s s 发展简史 r s s 技术诞生f1 9 9 9 年的网景公司( n e t s c a p e ) 。当时网景公训定义了一套描述 新闻频道的语言,r s s ,用于将网站内容投递到n e t s c a p en a v i g a t o r 互联网浏览器 中。但由二f 公r 】内部商务决策、当时互联网内容匮乏等诸多原因,网景最终只发 布了一个o 9 版本的规范。微软当时也推出了类似的数据规格,与r s s 非常接近, 试图利用新闻频道的架构把“推”( p u s h ) 技术变成一个应用主流,捆绑在i e 浏览 器中与n e t s c a p en a v i g a t o r 抗衡。不过无奈的足,由于当时互联网访问速度慢、内 容缺乏、用户不熟悉等原因,这个“推”技术自始至终没有得到市场的广泛支持。 但足随着时间的推移,r s s 技术随着x m l 技术的发展和博客群体的快速增长, 逐渐被人们广泛地接受,其应用范团也已经跳出单纯的博客圈,成为新闻传媒、 电子商务、企业知识管理等众多领域的不可缺少的新技术。2 0 0 1 年,r s s 技术标 准的发展工作被戴夫温那( d a v ew i n c r ) 的公司u s e r l a n d 所接手,继续开发新 的版本,以适应新的网络应用需要。通过戴夫温那的努力,r s s 升级到了o 9 l 版,然后达到了0 9 2 版,并随后被众多的专业新闻站点所接受和支持。在广泛的 应用过程中,众多的专业人士认i 到需要组织起来,把r s s 发展成为一个通用的 规范,并进一步标准化。一个联合小组根据w 3 c 新一代的语义网技术r d f 对r s s 进行了重新定义,发布了r s s1 0 版,并把r s s 定义为“r d fs i t es u m m 哪”。 戴夫温那在2 0 0 2 年9 月独自把r s s 升级到了2 o 版本,并交由哈佛大学法 学院b c r k m a n 互联网和社会学中心进行维护。而r s s1 o 版则仍然由w 3 c 联合小 组维护。r s s 由此开始分化形成了r s so 9 北0 和r s s1 o 两个阵营。 e 瘟奎遁厶尘鲡:上翌位途童ss菌企 2 2r s s 技术本征与技术特点 2 2 1 r s s 技术本征 从本质上讲,r s s 就是一种基于x m l 标准,在互联网上被广泛采用的内容包 装和投递协议,足一种数据规范或标准,该规范要求网站在发布新信息的时候要 遵循的标准格式,它以x m l 文件形式里现网站内容巫新的摘要信息,足一种用于 共享新闻标题、摘要等内容的x m l 文件,该文件包含了网站的最新信息的多条记 录,每条记录含有一些元数据信息,如题名、作者、分类以及该记求详细内容的 u r l 链接等信息。网站只;后将它最新的信息内容按照r s s 标准的格式生成一个描 述该刚站最新更新内容摘要的x m l 文件即可,最终用户不用经常访问那些网站, 只:爵通过r s s 阅读器就可以自动将最新信息的摘要部分下载到本地。打开阅读器, 刷新频道后将看到所订阅的每个频道的最新信息一新闻标题、摘要等信息,也可有 选择性刷新你所感兴趣的频道。如果想看全文,点击u r l 链接就可以看到原始网 站上的详细内容。 2 2 2 r s s 技术特点 r s s 通过x m l 标准定义内容的包装和发布格式,使内容提供者和接收者都能 从中获益。肘内容提供者来说,r s s 技术提供了一个实时、高效、安全、低成本 的信息发布渠道;对内容接收者来说,r s s 技术提供了一个崭新的阅读体验。r s s 技术几大显著特点简述如下: l 、来源多样的个性化“聚合”特性 因为r s s 是一种被广泛采用的内容包装定义格式,所以任何内容源都可以采 用这种方式来发布信息,包括专业新闻站点、电子商务站点、企业站点、甚至个 人站点等。而在用户端,r s s 阅读器软件的作用就是按照用户的喜好,有选择性 地将用户感兴趣的内容来源“聚合”到该软件的界面中,为用户提供多来源信息的 “一站式”服务。 2 、信息发佰的时效、低成本特性 r s s 技术秉承予匡”信息的概念,当新内容在服务器数据库中出现时第一时问被 “推”到用户端阅读器中,极大地提高了信息的时效性和价值。此外,服务器端内容 的r s s 包装在技术实现上极为简单,而且是一次性的工作,使长期的信息发佰边 际成本几乎降为零,完全是传统的电子邮件、卫星传输、互联网浏览等发布方式 所无法比拟的。 4 e 盛塞适厶至亟至位论奎区ss西企 3 、无“垃圾”信息、便利的本地内容管理特性 r s s 用户端阅读器软件的特点足完全山用户根据自身喜好以“频道”的形式 订阅值得信任的内容来源,如“新华网国际新闻”、“中国汽车网仃场行情”, “天极网i t 产品资讯”等。r s sj 列读器软件完全屏蔽掉其他所有用户没有订阅的 内容以及弹出广告、垃圾邮件等令人困扰的噪音内容。此外,对下载到阅读器软 件本地的订阅r s s 内容,用户可以进行离线阅读、存档保留、搜索排序、相关分 类等多种管理操作,使阅读器软件不仅足一个“阅读”器,巫足一个用户随身的 “资料库”。 b 盛窒适厶竺亟:堂f ! i 佥塞bss 扭差垃垄拯准 3r s s 相关技术标准 由二fr s s 是一种基二fx m l 标准,并在互联网上彼广泛采用的内容包装和投 递协议,所以深入研究x m l 技术标准、x m l 标准的各种应用及x m l 文档的结构 肘f 研究r s s 技术及分析r s s 服务器端响应报文的内容是很重要的依据。本章将 详细介绍笔者对于x m l 标准及目静比较流行的r s s2 0 技术规范的研究。 3 1x m l 标准 x m l 代表e x t e n s i b l em a r k u pl a n g u a g e ( e x t e n s i b l em a r k u pl a l l g u a g e 的缩写, 意为可扩展的标记语言) 。x m l 足一套定义语义标记的规则,这些标记将文档分 成许多部件并对这些部件加以标 _ 。它也足元标记语言,即定义了用于定义其他 与特定领域有关的、语义的,结构化的标记语言的句法语占。 3 1 1x m l 标准概述 l 、x m l 足一种元标记语言。用户可以定义自己需要的标记,用来描述一定数目 的元素。这些标记必须根据某些通用的原理来创建,但是在忉:记的意义上,也只 有相当的灵活性。x m l 定义了一套元句法,与特定领域有关的标己语言( 如u s i c l 、 、l a t h l 和c l ) 都必须遵守。如果一个应用程序可以理解这一元句法,那么它也 就自动地能够理解所有的由此元语言建立起来的语言。浏览器不必嚣先了解多种 不同的标记语言使用的每个标记。事实足,浏览器在读入文档或是它的d t d 时才 了解了给定文档使用的标记。 2 、x m l 标记描述的是文档的结构和意义。它不描述页面元素的格式化。可用 样式单为文档增加格式化信息。文档本身只说明文档包括什么标记,而不是说明 文档看起来是什么样的。 3 、x m l 是自描述的。x m l 标准中的标记可有三类意义:结构、语义和样式。 结构将文档分成元素树。语义将单个的元索与外部的实际葬物联系起来。而样式 指定如何显示元素。结构只是表达文档的形式,而不管单个标记和元素问的差别。 语义的意义存在于文档之外,在作者的心中或是读者或是某些生成或读取这些文 件的计算机程序中。 6 e 盛奎道厶望亟:坐位途奎珏s 捆基照丕坯丝 4 、x m l 町以作为应用问交换数据,使用x m l 而不足号有格式,人们就可以 利用任何理解x m l 的:亡具来处理数据。还可以为不同的目的使用不同的工具。一 个程序用来查看而另一程序用来编辑。x m l 使用户不必因为数据已经用专有格式 编写好了或足接受敛据的人只接受专有格式而限制在个特定的程序上。 5 、x m l 文档足结构化和集成的数据。x m l 对于大型和复杂的文档足理想的, 因为数据足结构化的。这不仅使用户可以指定一个定义了文档中的元素的诃汇表, 而且还b r 以指定元索之| 口j 的关系。x m l 也提供客户端的包括机制,可以根据多种 来源集成数据并将其作为一个文档来显示。数据还可以马上进行蓬新排列。数据 , 的各个部分可以根据用户的操作显示或隐藏。 3 1 2x m l 文档的处理过程 1 、编辑器。x m l 文档大多数情况下邵足用编辑器创建的。编辑器可以足碴本 的文本编辑器如n o t 印a d ( 记够本) 或足v i ,这些编辑器并不真j 下理解x m l 。另 方面,也可以用所见即所得的编辑器,如a d o b ef r a m e m a k e r ,这种编辑器可将 用户完全隔离于x m l 底层格式之外。另外也可以足一个结构化的编辑器,如 j u m b o ,它可将x m l 文档显示为树状结构。总之,在何种情况下,都是编辑器 或其他程序刨建了x m l 文档,这一文档是某种计算机硬盘上的实际文件。 2 、语法分析程序和处理程序。x m l 的语法分析程序( 即所谓的x m l 处理程序) 读取文档并检查其中包括的x m l 是否足结构完整的。它还要确定文档是否合法, 虽然这种测试不足必需的。如果文档通过了测试,则处理程序就将文档转换为元 素的树状结构。 3 、浏览器和其他工具。语法分析程序将树状结构或是榭的宵点传送给用户端 应用程序。这个应用程序可能是浏览器,如m o z i l l a ,或是其他能够理解如何处理 x m l 数据的程序。如果这个应用程序是浏览器的话,数据就显示给用户。但是其 他程序也可以接受数据。x m l 是非常灵活的,可以用于许多不同的目的。 4 、x m l 文档处理过程总结。首先由一个编辑器创建了x m l 文档。语法分析 程序将树状结构传送给浏览器,由浏览器显示出来。图3 1 显示了这个处理过程。 e 盔窑堑厶望亟:尘i 曼论童bs s担基挂盔i 丕准 鲥3 i x m l 文州处理过胖幽 f i g l l r e3 - lf i o w c h a r to f x m l 行l ep r o c e s s i n g 所有这些部分都是独立的,互相分离的。将这些部分联系在一起的是x m l 文档, 改变编辑程序与终端应用程序无关。务实上,很可能在编写文档时就根本不知道 最终的应用程序是什么。可能足最终用户来阅读文档,也可能足敛据库从中提取 数据,甚至还可能是未发明出来的程序,也可能足所有这些情况。文档与读取它 的程序是无关的。 3 1 3x m l 文档的结构 x m l 几乎没有预先定义任何标记,相反允许用户在需要时定义自己的标记。 但是山自定义标记建立的这些标记和文档并不是随意的,必须遵循一组特定的规 则,下文将阐述这些规则。遵守这些规则的文档被认为足结构完整的。结构完整 足x m l 处理器和浏览器阅读文件必要的最起码的标准。这些规则总结如下: 1 文档的开始必须是x m l 声明。 下面足x m l1 o 中独立文档的x m l 声明: ,如果声明出现,它绝对是该文件最开头部分,因为x m l 处理 器会读取文件最先的几个字节并将它与字符串“q x m l ”的不同编码作比较来确 定正在使用的字符串集( u t f 8 、大头( 高字节先传格式) 或者小头( 低字节先传 格式) ) 。 2 含有数据的元素必须有起始标记和结束标记。 x m l 文档每个起始标记必须以相应的结束标记结束,例如:以 开始的起 始标记必须以相应的 结束标记结束。如果一个文档未能结束一个标记,浏览 器或移交器将报告一个错误信息,并且不会以任何形式显示任何文档的内容。 3 不含数据并且仅使用一个标记的元素必须以 结束。 x m l 区分带有结束标记的标记,而不带结束标记的标记称为空标记。x m l 空标记必须由, 结束。 4 文档只能包含一个能够包含全部其他元素的元素。 一个x m l 文档包含一个根元素,它完全包含了文档中其他所有元素。有时候 这种元素被称作文档元素。假设根元素是非空的( 通常都是如此) ,它肯定有起始 e 立奎适厶堂亟:堂f ! 迨奎ss担。基耋盛圭丕准 标记和结束标记。所有实际的元素( 除根元索本身) 必须包含在根元素中。 5 元素只能嵌套不能重叠。 元索可以包含别的元索( 大多数情况下) ,但是元素不能重叠。事实上足指, 如果一个元素含有一个起始标记,则必须同时含有相应的结束标记。同样,一个 元素不能只含有一个结束标记而没有相应的起始标记。 6 属性值必须加引号。 x m l 要求所有的属性值必须加引号,不管属性值是否包括空白。 7 字符“ ”和“& ”只能用于起始标记和实体引用。 x m l 假定最先的“ 2 、 元索的子元索,频道 , 元素包含c h a n n e l ( r s sf b e d 的来源) 的一个简单描述。 元素的子元索包含必须的频道节点元素和一 些可选的频道节点元素,分别如下: a 、必选的频道节点包括: 表示频道的名称; 表示频道的地址; 表示频道的描述。 代表一个故葬( 例如一则新闻、篇文章等) ,该元素构成了r s sf e e d 的动态部分, 子元素在 元索中至少出现一次。 b ,可选的频道节点包括: 使用的语言; 版权卢明; 内容负责人的e m a i l ; 技术人员的e m a i l : p u b d a t e 内容的发协时间; 最后更新时间: 0 e 瘟窑适厶:兰亟:堂位论羔s 担筮挂盔主巫选 3 、对fr s s 最重要的则是项目节点 ,一个 节点可以代表一个故 事( 例如一则新闻、一篇文章等) ,该元素构成了r s sf e e d 的动态部分,以及r s s 文档的主要组成部分。 元素的子元素也包含一些必选节点和一些f r 选节点, 分别如下: a 、必选常点: q i t l e 表示一个项的名称标题: 表示与一个项对应的完整内容u r l ; 表示对一个项的简短描述。 b ,可选节点: 表示作者的姓名; 表示i t e f l l 可以包含在一个或多个分类中: 表示附加的媒体对象; 表示与i t e m 相关的评论的地址; 表示可以唯一确定i t e m 的字符串; 表示i t e m 发布的时| 口j ; 表示r s s 的i t e m 的来源。 c 、 节点的x m l 结构表示如下; 4 、 是一个可选的,空白的标记,是 子元素中的r r 选元素, 只有在存在一个外层 元素的自口提下,力。需要用到它。c i m a g e 节点包含三 个必需的子元索和三个可选的子元素,分别如下: a 、必选节点: 表示g i f 、j p e g 或p n g 图像文件的u r l 地址,该图像代表整个频道; 用于描述上面的图像,等同于h t m l 语言中的 的a l t 属性,应该 与频道的 有相同的值; 表示要连接的站点的u r l ,当显示频道时,图像的连接指向该站点, 应该与频道的 有相同的值。 b 、可选的节点: e 廛垒塑厶竺亟堂位淦奎s 担差垃盔拯准 和c h e i ;l l t 它们是数字类型,指定图像的宽度和高度,单位为像索; 足l i n k 的t l t l e 属性中文本,它将在调用网页时显示出来。 c 、 宵点的x m l 结构表示如下: 咖r 1 5 、 是一个可选的、空白的标记,足 子元素中的可选元素, 只有在存在一个外层 元索的6 口提下,j 需要使用它。使用( t e x t i n p u t 可 以提供一个搜索引擎输入框,或让读者提供反馈信息,许多聚合器忽略该前点。 包含四个子节点: a 、 四个子节点: 提交按钮的标签 该文本输入区的描述 文本输入区的名称 处理文本输入的c g i 脚本的u r l b 、 节点的x m l 结构表示如下: 6 、一个标准的r s s 文档规范格式如下: 训i n k e 立窒堑厶堂亟:望位途塞垦s翅差挂生拯超 元素的定义,一个故j # ( 例如一 则新闻、一篇b l o gf l 志等) 应用一个 ,如果运用服务器端“重复区域”的 技术,就可动态提取获得数据库中最近的新闻、b l o gf i 志等作为r s s 的内容,并 以多个 显示。 e 盛窑适厶:圣亟堂位途奎ss 毯苤! :i 过 ! 虹盔 4r s s 技术工作过程研究 r s s 技术足站点用来和其他站点之l 日j 共享内容的一种简易方式( 也叫聚合内 容) ,通常被用于新闻和其他按顺序排列的刚站。网络用户可以在客户端借助于支 持r s s 的信息聚合工只软件( 例如:p o t u 周博通资讯阅读器、f e e d d e m o n ) ,在不 打开网站内容页面的情况下阅读支持r s s 输出的网站内容。网站提供r s s 输出,有 利于让用户发现网站内容的正新。所以r s s 技术的实现主要分为两个二e 要的技术过 程,第一个过程是网络站点的服务器对网络信息进行整合的过程,即将刚络信息 整合成符合r s s2 o 标准的x m l 文件,然后将整合好的x m l 文件对应的r s sf j e d ( r s s 种子或称为r s s 频道信息) 发布到网站上;第二个过程是网络用户通过支持 r s s 的新闻聚合: 具阅读支持r s s 输出的网站内容,用户可以通过下载网站发斫i 的 r s sf e e d 来获取r s s 文件的地址,然后通过浏览器与服务器进行交互来获得r s s 文 件,最终通过浏览器来阅读网站发布的r s s 文件。本章将分别介绍笔者对r s s 这两 个主要工作过程的研究。 4 1 服务器端信息抽取过程 4 1 1信息抽取的基本原理 由于目前网络上的信息大都是基于网页形式,而网页足基于h t m l 的,r s s 技术在信息抽取的过程中就是将一定数量的h t m l 文件整合成一个符合r s s2 0 标 准的x m l 文件。而网络中的网页信息非常繁多,所以大部分网站都是通过自动信 息抽取平台进行信息的抽取。 自动信息抽取平台的目的是为了提高用户工作效率,减少人员工作量,所以 在设计时应满足简单易用,健壮通用以及自动进行这三个特点。自动信息抽取平 台主要足基于x s l t 的抽取模式,x s l t 可以将一个x m l 文档中的数据抽取出来并 表示为一个新的x m l 文档。由于h 刚l 可以看作是x m l 的一个子集,可以利用标 准的x s l t 技术对h t m l 文档进行抽取,并将结果表示为x m l 文档。不过,由于历 史的原因,h 刑l 并不完全符合x m l 语法,而且存在大量语法错误的h t m l 文档, 因此,不能直接将x s l t 应用到h t m l 文档上,必须先将h t m l 文档转换成符合x m l 语法的x h t m l 文档,然后再应用x s l t 进行数据抽取,抽取结果表示为一个x m l 文档或者程序中的x m l 数据结构,比如一个d o m 树。这样,可以得到自动信息抽 取系统的基本框架: 1 4 e 盛交道厶堂亟望位途主bss 毯丕! :l 谨型亚蕴 图4 一lf 占恳抽取基本柜架 f i g i l r e4 - 1b a s i cf h m eo f i n f o 肌a t i o ne x t r a c t i o n 首先获得h t m l 文档对应的d o m 树,然后应用x s l t 将这个d o m 树转换为最 终网站发布的x m l 文档。实际中,h t m l 文本会存在很多错误,比如不规则的嵌 套,开始标记缺少对应的结束标记,属性值没有双引号等等。因此,首先要修正 h t m l 网页中的错误。为了得到h t m l 的d o m 结构,还要将h t m l 转化为对应的 x h t m l ,以便于! e 成d o m 结构。由于大部分网页中的链接使用的都足相对链接, 相对链接结合网页本身链接才能j f 确定位到链接指向的页面。仅仅将相对链接抽 取出来是没用的,因此,在抽取之前,要将网页中的链接转换为绝对链接,以便 用户可以通过绝对链接正确链接到所需要的网页。 4 1 2r s s 新闻! e 成器的实现 上文介绍了服务器端信息抽取的基本原理,下文将介绍一个r s s 信息抽取的 具体实现:r s s 新闻生成器的实现。 r s s 新闻信息生成器是负责将基于普通的h t m l 恪式的新闻信息转化成为相 应的r s s 格式的新闻信息。下图为r s s 新闻信息生成器的基本设计思路: e 堑盆适厶:兰殛:竺l ! 途奎 ss 焦鲞! :l 过崔婴宜 鸯* 匡固一e 习 图4 2r s s 新闻信息生成器的基本设计思路 f i g u r e4 - 2d e s i g no f r s sn e w sg e l l e r a t o r 信息抽取f 台自先将网络中的h t m l - 折闻收集,根据设定的抽取规则通过 x s l t 技术对h t m l 新闻进行抽取操作,即把多个h t m l 格式的新闻网页中的有 用信息抽取出来,表示成一个新的x m l 文档,然后根据r s s2 0 标准生成一个 x m l 格式的r s s 文件,同时生成一个与之相对应的r s sf e e d ,通过网页的形式将 这个r s sf e e d 发布在网站上,网络用户下载r s sf e e d 到本地的浏览器,浏览器根 据r s sf b e d 提供的地址来定时获取相应的新闻频道信息,一个r s s 新闻信息生成 器就可以实现了。 4 2用户与服务器交互过程 用户阅读网站发布的r s s 信息是通过r s s 浏览器下载网站发布的r s sf b e d 来获取x m l 文件的地址,用户可以没定订阅时j j j 隔,浏览器通过定时更新的机 制来获取r s s 信息。 r s s 信息聚合工具根据用户设定的定时更新问隔,定时向服务器发送请求, 服务器根据用户的请求将当日f 最新的r s s 信息( 即x m l 文件) 发送给用户,这 一过程与普通的w e b 浏览过程相同,都足通过h t t p 协议进行请求与数据的传输, r s sf b e d 的作用与w e b 浏览过程中的u r l 的作用相同,标识出了r s s 文件的存 放地址,用户端的r s s 工具通过这个地址就可以将网站发布的r s s 信息下载到本 地,通过r s s 浏览器进行阅读。 e 盛窒适厶:兰亟堂垃途塞bss 这签! 丝狴婴蕴 h t t p 请求链( 用户根据r s sf e e d 请求服务器上发布的x m l 文件) h t t p 响应链( 服务器根据用户的请求 将网站最新的x m l 文件发送给用户) 用户服务器 图4 3r s s 川户j j 服务器交互过稗图 i g u r e4 - 3f 1 0 w c h a r to tc o m m u n i c a t l o nb e t w e e nr s su s e ra n ds e r v e r 在这个交互过程中,服务器足根据用户的请求来响应的,只要有请求服务器 就会做出响应,把目6 口最新的r s s 文件发送给用户,用户端用收到的最新的r s s 信息替换本地的旧的x m l 文件。这样的实现机制的优点足实现简单,町以保证用 户得到的是最新的r s s 信息,但足这一机制也存在浪费网络资源的问题,尤其足 带宽的浪费,因为服务器并没有考虑自身x m l 文件的正新频度与用户订阅时i 日j 间 隔之间的关系,当用户的更新时l 口j 问隔设定的很短时,一定时间段内请求的次数 就会增加,但足在这个时问段内服务器还没有对自身的x m l 文件进行更新,服务 器只是根据用户的请求将r s s 文件发送给用户,这些没有更新过的信息对于用户 来说就是冗余的信息,传送这些冗余的信息时网络资源足很大的浪费。耳前比较 主流的r s s 浏览器的订阅时间口j 隔一般为一小时,所以网站的服务器每小时至少 应该更新一次x m l 文件,这样才可以保证用户获得的x m l 文件有新的内容,尽 量保证网络资源传送的是有价值的信息,减少带宽的浪费。 1 7 e 盛窑适厶:羔亟:望位迨塞s 立出趋拯塞迅剑! 出生塑丝至上 5r s s 应用的报文识别与用户数统计 上面的章常已经介绍了r s s 技术的相关标准和工作原理,本章将分析r s s 应 用在网络中传输时的报文格式以及如何从网络数据中识别出r s s 应用的报文,并 统计了本实验室所在教学楼中一天中各时问点的r s s 用户数。 5 1r s s 应用的报文识别方法 r s s 技术是通过h t t p 协议进行数据请求与数据传输,所以r s s 应用的报文 必然是符合h t t p 协议规范的报文,先从采集到的网络数据中过滤出所有的h 丌p 报文,从h t t p 数据中有两种方法可以得到r s s 应用的报文,下面将分别介绍。 5 1 1 根据h 1 r r p 请求报文识别r s s 敛据 使用网络抓包软件e t h e r e a l 进行单机抓取r s s 应用的报文,发现r s s 应用的 请求报文中全部使用g e t 方法获取r e q u e s t u r l 所标识的信息。r s s 应用请求报 文中的r e q u e s t u r l 就是用户从网站上下载的r s sf e e d ,通过观察发现r s sf c e d 的组成是有一定的规律的:网站在生成r s sf e e d 时会以“x m l ”或是“r s s ”作为 r e q u e s t u r l 的结尾:即使r e q u e s t u r l 不是以“x m l ”或“r s s ”作为结尾,在 r e q u e s t u r l 所标识的路径中也会含有“r s s ”字符。 所以通过查看h t t p 请求报文的r e q u e s t u r l 是否以“x m l ”或“r s s ”结尾 或是否含有“r s s ”字符就可以识别出r s s 应用的请求报文,f 耳通过请求报文的i p 、 p o r t 找到与之对应的响应报文。 用这种方法识别r s s 应用数据时可能会漏掉一些数据,因为这种过滤方法是 通过观察和经验得出的,有些频道的r s sf e e d 在生成时可能不含有“r s s ”字符或 是不以“x m l ”或“r s s ”作为结尾,这些频道的请求报文就会被漏掉,所以还是 存在一些缺陷的。 5 1 2根据h t t p 响应报文识别r s
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 莆田市历年中考数学试卷
- 2024年南华大学附属第三医院招聘真题
- 曲靖市初一上数学试卷
- 普洱市数学试卷
- 清远中考数学试卷
- 内蒙新高考数学试卷
- 南阳市九年级数学试卷
- 女学霸挑战高考数学试卷
- 南阳七年级下数学试卷
- 浦头镇初一数学试卷
- 设备巡回检查管理制度
- 产房安全核查管理制度
- 2025至2030年中国水利工程勘察设计行业市场全景评估及发展趋向研判报告
- 阿尔茨海默症的护理
- 2024中级经济师《工商管理》真题和答案
- (2025)公共基础知识考试试题附及答案
- 中国五矿笔试题库及答案
- 2024年1月高考真题浙江卷英语试题(真题+答案)
- T/CCMA 0147-2023异型吊篮安装、使用和拆卸安全技术规程
- DB31/T 375-2022柑橘栽培技术规范
- 2025年茶叶加工工职业技能竞赛参考试题库500题(含答案)
评论
0/150
提交评论