(通信与信息系统专业论文)rss新闻的更新特征分析及rss+reader的订阅模型.pdf_第1页
(通信与信息系统专业论文)rss新闻的更新特征分析及rss+reader的订阅模型.pdf_第2页
(通信与信息系统专业论文)rss新闻的更新特征分析及rss+reader的订阅模型.pdf_第3页
(通信与信息系统专业论文)rss新闻的更新特征分析及rss+reader的订阅模型.pdf_第4页
(通信与信息系统专业论文)rss新闻的更新特征分析及rss+reader的订阅模型.pdf_第5页
已阅读5页,还剩57页未读 继续免费阅读

(通信与信息系统专业论文)rss新闻的更新特征分析及rss+reader的订阅模型.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要 摘要:r s s 技术是一种基于x m l 格式的网络内容包装和投递的协议,可以用于生 成r s s 新闻并以r s s 频道的形式发布在网站上。通过r s sr e a d e r 订阅相关的频道, 用户可以选择自己感兴趣的频道,并且方便地获取实时更新的内容,因此越来越 多的主流网站提供r s s 新闻订阅服务。但之前的研究多集中于多r s s 新闻的提取 技术和其他r s s 应用领域的研究,对于r s s 新闻的发布和订阅特征的研究较少。 由于r s s 网站的更新与r s sr e a d e r 的更新不同步,用户通过r s sr e a d e r 订阅新 闻的过程中可能出现诸如更新信息的丢失、冗余信息的大量产生等现象。因此在 本文中,我们力求通过对r s sr e a d e r 客户端抓取的r s s 数据分析r s s 网站的行为 特征和r s sr e a d e r 的设置对用户获取的频道更新内容的影响。 本文主要的工作是建立了数学模型来描述r s sr e a d e r 的更新问隔设置与订阅 得到的r s s 更新内容之问的关系,给出了针对多个和单个频道的设定合理r s s r e a d e r 更新间隔时间的方法,并且通过实际测量r s s 频道的更新数据,分析r s s 网站的更新特征和r s sr e a d e r 的订阅特征。在实验过程中,通过对r s s 新闻发布 和更新流程分析,设计相应的r s s 数据的测量和分析方案,利用改进的r s sr e a d e r 实现了连续2 4 小时对1 8 7 个r s s 新闻频道的更新数据实时地抓取。提出了基于频 道列表大小的归一化r s s 频道更新量的方法,得到新闻更新比例可以更好地衡量 r s s 频道和r s sr e a d e r 获取的频道文件的更新程度。 通过对r s s 新闻更新的测量和分析,总结r s sr e a d e r 订阅频道的更新内容特 征,包括更新时间、更新量和更新比例分布。特别是r s s 频道的更新比例间接反 映了订阅的r s s 新闻的实时性,由此推测r s s 网站的更新特征。网站对r s s 频道 类型的设定和新闻发布时间控制,决定了r s s 频道的更新量和更新时间分布。r s s r e a d e r 更新问隔设置直接影响用户获取到的频道更新质量,包括更新信息的完整 性和冗余信息的比例。r s sr e a d e r 的更新间隔需要按照r s s 频道的更新强度做出 适当的调整,以保证用户实时地、完整地获取频道的更新内容。通过对r s s 频道 的更新强度和更新时间分布的估计,利用数学模型可以很好的模拟出用户获取的 频道更新内容随r s sr e a d e r 更新间隔设置的变化,则可以针对不同频道内容的实 时性和完整性的不同要求设定合理的订阅更新间隔时间。 本论文中共有图2 0 幅,表7 个,参考文献2 0 篇。 关键词:r s s ;x m l ;r s sr e a d e r ;更新特征;模型分析 分类号:t p 3 9 3 1 8 j 匕瘟交道厶堂亟堂位i 佥塞垦墨i 基g ! a bs t r a c t a b s t r a c t :r s st e c h n o l o g yi sax m l b a s e d p r o t o c o lt op a c k a g ea n dd e l i v e r c o n t e n t so ni n t e m e t ,w h i c ha l s oc a nb eu s e dt oc r e a t er s sn e w sa n dp u b l i s ht h e m t h r o u g hr s sc h a n n e l so nr s ss i t e s u s e r sc a l lc h o o s ei n t e r e s t e dc o n t e n t sa n da c q u i r e u p d a t e dn e w st i m e l yb ys u b s c r i b i n gr s sc h a n n e l st h r o u g hr s sr e a d e r ,s om o r ea n d m o r em a i n s t r e a ms i t e sp r o v i d et h es e r v i c eo fr s sc h a n n e ls u b s c r i p t i o n b u ti nt h e p r e v i o u ss t u d y ,m a n yw o r k sj u s tf o c u so nt h ew a yo fr s sn e w se x t r a c t i o na n do t h e r r s sa p p l i c a t i o nf i e l d s ,p a yl e s sa t t e n t i o nt ot h er e s e a r c ha b o u tt h ec h a r a c t e r i s t i c so f r s sp u b l i c a t i o na n ds u b s c r i p t i o n a su p d a t e so nr s ss i t e sa n dr s sr e a d e ra r en o t s y n c h r o n i z e d ,t h er a t eo fu p d a t e dn e w sl o s sa n dt h er a t i oo fr e d u n d a n tn e w sm i g h t i n c r e a s el a r g e l y t h e r e f o r e ,i nt h i sp a p e rw et r yt oa n a l y z et h eb e h a v i o r a lc h a r a c t e r i s t i c s o fs i t e s ,a n dt h ei n f l u e n c eo fr s sr e a d e r ss e t t i n g so nt h ea c q u i r e du p d a t e dc o n t e n t s t h em a i nw o r ko ft h i sp a p e ri st oe s t a b l i s ham a t h e m a t i c a lm o d e lt od e s c r i b et h e r e l a t i o n s h i pb e t w e e nt h eu p d a t e di n t e r v a lo fr s sr e a d e ra n dt h ea c q u i r e du p d a t e d c o n t e n t st h r o u g hr s sr e a d e r ,t op r o v i d et h ew a yt os e tt h ea p p r o p r i a t er s su p d a t e d i n t e r v a l sf o rs u b s c r i b i n gs i n g l ea n dm u l t i p l ec h a n n e l s a l s ow ea n a l y z et h eb e h a v i o r a l c h a r a c t e r i s t i c so fr s ss i t e sa n dr s sr e a d e rt h r o u g ht h em e a s u r e m e n to f u p d a t e dd a t u m o fr s sc h a n n e l s i nt h ep r o c e s so fe x p e r i m e n t ,b a s e do nt h ef l o wo ft h ep u b l i c a t i o na n d u p d a t i n gr s sn e w s ,t h es c e n a r i oo fm e a s u r i n ga n da n a l y z i n gr s sd a t u mi sd e s i g n e d a n dr e a l i z e dt oc r a w lt h es u c c e s s i v e2 4 h o u ru p d a t e dd a t u mo fi8 7r s sc h a n n e l sw i t h a m e l i o r a t e dr s sr e a d e r w ea l s op r o p o s et h ew a yo fr s s u p d a t e dd a t u mb a s e do nt h e s i z eo fr s sn e w sl i s t s ,w h i c hc a nb eu s e dt om e a s u r et h eu p d a t e dd e g r e eo fr s s c h a n n e l sa n dt h ea c q u i r e df i l e st h r o u g hr s sr e a d e r w ec a ns u m m a r i z et h eu p d a t e dc h a r a c t e r i s t i c so ft h ec o n t e n t sf r o mt h es u b s c r i b e d c h a n n e l sb yr s sr e a d e r ,i n c l u d i n gt h ed i s t r i b u t i o no fr s su p d a t e dt i m e ,u p d a t e d n u m b e ra n du p d a t e dr a t e e s p e c i a l l yt h eu p d a t e dr a t eo fr s sc h a n n e l sc a ni n d i r e c t l y s h o wt h er e a l t i m ec h a r a c t e ro fs u b s c r i b e dr s sn e w s r s ss i t e sc o n t r o lt h en u m b e ro f r s s u p d a t e dn e w sa n dt h ed i s t r i b u t i o no fp u b l i s h e dt i m eb ys e t t i n gr s sc h a n n e l s t y p e s a n dr s sn e w s r e l e a s e dt i m e t h es e t t i n go fr s sr e a d e r su p d a t e di n t e r v a ld i r e c t l y a f f e c tt h eq u a l i t yo ft h eo b t a i n e dc o n t e n t s ,i n c l u d i n gt h ei n t e g r a l i t ya n dr e d u n d a n tr a t i o o fu p d a t e dn e w s t h eu p d a t e di n t e r v a lo fr s sr e a d e rs h o u l db ea d j u s t e dw i t ht h e u p d a t e dc h a n g e so fr s sc h a n n e l st oe n s u r et h a tu s e r sc a l la c q u i r eu p d a t e di n f o r m a t i o n t i m e l ya n di n t e g r a l l y b ye s t i m a t i n gt h eu p d a t e ds t r e n g t ha n dt h e d i s t r i b u t i o no fu p d a t e d t i m e ,w ec a n u s eo u rm o d e lt os i m u l a t et h ec h a n g e so fu s e r s a c q u i r e dc o n t e n t sf r o mt h e r s st e a i t i m eu p d a t e dc h a n n e l sw i t ht h ei n h e r eo fr s sr e a d e r su p d a t e di n t e r v a l ,s o u s e r sc a ns e tt h eu p d a t e di n t e r v a lw i t ht h er e a lt i m ea n di n t e g r a l i t yr e q u i r e m e n t so f c o n t e n t sf r o md i f f e r e n tc h a n n e l s i nt h i sp a p e r ,t h e r ea r e2 0f i g u r e s ,7t a b l e sa n d2 0r e f e r e n c e dp a p e r s k e y w o r d s :r s s ;x m l ;r s sr e a d e r ;u p d a t e dc h a r a c t e r i s t i c s ;u p d a t e dm o d e l c l a s s n o :t p 3 9 3 1 8 v 学位论文版权使用授权书 本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特 授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索, 并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国 家有关部门或机构送交论文的复印件和磁盘。 ( 保密的学位论文在解密后适用本授权说明) 学位论文作者签名:j 躬饿盗 导师签名 签字同期:加箩年占月矽i - - _ 1签字同期:锣年易月罗i l q 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研 究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或 撰写过的研究成果,也不包含为获得北京交通大学或其他教育机构的学位或证书 而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作 了明确的说明并表示了谢意。 学位论文作者签名:诛镛丝 签字同期:切多年b 月o1 7 5 7 致谢 本论文的工作是在我的导师陈常嘉教授的悉心指导下完成的,陈常嘉教授严 谨的治学态度和科学的工作方法给了我极大的帮助和影响。在此衷心感谢三年来 陈常嘉老师对我的关心和指导。 陈常嘉教授悉心指导我们完成了实验室的科研工作,在学习上和生活上都给 予了我很大的关心和帮助,在此向陈常嘉老师表示衷心的谢意。 胡师舜老师对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷 心的感谢。 在实验室工作及撰写论文期间,张敏、马坤、赵文鹏和孔德生等同学对我论 文中的数据处理和结论总结等研究工作给予了热情帮助,在此向他们表达我的感 激之情。 另外也感谢家人和我身边其他的同学、朋友,他们的理解和支持使我能够在 学校专心完成我的学业。 1 引言 1 1 选题背景和意义 随着网络的普及和相关技术的发展,互联网已经成为主流的信息发布源之一, 越来越多用户通过网络浏览来获取新闻。但是传统的网页浏览方式随着网络信息 的累积和扩展也暴露出一些问题,例如繁杂的新闻首页为用户的浏览带来了困扰, 网页内容的更新难以被用户及时获取,传统的搜索引擎只能提供大量相关的非精 确信息。r s s 技术的出现,提供了一种在大量冗余信息中快速、准确地定位用户 需要的新闻,并且以更加互动的方式提供给用户的方法。对比于传统的新闻媒介, 互联网能够轻易实现快速地汇聚各方面信息,并且及时地更新。由于此特点,r s s 技术逐渐成为网络应用的热点,特别是用于实时新闻的发布。 r s s 技术是这几年发展起来的新技术,其英文全称为“r e a l l ys i m p l e s y n d i c a t i o n 或者是“砒c hs i t es u m m a r y ,意思是简易信息聚合。r s s 频道通过 x m l 标准进行消息的发布,用户通过相应的r s sr e a d e r ( r s s 订阅工具) 可以按 照自身喜好有选择性地将感兴趣的内容源“汇聚到一个界面中,而无需打开不 同的网站浏览,即能实现消息的实时更新。r s s 技术发展到今天受到越来越多用 户的推崇,因为它从根本上改变了传统的被动获取新闻的方式,而采用了一种更 加人性化的、互动性强的机制。r s s 技术目前广泛应用于b l o g 、w 埘和网上新闻 频道等。 目前国内外已经有许多r s s 技术的相关研究,但多着眼于如何改善网页新闻 的提取和r s s 新闻生成的效率和准确性,r s s 技术在其它领域的应用,以及对r s s r e a d e r 的改进。而关于网站发布r s s 频道和用户订阅r s s 新闻的行为特征研究较 少,特别是两者问不同步的更新可能对用户订阅的r s s 频道内容更新的影响,包 括用户通过r s sr e a d e r 获取的更新信息的完整性和实时性,频道更新中冗余信息 的问题以及r s sr e a d e r 的设置问题。在本论文中,我们通过从客户端抓取到的r s s 数据分析网站对r s s 频道的更新行为特征,同时总结出用户设置的r s sr e a d e r 的 更新间隔对获取到的频道更新文件的影响。最终的结果是建立r s sr e a d e r 的更新 间隔与订阅获取的频道更新内容之间关系的模型,从而使得我们可以通过观测到 的频道更新强度,找到订阅的最佳更新间隔时间,使得用户可以真正通过r s s r e a d e r 高效、及时、完整地获取到频道的更新新闻。 1 2 论文研究的主要工作 论文重点研究了r s s 技术用于实时新闻发布和更新方面,主要分为以下四个 工作部分: l 、通过对r s s 概念及其相关技术标准的研究,分析总结出r s s 新闻的发布 和订阅流程及其对频道内容的影响,特别是r s s 新闻的更新特征,从而设计出合 理的r s s 数据抓取模型; 2 、通过对开源的r s sr e a d e r 代码的研究,改进订阅工具实现r s s 新闻数据 的抓取,并对结果进行合理的预处理,特别是找到正确的归一化处理数据方法以 研究频道的新闻更新比例对订阅者获取信息的完整性的影响; 3 、分析网站对频道更新内容的行为特征,包括更新的时间分布特征,以及频 道内容的设置对更新量和更新比例的影响,用户随r s sr e a d e r 设置的更新间隔时 间变化获取到的频道更新内容的变化,例如新闻更新量、冗余量和丢失的概率等; 4 、建立r s s 频道更新状态与r s sr e a d e r 设置的更新间隔时间之间的关系模 型,根据用户对r s s 频道更新内容的不同需求设置合理的r s sr e a d e r 更新间隔时 间。 1 3 论文的基本框架 本文的第一章介绍了选题的背景和意义,对论文的研究内容和框架结构做出 总结;第二章介绍了r s s 技术背景和相关技术标准,从中找到r s s 新闻中可以提 取出的内容元素;第三章分析了r s s 新闻的生成发布过程,r s sr e a d e r 与r s s 网 站的交互过程,总结r s s 新闻的更新特征,从而设计出合理的r s s 数据的测量和 分析方案并实现了r s s 数据的订阅抓取;第四章介绍了r s s 数据的预处理过程, 以及进一步的数据归一化,从而分析网站对r s s 频道的行为特征,用户通过r s s r e a d e r 设置对频道更新的影响等;第血章中根据日订面分析的网站和用户的交互行 为,对r s s 频道更新和订阅的影响建立数学模型分析网站行为和用户行为之间的 关系,并利用实际测量数据验证模型正确性;总结中给出了最终的研究结果,以 及针对不足未来可能的研究方向。 2 2r s s 及相关技术标准 r s s 是一种描述和同步网站内容的协议,为用户提供了便利的“聚合”信息 阅读工具。本章中,我们首先研究r s s 的背景和相关标准,理解其数据的基本结 构,从而理解在后续研究中我们需要提取到的r s s 新闻的数据元素。 2 1r s s 技术的简介 2 1 1r s s 技术的发展历史 r s s 技术的英文解释有三种:r e a l l ys i m p l es y n d i c a t i o n ,r d f ( r e s o u r c e d e s c r i p t i o nf r a m e w o r k ) s i t es u m m a r y , r i c hs i t es u m m a r y ,起源于网景公司 ( n e t s c a p e ) 的“推”( p u s h ) 技术,一种应用于当时浏览器的新闻频道功能的技 术。最初的0 9 0 版本r s s 定义为“r e a l l ys i m p l es y n d i c a t i o n ”,是由网景公司定义 的一套描述新闻频道的语言,目的是用来建立一个整合了各主要新闻站点内容的 门户。但是随着n e t s c a p e 的每况愈下,并且“推技术由于缺乏合适的商业定位 而被其他网络工具的出现而淡化其优势,最终新闻频道在浏览器中消失,r s s 的 发展也一度停滞。 最近几年,随着x m l 技术的发展和博客( b l o g ) 逐渐在网络流行起来,2 0 0 1 年,著名的博客写作软件开发公司u s e r l a n d 接手了r s so 9 1 版本的发展,并且把 r s s 作为描述博客主题和更新信息的最基本方法继续开发,逐步推出了o 9 2 、0 9 3 和o 9 4 版本的r s s 标准。随着r s s 在各种博客软件中的广泛应用,越来越多的专 业新闻网站也开始支持此项技术。在u s e r l a n d 公司接手并不断开发r s s 的同时, 很多的专业人士认为需要通过一个第三方、非商业的组织,把r s s 发展成为一个 通用的规范,并进一步标准化。于是2 0 0 1 年一个w 3 c 的联合小组在r s s0 9 0 版 本的开发原则下,以w 3 c 新一代的语义网技术r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) 为基础,对r s s 进行了重新定义,发布r s s1 0 ,并将r s s 定义为“r d f s i t es u m m a r y 。但是这项工作没有与u s e r l a n d 公司进行有效的沟通,u s e r l a n d 公 司也不承认r s s1 0 的有效性,并坚持按照自己的设想进一步开发r s s 的后续版 本,到2 0 0 2 年9 月发布了最新版本r s s2 0 ,将r s s 定义为“r e a l l ys i m p l e s y n d i c a t i o n 【1 7 1 。 发展至今,r s s 广泛应用于新闻频道、b l o g 和w i k i 中,现在主要使用的有 3 0 9 l ,1 0 ,2 0 三个版本,且划分为r s s0 9 x 2 0 和r s s1 0 两个阵营,前者中的 r s s2 0 在2 0 0 2 年9 月交由哈佛大学法学院b e r k m a n 互联网和社会学中心进行维 护,而r s s1 0 仍有w 3 c 联合小组维护。 2 1 2r s s 技术的基本原理 r s s 技术是基于x m l 标准建立的内容包装和投递的协议,是一种数据规范和 标准。r s s 技术规范了网站发布更新消息时的格式,要求以x m l 格式记录消息的 摘要内容,记录的元数据有消息的题目、作者、分类、相关的u r l 地址等。实际 网站往往以x m l 文件形式发布内容,其中包含了多条消息的记录。则网站以后更 新内容时,只需要按照r s s 标准生成同样形式的文件,而r s s 的相关订阅工具可 以检测网站发布x m l 文件并自动地将更新的文件下载到本地。用户通过r s s r e a d e r 可以浏览到相应r s s 频道给出的新闻列表新闻标题、摘要内容、发布 时间等,通过刷新可以查看最新的频道更新内容。同时通过相应的u r l 地址可以 链接到原始网站查看详细内容。r s s 搭建了一个信息迅速传播的平台,使得用户 可以不用逐个登陆网站而实时获取最新消息。r s s 标准规定的x m l 格式文件使得 r s s 文件中包含的信息就能直接被其他站点调用,同时也能在其他的终端和服务 中使用。 2 1 3 r s s 主要功能和特点 r s s 通过x m l 标准定义内容的包装和发前i 格式,为信息的发布和接受提供了 一个实时、高效的渠道,表现出以下几个主要的特点】: 1 来源多样的联合( s y n d i c a t i o n ) 特性 因为r s s 采用标准的x m l 格式束包装定义内容,任何内容源都可以采用这 种方式来发布消息( r s sf e e d ) ,所以这些信息可以直接被其他支持r s s 的终端和 服务使用,如手机和邮件列表等。另外其他支持r s s 的网站也可以调用相关联盟 网站的r s s 消息,自动的显示其他站点上的最新信息,这就是r s s 的联合。这种 联合就导致一个站点的内容更新越及时、r s s 消息被调用的越多,出现在用户面 前的次数越多,从而形成一种良性循环。 2 个性化的聚合( a g g r e g a t i o n ) 特性 用户通过使用专门的r s s 订阅工具( r s sr e a d e r ) ,能够按照自己的喜好有选 择性地从网络中搜集各种r s s 消息,并且“聚合到一个统一的界面中供用户方 便地阅读。这样用户可以在一个界面下同时阅读来自不同站点的新闻,而不用浪 4 费时间到不同的站点上找寻自己感兴趣的消息。另外,用户可以选择性地过滤掉 自己不感兴趣的消息,而订阅自己感兴趣的频道。 3 信息发布的时效性、低成本性 r s s 技术秉承“推”( p u s h ) 信息的技术,当新内容在服务器数据库中出现时 第一时间被“推”到用户端阅读器中,极大地提高了信息发布的时效性。此外,服务 器端r s s 消息的包装采用x m l 格式,在技术实现上极为简单且是一次性的工作, 使长期的信息发布边际成本几乎降为零,完全是传统的电子邮件、互联网浏览等 发布方式所无法比拟的。 4 无“垃圾”信息、便利的本地内容管理特性 用户通过专门的r s sr e a d e r 可以根据自身喜好订阅相应的r s s 频道,从而屏 蔽掉其他所有用户没有订阅的内容以及弹出广告、垃圾邮件等干扰内容。另外用 户可以根据自己的需求在相应的客户端阅读器中编排分类不同的r s s 频道,实现 对消息内容的管理,甚至部分软件还提供下载订阅r s s 内容进行本地的离线阅读、 存档保留、搜索排序、相关分类等多种管理操作。 2 2x m l 的标准 r s s 是一种基于x m l 标准的技术,广泛应用于互联网消息的内容包装和发布。 x m l 可扩展标记语言,是e x t e n s i b l em a r k u pl a n g u a g e 的缩写,由w 3 c 的x m l 工作d , n 定义的。x m l 是s g m l ( s t a n d a r dg e n e r i cm a r k u pl a n g u a g e ,标准通用 标记语言) 的一个子集,其目的在于使在w e b 上能以现有的h t m l ( h y p e r t e x t m a r k u pl a n g u a g e ,超文本标记语言) 的使用方式提供、接受和处理s g m l 成为可 能。x m l 的设计既考虑了实现的方便性,同时也顾及了于s g m l 和h t m l 的互 操作性。 2 2 1 x m l 的概念 x m l 的定义是由框架语法组成。当创建一个x m l 文档时,不必只使用有限 的预定义元素集,而是可以创建自己的元素,并赋予任意的名称这就是扩展 标记语言( e x t e n s i b l em a r k u pl a n g u a g e ) 中“扩展 的意义。因此,x m l 可以用 来描述任意类型的文档。 x m l 文档类似于树型分层结构,元素可以完全嵌套在另一个元素中,且只有 单个顶层元素即文档元素( d o c u m e n te l e m e n t ) 或根元素( r o o te l e m e n t ) ,它包 含了所有其他元素。因为x m l 文档没有包括预定义的元素,所以看起来像一个相 5 当随意的标准。然而,实际上x m l 有着严格定义的语法。例如,与h t m l 不同, 每一个x m l 元素必须同时有一个起始标签和一个结束标签( 或者个特殊的空元 素标签) ,任何被嵌套的元素必须完全包含在包围它的元素中。实际上,x m l 实 现了非常灵活地创建自己的元素,但同时要求有严格的语法。严格的语法为x m l 文档提供了一种可确定的形式,并且使程序更容易编写和实现,这也是该语言的 主要目标之一。 2 2 2x m l 的特点 1 、简单性。x m l 的语法严格且规范简单,易于开发和容易被其它机器阅读。 它由若干规则组成,这些规则可用于创建标记语言,并能用一种常被称作分析程 序的简明程序处理所有新创建的标记语割1 6 】。 2 、可扩展性。x m l 的可扩展性包含两层含义。首先,它允许开发者创建他 们自己的d t d ( d o c u m e n tt y p ed e f i n i t i o n ,文档格式定义) ,和有效地创建可被用于 多种应用的“可扩展的”标志集。其次,使用几个附加的标准,开发者可以对x m l 进 行扩展,这些附加标准可以向核心的x m l 功能集增加样式、链接、和参照能力。 作为一个核心标准,x m l 为可能产生的别的标准提供了一个坚实的基础。 3 、互操作性。x m l 可以在多种平台上使用,而且可以用多种工具进行解释。 因为文档的结构是相容的,所以解释它们的语法分析器就可以以较低的费用建立。 x m l 支持用于字符编码的许多主要标准,允许它在全世界许多不同的计算环境中 使用。x m l 提供了一种结构化的数据表现方式,从而使用户界面与结构化数据相 分离。 4 、国际化。标准国际化,且支持世界上大多数文字。这依赖于其统一代码的 新的编码标准,这种编码标准支持世界上所有以主要语言编写的混合文本。因此, x m l 不仅能在不同的汁算机系统之间交换信息,而且能够跨国界和超越不同文化 信息。 5 、开放性。x m l 标准在w e b 上是完全开放的,且x m l 文档自身也较为开 放,任何人都可以对一个结构良好的x m l 文档进行语法分析,如果提供了d t d , 还可以校验这个文档。虽然可以用特定方式创建用于某些数据应用的专有x m l 文 档,但其中的数据却是任何应用都可使用的。 2 2 3x m l 文档的结构 使用x m l 定义新的标签是一件非常容易的事情。首先通过一个d t d 定义文 6 档元素并对文档中标签的含义进行描述,然后按照d t d 定义的格式编写x m l , 用一对相互匹配的起始和结束标记符来标记元素信息。x m l 支持文档结构嵌套, 能表示面向对象的等级层7 欠【9 1 。图2 1 给出了一个简单的x m l 文档例子。 图2 - 1 :简单的x m l 文档的例子 f i g u r e 2 - l :t h es i m p l ee x a m p l eo f x m l f o r m a tf i l e 1 、x m l 文档的第一行必须是x m l 声明,其中定义了文档遵循的x m l 标准 版本,这个是必须的,其次可选部分是文字的编码说明,独立文件声明等。本例 子中“x m lv e r s i o n ”,“e n c o d i n g ”和“s t a n d a l o n e ”分别是上述三个声明,可见x m l 文档例子遵循1 0 的版本标准。 2 、元素组成了x m l 文档中的大部分内容,但是一个x m l 文档只能包含一 个根元素,它能够包含全部其他子元素的。任何元素都可以包含后裔,即处理指 令、注释、c d a l a 字节或者字符,但只有根元素可以包含子元素。元素必须包括 起始标记的形式为 ,终止标记的形式为 ,元素的后裔位于起始 标记和终止标记之间。如果没有后裔,则称为空元素。空元素也可以用一种速记 法来表示,即 。本例子中 就是根元素。 3 、元素可以用属性来注释。属性通常用来给元素提供显示内容的额外信息。 元素的属性在元素的起始标记中给出,形式为:属性名= 属性值,属性值必须出现 在单引号或双引号中。一个元素可以有任意数目的属性,但是它们的名称必须不 同。例如本例子中的“ ”,就是一个属性。 4 、一个具体的x m l 文档结构还可以通过一个d t d ( 文档类型定义) 或x m l 7 s c h e m a 进行有效化。如例子中的第二行,给出了文档所要使用d t d ,即“b o o s d t d ”。 另外,一个x m l 文档中还可能包含着处理指令,注释和命名空问等。前者通 常用来为处理x m l 文档的应用程序提供信息,这些信息包括如何处理文档,如何 显示文档等。处理指令由两部分组成:处理指令的目标或名称、数据或信息。其格 式为 。注释分别使用字符序列“ 作为开始和结束,注 释的文本内容在这两个字符序列之间。因为x m l 允许设计者自己选择标记名,所 以就可能出现重命名的情况,而命名空间这种机制就是用来解决这个问题。 2 3r s s2 0 标准 r s s 的标准是在x m l 基本标准基础上根据自身的需求发展起来的标准,相较 于x m l 标准有一定的不同,发展到现在主要有r s s l 0 、r s s 2 0 等版本标准。下 面以r s s2 0 为例,它也是目前r s s 频道新闻发布中使用最为广泛的标准。 2 3 1r s s2 0 的规范说明 r s s 文本就是一种x m l 格式的文本,现在网络中发布的r s s 新闻普遍遵守 w 3 c 的x m l l 0 规范。但相对于一般的x m l ,r s s 又具体规定了使用元素和格式。 当前广泛应用的r s s2 0 的具体规则如下【8 】: l 、r s s 文档的最顶层是一个 元素做为根元素,伴随一个强制属性v e r s i o n , 指定了当前文档遵守的r s s 版本,例如r s s2 0 的r s s 文档中版本属性必须是2 o 。 2 、 元素的子元素是唯一的一个 元素,它包含了关于频道的信 息( 元数据) 和内容。 元素又包含了必需的和可选的两类子元素,表2 1 和表2 2 分别给出了必要和非必要元素的名称标示、简要说明。 表2 1 :必需的 子元素 t a b l e 2 - 1 :t h er e q u i r e de l e m e n t so f 元素简要说明 t i t l e 频道的名称。如果w e b 站点包括和r s s 文件一样的信息,频道 的t i t l e 应该和w e b 站点的t i t l e 尽量一致。 l i n k 与该频道关联的w e b 站点或者站点区域的u r l 。 d e s c r i p t i o n 对频道的一段简单描述,简单介绍频道是做什么的。 ( 1 ) 是 f f jn - f f j 选子元素,它包含三个必须的子元素和三个可 选的子元素: 是表示该频道的g i f 、j p e g 或p n g 图像的u r l 。 8 是图象的描述。当频道以h t m l 呈现时,用作h t m l 标签 的a l t 属性。 是站点的u r l 。如果频道以h t m l 呈现,该图像作为到这个站点的 链接( 注:一般来说图像的 和 应该与频道的 和 丰f l 同) 。 可选的元素包括 和 ,其数字表示图象的像素宽度和高度; 包含文本,在呈现时可以作为围绕着该图像形成的链接元素的t i t l e 属 性。其中宽度的最大值是1 4 4 ,默认值是8 8 ;而高度的最大值是4 0 0 ,默认值是 3 l 。 ( 2 ) 是 的一个可选子元素。它描述了一个支持r s s c l o u d 接 口的、可以在h t t p p o s t 、x m l r p c 或s o a p1 1 中实现的网络服务,其目的 是允许进程注册为一个c l o u d ,频道更新时通知它,为r s sf e e d 实现了一种轻量 级的发布订阅协议。例如: 在这个例子中,为了检索频道的通知,需要发送一个x m l r p c 消息到 r p c s y s t o m8 0 端口的r p c 2 路径。被调用的过程是m y c l o u d r s s p l e a s e n o t i f y 。 ( 3 ) 是 的可选子元素。t t l 代表存活时间,表示r s sf e e d 在刷 新之前缓冲的分钟数。这使得一个形如g n u t e l l a 的文件共享网络用于管理r s s 源 成为可能。 ( 4 ) 一个 的可选子元素包含 ,它又包含四个必需的子元 素: t i t l e 卜输入字段的标题。 d e s c d p t i o n 卜简短的输入字段的用途说明。 n a m e 卜输入字段的名称。 l i n k 卜处理输入字段请求的服务器c g i 脚本的u r l 元素的意图并不明确。您可以用它作为一个搜索引擎文本框,或者 允许读者提供反馈。多数聚集器忽略了它。 9 表2 2 :可选的 子元素 t i b l e 2 2 :t h ec h o i c ee l e m e n t so f 元素简单说明 l a n g u a g e 频道使用的语言种类,例如e 1 1 啦,简体中文是z h - c n 。它方 便聚集器组织同一语言的站点。也可以使用w 3 c 预定义的值。 c o p y r i g h t 频道内容的版权声明。 m a n a g i n g e d i t o r 对该频道内容负责的个人的e m a i l 地址。 w e b m a s t e r 对该频道的技术支持负责的个人的e m a i i 地址。 p u b d a t e 该频道内容的公布日期。例如,一个根据纽约时间按日更新 的频道每2 4 小时公布日期就滚动一次。即该频道的p u b d a t e 更改 的时间。所有r s s 中使刚的日期时间准受r f c8 2 2 规范,年份可 以使两位或者四位( 首选四侮) 。 l a s t b u i l d d a t e 上次频道内容更改的时间。 c a t e g o r y 说明频道属于哪一个或多个分类,其规1 ) , l l j 币l l 级别的 c a t e g o r y 元素一样。 g e n e r a t o r 说明用于生成该频道的程序。 d o c sr s s 文件所使用格式的说明文档所在的u r l 。它可能指向本 文档。它有助于让人理解该r s s 文件。 c l o u d 允许进程注册为“c l o u d ”,频道更新时通知它,为r s sf e e d 实现了一种轻量级的发布订阅协议。 砌 t t l 代表存活时间,存活时间是一个数字,表示r s sf e e d 在 刷新之前缓冲的分钟数。 i m a g e 指定一个能杓:频道中显示的g i f 、j p e g 或p n g 图像。 r a t i n g 关丁该频道的p i c s 评价。 t e x t l n p u t 定义可与频道一起显示的输入框。 s k i p h o u r s 告诉聚集器哪些小时的更新可以忽略。 s k i p d a y s 告诉聚集器哪一天的更新可以忽略。 3 、 元素虽然是 的可选子元素,但是一个 中可以包含 人任意个数的 。一个项( i t e m ) 代表一条消息,就像报纸或者杂志上的一条 新闻,那么 就是描述了项的大纲, 给出了指向这条项完整内容 的地址。其实一个 可以在自身的 中给出完整的描述,则 允许包含文本( 允许实体编码的h t m l ) ,那么 和 在这种 情况下是可以省略。 的所有子元素都是可选,但是至少需要存在一个 l o 或者 。表2 3 给出了具体元素的名称标示和简要说明: 表2 3 : 的元素 t a b l e 2 3 :t h ee l e m e n t so f 元素简要说明 t i t l ei t e m 的标题 l i n ki t e m 的u r l d e s c r i p t i o n i t e m 的大纲 a u t h o r i t e m 作者的e m a i l 地址 c a t e g o r y包括i t e m 的一个或者多个分类 c o m m e n t s关于i t e m 的注释页的u r l e n c l o s u r e 支持和该i t e

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论