




已阅读5页,还剩3页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
“丁颖杯”大学生课外学术科技作品竞赛参赛作品基于RSS的高校学生综合信息平台的设计赵浜作者简介:赵浜,男,1989年12月生,华南农业大学在校本科生,08级信息管理与信息系统2班,学号200830560229. 陈步青 叶明坚 陈文彬 李传飞 (华南农业大学信息学院,广州 510642)摘 要:本文探讨了基于RSS技术的高校学生综合信息平台的建立及其应用的可行性及技术方案。RSS技术作为互联网上的最新技术之一,它通过XML标准定义了内容的包装和发布格式,使稳定、高效、实时、安全、低成本的信息发布、接收和使用成为可能。基于RSS技术的高校学生综合信息平台实现了信息资源的自动提取与采集以及RSS自定义添加与分享,信息以RSS的格式发布,同时对采集到的信息进行分类、在线聚合,可方便用户个性化订阅与分享,具有高共享性、强交互性、高度个性化、知识种类多样化等众多优点,该信息平台的建立可以为我国高校学生提供免费快捷的信息平台,引导广大学子认识到分享也是一种精神,促使学生间学习与生活的互通有无,故该项目具有较广泛的应用前景。关键词:RSS;聚合;信息平台;分享;高校学生Design of integrated platform for college students based on RSSBang Zhao Buqing Chen Mingjian Ye Wenbin Chen Chuanfei Li (South China Agricultural University, Institute of Informatics, Guangzhou 510642)Abstract: This paper discusses the design of integrated platform for college students based on RSS and its feasibility and technical solutions. RSS technology as one of the latest technology on the Internet, which is defined by XML standards for content packaging and distribution format, makes that stable, effective, real-time, secure, low-cost information dissemination, reception and use become possible. RSS-based platform for college students has achieved a comprehensive automatic extraction of information resources and collection.Through it,information is released in RSS format, while classification of the information collected, online aggregation, individual users can easily subscribe to.With a high share, stronginteractive, highly personalized, knowledge, and many other types of diversification benefits, the establishment of the exchange platform for college students in China to provide free and efficient communication platform to promote the majority of students studying and living among the exchanges, so the project has a widerapplication prospects.Key words: RSS; polymerization;exchange platform;share;college students随着信息技术的快速发展,信息资源数字化、网络化趋势日益明显。传统的海报、校园广播、纸质通知等已不再是校园信息传播的主要渠道,人们更多地开始借助网站来发布和获取信息。面对日益剧增的信息资源,用户一般只能借助网络搜索引擎获取自己关心的信息。但对于新闻、通知、公告这类频繁更新的信息,通过搜索引擎方式获取的信息无法保证是最新的。因此用户要想获取最新的信息,必须遍历各个自己关注的网站获取。在一些栏目甚多的网站中,用户往往需要进行三次甚至更多的点击才能看到最终的内容页面,而且很多信息都是因为关注不够及时而过期的。如何快捷高效地筛选并整合对用户有用的知识变成了难题。同时,个性化学习一直是教育者所追求的理想境界。计算机多媒体技术和网络通信技术的飞速发展,网络所具有的强大交互性和分布式特点为个性化学习提供了技术上实现的可能。网络学习为学习者提供了大量个性化学习资源,但学习者经常无法快速准确地找到自己所需的学习资源。通过RSS技术提供的个性化信息推送服务,可以解决上述所有问题。它可将学生感兴趣的信息推送到他们面前,让信息主动找学生,实现了信息的主动和个性化服务,从而提高学生学习与交流的效率,帮助学生实现个性化的网络学习与交流。1 RSS技术1.1 RSS简介RSS 作为信息交流方式的一种标准,起源于Netscape(网景公司)的“推”技术。其本质是实现信息聚合的技术,是站点与站点、站点与用户之间共享内容的一种简易信息发布和传递的方式。RSS的具体含义与其版本有关,最初的版本为RSS 0.90,其全称为RDF site summary(RDF站点摘要),但随着RSS 0.91版本的出现,RSS被重新命名为Richsite summary(丰富站点摘要)。在随后出台的RSS 0.92,RSS 0.93和RSS 0.94等版本,为了强调其所做的简化工作,将RSS的全称定为Really simplesyndication。RSS目前最新版本为RSS 2.0。RSS文件包含了信息源网站的全部或归纳后的内容,同时也可包含传送内容的附加信息,例如:文章发表日期、作者等。RSS技术的应用既方便了信息提供方也方便了读者,内容提供方可以自动将欲发布的内容发布到订阅者的聚合器内,同时,订阅者可以将自己喜爱的网站聚合在一个RSS聚合器内,并在第一时间获得网站更新的内容。该技术目前已广泛应用于新闻、博客、Wiki、实时资讯、气象预报等1。1.2 RSS基本原理RSS技术是基于XML标准建立的内容包装和投递的协议,它规范了网站发布更新消息时的格式,要求以XML格式记录信息的题目、作者、发布时间、摘要内容、相关的URL地址等。网站更新内容时,只需要按照RSS标准生成同样形式的文件,RSS订阅工具可以检测网站发布文件并自动地将更新的文件下载到本地。用户通过RSS reader可以浏览到相应频道给出的信息列表,通过刷新可以查看最新的频道更新内容。同时通过相应的URL地址可以链接到原始网站查看详细内容。RSS搭建了一个信息迅速传播的平台,使得用户可以不用逐个登陆网站而实时获取最新消息。RSS标准规定的XML格式文件使得文件中包含的信息能直接被其他站点调用,同时也能在其他的终端和服务中使用2。1.3 RSS体系结构RSS的体系结构主要由内容提供者(Contentprovider)、RSS聚合器(RSS Aggregator)和浏览器(Viewer)三部分组成,如图1所示。图1 RSS体系结构(1)内容提供者:提供的内容一方面包括完整内容的页面,另一方面还要提供对该内容进行描述RSS文件。(2)RSS聚合器:定时到众多的消息源读取最新RSS文件,汇总并进行索引,并按索引提供读者已定制的特定主题的消息。RSS聚合器主要有在线(Centralized)和桌面(Personal)2种类型。(3)浏览器:以用户订阅为基础,标题浏览器得到用户的请求后,连接到RSS聚合器,获取文档链接源,并显示给读者。读者在浏览消息时,可以通过点击消息标题的链接,直接进入内容提供者的网站阅读详细内容3。1.4 RSS文档结构所有的RSS文档必须遵循W3C网站上公布的XML 1.0规范。在一个RSS文档中,首先要对XML进行声明,定义文档中使用的XML版本和字符编码;根元素是,带有一个必备属性version,用以指明该文档遵循的rss规范。元素只有一个子元素用于描述RSS feed。元素有3个必需的子元素: 频道的标题、频道的超链接和频道描述。一个元素可拥有一个或多个元素,每个元素可定义RSS feed中的一篇文章。元素有3个必需子元素: 项目的标题、项目的超链接和项目描述。和都可以分别包含若干个子元素,子元素必须成对使用。文档最后为2行关闭和元素4。RSS文档结构如下:频道名称频道URL频道描述项目标题项目URL 项目描述项目来源2 系统框架与功能分析2.1 系统框架设计基于RSS的高校学生综合信息平台的个性化服务体现在用户可以定制频道内容,实现的关键在于收集用户个性设置。通过RSS订阅页面,收集用户个性设置,用于生成RSS频道描述信息。最终通过网站内置的简易RSS阅读器将用户定制内容展示在个人空间。本平台系统总体设计采用目前比较流行的轻型框架组合SSH(Struts、Spring、Hibernate)实现,在此不对其特性及运行机制进行详细介绍,仅展示网站整体构造框架与RSS的应用过程,如图2、图3所示。图2 网站整体结构RSS订阅页面收集用户个性设置信息,并将其存入个性设置数据库。RSS频道生成器根据用户识别代码,从个性设置数据库读取个性设置信息,用于查询公告信息和数据库,生成频道信息。用户可直接登录个人空间进行定制信息的阅读。图3 RSS 功能示意图在用户端,RSS 阅读器可以按照用户喜好。有选择性地将用户感兴趣的内容来源进行“聚合”,为用户提供多来源信息的“一站式”服务。2.2 系统功能分析2.2.1 自动聚合信息资源基于RSS的信息聚合功能,用户只需根据自身需要或兴趣,订阅相应的信息与资源,即可在聚合器获取到符合条件的所有资源,而不必为查找资源遍历各个信息资源网站,节省了大量时间,提高了效率。2.2.2 自动过滤信息资源基于RSS的信息过滤功能,用户还可以通过设置过滤掉不需要或不感兴趣的信息或频道,防止垃圾信息,方便本地资源管理,如文档分类排序、搜索和标记已读未读等多种资源管理功能,所以大大方便了教学信息内容的解读以及管理。2.2.3 自动更新信息资源基于RSS的信息推送功能,服务器端更新的信息资源,会被及时主动地推送到聚合器上,从而确保了最新的信息资源能够在第一时间被发现并使用,用户不必再频繁登录网站以查询资源是否已更新。2.3 信息的采集与发布信息发布功能是网站为用户提供的,用户可自主发布信息,经审核后存入本地数据库,是网站最基本也最简单的功能,为用户间的交流提供最基本的支持,在此不详细叙述。关键的信息采集同样也是网站实现的基础,采集过程分三步实现:第一步,利用HTTP协议,向被采集页面发送请求,得到被采集页面的HTML代码。通过HTML分析器对网页代码进行分析,准确定位信息标题、内容显示页链接、信息内容、发布时间、信息来源等,生成采集配置文件供采集器对信息进行采集,如图4所示。图4 信息提取第二步,采集器通过采集配置文件快速完成信息采集。第三步,将采集到的信息写入数据库进行存储。2.4 以RSS形式发布对于采集到的信息,如果仅仅只是以获取作为目的的话,按照有关的HTML格式就可以发布了。但这只是起到了聚合的作用,没有发挥订阅模式的优势。针对这种情况,在信息发布这个环节采用RSS标准来实现对信息的组织。由于RSS标准的开放性,用户可以使用RSS聚合器很方便地读取RSS文档,同时整个RSS文档的各个标签都定义了很明确的语义,因此在用户获取文档的过程中便能准确地获得整个文档的描述以及相关信息。3 系统实现的关键技术3.1 RSS解析RSS feed就是RSS的Web内容源,有人叫它种子,由于RSS Feed是基于XML标准的,可看作是一种半结构化的数据模型,因此可以使用半结构化数据模型抽取技术,将RSS Feed文档描述与关系数据库中的属性一一对应起来,从而很容易地实现RSS Feed数据源的抽取与存储5。解析RSS 文件的算法如图5所示。图5 RSS 种子解析算法3.2 信息内容过滤在信息内容提取时,为了过滤掉广告、图标等影响用户阅读的杂质,设置了信息内容过滤器,通过对信息内容页面的分析,根据用户设置的过滤条件,对广告等杂质进行过滤。3.3 并行采集为了提高采集效率,系统采用多线程技术对多个任务进行并行采集。主线程根据设置的最大线程数目和执行周期负责对各子线程的调用,子线程负责对各个启动的任务进行采集。3.4 重复内容检测为了在采集时避免信息重复采集,在数据库中设计了抓取的链接记录表,详细记录每一条抓取过的链接,在每次信息采集时将采集到的源标题及其链接与数据库中的抓取链接记录表进行比较,如果抓取链接记录表中存在该条记录,则表示该条信息已经采集,不再进行采集。3.5 编码方式检测由于采集的信息源来自于不同的网站,为了确定其编码方式,设计了编码检测器对其进行检测,由于编码方式一般在网页的开头,因此,编码检测器首先读取网页的前1000字节,然后从中提取编码方式。3.6 RSS信息发布RSS信息发布的核心是RSS Feed,根据RSS Feed提供的地址来及时获取相应的频道信息。生成RSS Feed 的基本步骤为:(1)根据RSS文档结构从数据库中循环读取采集到的数据(2)将相应的字段内容依次匹配到 RSS 文档结构标记中(3)格式化并生成符合RSS定义的 XML标记文本RSS Feed 发布的主要方法有:(1)RSS Feed文件的URL地址用来链接一个动态的页面文件每一个用户访问请求时,都要动态地生成Feed文件,内容更新快,但是用户较多时,会加重系统负担,降低效率。(2)RSS Feed文件的URL地址用来链接一个XML格式文件用户访问时不需访问数据库来动态生成Feed文件,而改由服务器的发布程序自动生成,因此系统响应速度较快,但不能实时更新内容。4 总结与展望通过以上论述,我们知道,利用RSS技术可以使得高校学生综合信息平台具有如下优势:(1)信息过滤:是充当知识和信息的“过滤器”,通过RSS技术让网络形成最好的知识积累方式,可以使得“隐性知识”真正通过网络实现“显性”化;(2)信息搜集:简单进行订阅RSS频道,只要经过一些相关部门的整合,就可以搜集各高校网络上值得关注的信息,如从图书馆网站、或其他系部网站及时获得最新信息;(3)信息推送:把学校网络上的最新信息变动推送给用户;(4)信息交流:通过RSS技术,使得需要不断学习的各位学校用户,可以在很短的时间内,接触最鲜活的思想,浏览全球范围最好的新闻、文章、评论与报告,准确把握最新的热点、观点、动态和趋势;Web20时代下的高校网络信息资源具有信息来源广泛数据量大、描述格式多样、组织方式复杂等特点。依据RS
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教版四年级数学上学期专项归类复习卷(四)《公顷和平方千米、角的度量》(含答案)
- 吉林省松原市前郭尔罗斯县第三中学2024-2025学年八年级下学期4月月考生物试题(含答案)
- 教育咨询招生方案范文
- 甘肃省陇南市成县城关中学2025-2026学年上学期第一次月考八年级历史试卷(含答案)
- 2025年江苏省镇江市中考真题化学试卷(含答案)
- 动态测试方法-洞察及研究
- 常州市委托物业管理合同5篇
- 中级消防设施操作员试题题库测试卷和答案
- 预算考试题及答案
- 初级会计《初级会计实务》模拟题库及答案
- 2025广东汕尾市海丰县公安局招聘警务辅助人员50人备考题库及答案解析
- 消防政府专职队培训课件
- 2025年银行意识形态工作专题研究会议记录
- 档案管理基本知识培训课件
- 2025至2030年中国K12教育行业市场调研分析及投资战略咨询报告
- 四川省2025年普通高校职教师资高职班对口招生统一考试英语试卷
- DB37∕T 4780-2024 超高层建筑物业服务规范
- 从戎装到职场:退役军人心理健康赋能讲座
- 天津农村宅基地管理办法
- 陪诊培训课件模板
- 信贷尽职调查培训课件
评论
0/150
提交评论