(计算机软件与理论专业论文)基于rss的新闻采集系统的研究与应用.pdf_第1页
(计算机软件与理论专业论文)基于rss的新闻采集系统的研究与应用.pdf_第2页
(计算机软件与理论专业论文)基于rss的新闻采集系统的研究与应用.pdf_第3页
(计算机软件与理论专业论文)基于rss的新闻采集系统的研究与应用.pdf_第4页
(计算机软件与理论专业论文)基于rss的新闻采集系统的研究与应用.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(计算机软件与理论专业论文)基于rss的新闻采集系统的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于r s s 的新闻采集系统的研究与应用 学科:计算机软件与理论 研究生签字:徐丑1 忍 指导教师签字: 乏萄 摘要 基于r s s 的新闻采集是信息采集领域内一个新兴而有实用价值的方向。r s s 技术作 为互联网上的最新技术之一,已被广泛接受和应用,丰富的r s s 站点资源正影响着互联 网内容的浏览利用,它通过x m l 标准定义内容的包装和发布格式,使稳定、高效、实时、 安全、低成本的新闻发布、接收和使用成为可能。论文在对r s s 技术进行了深入研究的 基础上,针对企业信息门户中的新闻来源多样化、新闻采集自动化、时效性强等需求,提 出了基于r s s 的新闻采集系统的设计思路,并介绍了系统的功能实现。 根据在新闻采集领域的长期研究以及国内外在新闻采集领域的发展,本文在综述了基 本情况后,分析了现有新闻采集系统的现状和不足,提出了一个基于r s s 的新闻采集结 构模型,这包括r s sf e e d 解析、w e b 页面解析、链接的提取及处理、任务控制等一系列 算法和步骤,分别给出了相关的处理算法和流程。针对研究过程中遇到的问题,提出了多 个新的算法和规律: 在分析了r s s 和x m l 语法的基础上,给出了对r s sf e e d 中新闻链接、标题、摘 要等信息的提取算法; 对r s sf e e d 页面中各种链接进行了分析,给出了链接处理方法和提取流程; 对信息采集技术进行研究,设计了利用网页特征值进行定位的新闻内容提取策略; 在对各大新闻网站进行了研究分析的基础上,总结出了新闻内容在页面中的分布 规律,确定了新闻网页定位的特征参数; 在新闻采集控制过程中,利用多线程技术,设计了并行采集策略。 试验结果显示,在采集系统中利用r s s 技术,可以将多个来源的新闻进行聚合,具 有很强的实用价值,能够满足大型企业门户网站实现新闻采集自动化的需求。该系统的使 用有助于克服现有新闻采集系统过多依赖人工与采集速度慢等不足,降低了人员的工作强 度、提高了采集效率,有效的满足了新闻采集的及时性要求。 关键词:信息采集;新闻采集;r s s ;x m l ;页面解析;内容提取策略 r e s e a r c ha n d a p p l i c a t i o no fn e w s c o l l e c t i n gs y s t e mb a s e do nr s s d i s c i p l i n e :c o m p u t e rs o f t w a r ea n dt h e o r y s t u d e n t s i g n a t u r e :形肜鳓 s u p e r v i s o rs i g n a t u r e :渺办 a b s t r a c t n e w sc o l l e c t i n gb a s e do nr s si san e wa n dp r a c t i c a ld i r e c t i o ni nt h ef i e l do fi n f o r m a t i o n c o l l e c t i n g a so n eo ft h em o s ti m p o r t a n ta n dn e w e s tt e c h n o l o g y , r s sh a sb e e nw i d e l ya c c e p t e d a n da p p l i e d t h er s su s i n gx m ls t a n d a r dt od e f i n et h ep a c k i n ga n dr e l e a s i n go fi n f o r m a t i o n c o n t e n tt h a tm a k e si tp o s s i b l et or e l e a s e ,t r a n s m i ta n d a g g r e g a t en e w si t e m sr e a lt i m ei nas t a b l e a n ds a f ew a yw i t hh i g he f f i c i e n c ya n dl o wc o s t s i nv i e wo ft h en e e d so fn e w ss o u r c e d i v e r s i f i c a t i o n ,n e w sg a t h e r i n ga u t o m a t i o n ,e f f e c t i v e n e s ss t r o n gi ne n t e r p r i s ei n f o r m a t i o n g a t e w a y , r e s e a r c h i n gr s st e c h n i q u ed e e p l y , t h ep a p e rp u t sf o r w a r das o l u t i o nt od e s i g nt h e n e w sc o l l e c t i n gs y s t e mb a s e dr s s o nt h eb a s i so ft h el o n g - t i m es t u d ya n dt h ec u r r e n td e v e l o p m e n tt h r o u g h o u tt h ew o r l do n t h ef i e l do fn e w sc o l l e c t i n g ,t h i sa r t i c l eb r i n g sf o r w a r das t r u c t u r ed e s i g nm o d e lo ft h en e w s c o l l e c t i n gb a s e do nr s s t h i sm o d e lm a i n l yi n c l u d e sr s sf e e da n a l y s i s ,w e bp a g ea n a l y s i s , l i n ke x t r a c t i o na n dp r o c e s s i n g , t a s kc o n t r o la n ds oo n w i t ht h ep r o b l e m si nt h er e s e a r c h p r o c e s st h ep a p e rp u t sf o r w a r ds e v e r a ln e w a r i t h m e t i c sa n dp r i n c i p l e sa sf o l l o w s : b a s e do nt h ea n a l y z i n gr s sa n dx m l s y n t a x ,d e s c r i b i n gt h ee x t r a c t i n ga r i t h m e t i co f h y p e r l i n k ,t i t l ea n da b s t r a c t t h eh y p e r l i n k su s e di nt h er s sf e e dp a g ew e r ea n a l y z e d ,t h eh y p e r l i n kp r o c e s s i n g m e t h o da n de x t r a c t i o nf l o w i n gw e r ep u tf o r w a r d b yt h es t u d yo ft h ei n f o r m a t i o nc o l l e c t i n g ,t h en e w sc o n t e n te x t r a c t i o ns t r a t e g yb a s e d o np a g ec h a r a c t e r i s t i c sw a sd e s i g n e d b a s e do nt h er e s e a r c ha n da n a l y s i so fn e w sw e b s i t e s ,t h er u l e so ft h ed i s t r i b u t i o no f n e w so nt h ew e b p a g ew e r es u m m a r i z e d ,a n dt h ec h a r a c t e r i s t i cp a r a m e t e r sf o rf i x e d p o s i t i o ni nt h ep a g ew e r ec o n f i r m e d d e s i g n i n gt h ep a r a l l e lc o l l e c t i n gs t r a t e g y t h ee x p e r i m e n tr e s u l t ss h o wt h a to u rs y s t e mh a sav e r ys t r o n ga p p l i c a t i o nv a l u ea n di tc a n s a t i s f yt h ed e m a n do fn e w sc o l l e c t i n ga u t o m a t i o no nt h em a j o re n t e r p r i s ep o r t a lw e b s i t e b e c a u s et h es y s t e mu s e dt h et e c h n o l o g yo fr s sw h i c hc a nt o g e t h e rm a n yn e w sf e e d sf o r m d i f f e r e n tw e b s i t e s u s i n go u rs y s t e mi sh e l p f u lt oo v e r c o m et h ef a u l t so fe x c e s s i v e l y , l e s s e nt h e s t r e n g t ho fw o r k i n g ,i m p r o v et h ee f f i c i e n c ya n ds a t i s f yt h et i m e l i n e s sr e q u e s to fn e w sc o l l e c t i n g c o m p l e t e l y k e yw o r d s :i n f o r m a t i o nc o l l e c t i n g ;n e w sc o l l e c t i n g ;r s s ;x m l ;p a g ea n a l y s i s ;c o n t e n t e x t r a c t i o ns t r a t e g y 学位论文知识产权声明 学位论文知识产权声明 本人完全了解西安工业大学有关保护知识产权的规定,即:研究生在校攻读学位期间 学位论文工作的知识产权属于西安工业大学。本人保证毕业离校后,使用学位论文工作成 果或用学位论文工作成果发表论文时署名单位仍然为西安工业大学。西安工业大学有权保 留送交的学位论文的复印件,允许学位论文被查阅和借阅;学校可以公布学位论文的全部 或部分内容,可以采用影印、缩印或其他复制手段保存学位论文。 学位论文作者签名:镓互 怨 指导教师签名: 日期: 矿 造她 6 1 学位论文独创性声明 学位论文独创性声明 秉承学校严谨的学风与优良的科学道德,本人声明所呈交的学位论文是我个人在导师 指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地 方外,学位论文中不包含其他人已经发表或撰写过的成果,不包含本人已申请学位或他人 已申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的任何贡献均已 在论文中作了明确的说明并表示了致谢。 学位论文与资料若有不实之处,本人承担一切相关责任。 学位论文作者签名: 指导教师签名: 日期: 镰虱 芝甄 1 绪论 1 1 课题来源及研究意义 1 绪论 在全球互联网发展日新月异的今天,新闻媒体面临着前所未有的机遇与挑战。层出不 穷的新技术使稳定、高效、实时、安全、低成本的新闻发布、接收和使用成为可能。r s s 技术是互联网上的最新技术之一,该技术具有良好的时效性、可操作性和互动性,通常被 用于新闻和其他按顺序排列的网站、论坛、b l o g 等【1 1 。论文对r s s 技术和信息采集技术 进行了深入研究,并在此基础上提出了新闻采集系统的设计与实现方案。 1 1 1 课题来源 本课题来源于西安博达软件公司在研产品:企业信息门户 1 1 2 研究意义 每天当我们打开一个又一个网站,查看新闻的时候,都会觉得特别不便,而随着一个 个网站而来的广告也一定使大家感到心烦。而一些小型门户网站的维护者更是为了每天对 新闻信息的及时更新而觉的非常不便。基于r s s 的新闻采集系统则可以有效地解决这些 问题。 在基于r s s 的新闻采集系统中以信息采集技术为基础,利用r s s 这一互联网上的最 新技术,可以将不同网站的新闻信息进行聚合,实现新闻信息的及时采集和发布,使用 户能够快捷、方便地获得新闻信息,从而提高获取新闻信息的时效性和用户满意度。该 系统将具有以下特点: 能够将不同的网站的新闻信息进行聚合; 新闻信息采集的速度快,准确度高; 用户的操作简单、方便; 能够实现用户对及时更新的要求; 不会给用户带来广告之类的干扰。 总的来说,新闻采集系统不论是在理论意义上还是在实践价值上都有很大的研究必要 性。 理论上,网上新闻资源丰富但却非常分散,难以有效进行筛选并合理组织,新闻采集 系统的研究与应用很有必要性。 实践上,作为企业信息门户网站内容维护系统的一部分,该系统可以避免人工搜集发 布网站新闻信息,减少人力,提高新闻更新速度。作为一个独立系统,该系统可以作为个 人浏览新闻信息的一个窗口,为用户浏览网络新闻带来方便。 另外,随着r s s 技术的发展,各类r s s 源的相继推出,基于r s s 的采集技术将应用 1 西安工业大学硕士学位论文 于更为广阔的领域,比如网络文摘、行业知识性采集等等。 1 2 国内外研究现状分析 1 2 1 新闻采集技术研究现状 随着i n t e r n e t 应用的逐渐普及,v o w w 已经发展成为一个巨大的分布式信息空间,为 用户提供了一个极具价值的信息源。但因i n t e r n e t 所固有的开放性、动态性与异构性,又 使得用户很难准确快捷地从硼硼r 上获得所需信息【2 1 。因而基于w w w 的网上信息的采集、 发布和相关信息处理日益成为人们关注的焦点,为此,人们发展了以w e b 搜索引擎为主 的检索服务。 为了解决网上信息检索的难题,人们在信息检索领域进行了大量的研究,开发了各种 搜索引擎。这些信息检索的目标大多是尽可能多地采集信息页面,这样做的一个极大好处 是能够集中精力在采集的速度和数量上,并且实现起来也相对简单。但是,随着w 瑚信 息的爆炸性增长,w e b 信息急速膨胀,通过搜索引擎检索到的信息依然十分巨大,并且 其中的许多信息都与用户需要的信息不相关,这样用户依然很难找到自己需要的信息。因 此有必要开发一些工具把相关信息从网页上抽取并收集起来。信息采集系统便是为了适应 这一需要而产生的,它将分散在不同网站上、表现形式各异的同一主题的信息收集在一起, 以结构化形式显示在指定的页面或存储进数据库以方便用户以后对信息快速、准确的查 找。 目前比较权威的信息采集系统有s t a l k e r 系统、w h i s k 系统等,s t a l k e r 系统 采用指导学习的算法归纳抽取规则,利用符号系列( 字、h t m l 标记) 和通配符被作为 定位标志,来找到页面上的数据,可有效的处理文本,但不能处理链接信息。w h i s k 系 统采用循环标注和学习的指导学习算法,其能处理的文本对象很全面,但需要手工输入一 系列的学习例子,以使系统得到比较完全的学习。基于信息采集技术的新闻采集在国内外 的一些大型门户网站也已有一定应用。 1 2 2 现阶段新闻采集发展的障碍与不足 现在市场上提供了许多实现新闻采集功能的产品,但是他门提供的产品基本都是实现 对网站的新闻的实时采集。它可以满足对新闻收集的及时性的要求,但是同时也带来一些 无法弥补的弊端: 1 ) 系统提供的新闻信息量极大,用户处理起来比较困难现在方便、广阔的互联 网技术已经使我们无法摆脱它对我们带来的影响,它提供给我们有用新闻信息的同时,也 为我们提供了更多的垃圾新闻。然而一旦它提供给我们,为了得到有用的新闻信息,我们 就必须进行处理,由此带来的麻烦可能比自己去找有用的新闻信息更多; 2 ) 对系统的硬件要求比较高,增加了成本市场上提供的新闻采集系统基本是基于 因特网进行搜索,而因特网提供的信息量之大是可想而知的。用户要采集新闻,就需要对 2 西安工业人学硕士学位论文 采集的新闻进行处理,而处理这些新闻要依靠计算机实现的话,就需要计算机的硬件的配 置特别高,而高配置的计算机设备必然增加大量成本: 3 ) 不系统,不规范,无法满足用户的特殊需求既然提供大量的新闻,就不一定能 系统,也可能不规范。无法获得特定的新闻,更无法满足用户专门的需求。如果用户要实 现把具有特定新闻采集出来,并保存到数据库中供发布使用的话,市场上提供的薪闻采集 产品很难实现。 基于此,本文研制开发了基于r s s 的新闻采集系统,该系统为用户提供友好的操作 界面,用户可以根据自己的需要采集定制自己感兴趣的新闻;并把采集到的新闻以一定的 格式保存到数据库中。对于已经采集存储的新闻,用户还可以利用企业信息门户系统中的 新闻组件以指定的格式将无杂质的新闻发布出去。 1 2 3r s s 技术的发展现状 由于网络资源的巨大和分布式等特点,使得用户能快速、高效、低成本的获取感兴趣 的信息日渐成为获取网络资源的主要问题和需求。r s s 技术适应了这样的需求,成为了 一种很有前途的解决方案。j u p i t e rr e s e a r c h 公司副总裁m i c h a e l g a r t e n b e r g 预计1 3 j :“不久 的将来,r s s 将成为一种主流技术,彻底改变人们的阅读习惯 。目前,r s s 技术在西 方发达国家,尤其是美国,已经达到了相当大的规模。在国内,r s s 技术近两年来也有 了飞速的发展,虽然基于r s s 的网络信息检索服务在国内尚处于起步时期,但也已经存 许许多多的网站尤其是大型门户网站都已经或将要开始提供r s s 网络信息检索服务,而 提供r s s 来源的网站已经遍布网络的各个角落。可以相信,随着技术的成熟和应用的推 广,网络信息聚合将代表网络信息检索服务下一步的发展趋势。 1 ) r s s 的历史与发展前景 r s s 技术诞生于1 9 9 9 年的网景公司( n e t s c a p e ) 【4 1 。当时网景公司定义了一套描述新闻 频道的语言r s s ,用于将网站内容投递到n e t s c a p en a v i g a t o r 互联网浏览器中。但由于 公司内部商务决策、当时互联网内容匮乏等诸多原因,网景最终只发布了一个0 9 版本的 规范。微软当时也推出了类似的数据规格,与r s s 非常接近,试图利用新闻频道的架构 把“推 ( p u s h ) 技术变成一个应用主流,捆绑在正浏览器中与n e t s c a p en a v i g a t o r 抗衡。 不过无奈的是,由于当时互联网访问速度慢、内容缺乏、用户不熟悉等原因,这个“推 技术自始至终没有得到市场的广泛支持。 但是随着时间的推移,r s s 技术随着x m l 技术的发展和博客群体的快速增长,逐渐 被人们广泛地接受,其应用范围也已经跳出单纯的博客圈,成为新闻传媒、电子商务、企 业知识管理等众多领域的不可缺少的新技术。2 0 0 1 年,r s s 技术标准的发展工作被戴夫温 那( d a v ew i n e r ) 的公司u s e r l a n d 所接手,继续开发新的版本,以适应新的网络应用需 要。通过戴夫温那的努力,r s s 升级到了0 9 1 版,然后达到了0 9 2 版,并随后被众多的 专业新闻站点所接受和支持。在广泛的应用过程中,众多的专业人士认识到需要组织起来, 3 西安工业大学硕士学位论文 把r s s 发展成为一个通用的规范,并进一步标准化。一个联合小组根据w 3 c 新一代的语 义网技术r d f 对r s s 进行了重新定义,发布了r s s1 0 版,并把r s s 定义为“r d fs i t e s u m m a r y 。 戴夫温那在2 0 0 2 年9 月独自把r s s 升级到了2 0 版本,并交由哈佛大学法学院 b e r k m a n 互联网和社会学中心进行维护。而r s s1 0 版则仍然由w 3 c 联合小组维护。r s s 由此开始分化形成了r s s0 9 x 2 0 和r s s1 0 两个阵营。 尽管不同的r s s 版本对r s s 的定义不尽相同,但是对r s s 的理解仍然存在一致的地 方,各方都认为r s s 是一种信息聚合格式,再就是都承认r s s 是基于x m l 的。另外, 从情报学的角度考虑,r s s 本质是一种比较简单的元数据格式。抛开“r s s ”这三个字母 所代表的含义,我们可以这样理解r s s 的狭义定义:r s s 是一种基于x m l 的、可扩展 的、用于聚合网络信息的元数据格式。从广义上理解,r s s 是一种涉及多种概念、包括 多种相关技术的一个体系。 随着越来越多的站点对r s s 的支持,r s s 已经成为目前最成功的x m l 应用。r s s 搭建了信息迅速传播的一个技术平台,使得每个人都成为潜在的信息提供者。相信很快我 们就会看到大量基于r s s 的专业门户和聚合站点。 2 ) r s s 技术应用现状 近年来,r s s 技术在国内外的发展异常迅速,已经达到了相当大的规模。据不完全 统计,美国提供r s s 内容的网站数目从2 0 0 1 年9 月的1 千余家激增至2 0 0 4 年9 月的1 9 万5 千余家,短短的三年中增长了近1 5 0 倍,r s s 用户数也取得了飞速发展,从2 0 0 1 年 8 月的1 0 万激增到2 0 0 4 年8 月的近9 百万,市场的飞速发展令人瞩引5 1 。r s s 技术在国 内的应用较国外稍晚,r s s 技术的普及和市场的发展正处于启蒙时期,但发展迅速。目 前,r s s 技术的主要应用领域是网络新闻、b l o g 、电子出版、电子商务等。 r s s 技术这种曾经被遗弃的技术之所以能在近年来迅速流行,b l o g 功不可没。b l o g 是个人或群体以时间顺序所作的一种记录,并不断的更新,b l o g 之间的交流主要通过回 溯应用、留言、评论等方式进行。b l o g 中大量采用r s s 技术,对读者来说,通过r s s 订阅其他人的b l o g ,以随时跟踪b l o g 作者最近的更新,对b l o g 作者来说,可以低 成本的发布自己的b l o g ,以使其迅速推广,而且可以使自己发布的文章易于被计算机程 序理解并摘要。目前,绝大多数b l o g 站点提供r s s 功能,有的提供多种版本的r s sf e e d 。 网络新闻、电子出版也是r s s 技术的主要应用领域。通过r s s 技术向公众提供免费 的r s s 新闻标题,让更多的人了解媒体,更及时便捷地得到第一手新闻信息,有助于提 高媒体的品牌和市场,在激烈的市场中取得竞争优势。目前,一些比较知名的门户网站、 电子出版媒体逐渐提供r s s 订阅功能,例如国外的c n n ( h t t p :w w w c n n c o m s e r v i c e s r s s ) , 华尔街日报电子版( h t t p :o n l i n e w s i c o m p u b l i c p a g e 0 _ 0 8 1 3 h t m l ) 、纽约时报电子版 ( h t t p :w w w n y t i m e s c o m s e r v i c e s x m l r s s ) 等,国内的网络媒体有新浪网( h t t p :r s s s i n a c o m c n ) 、新华网( h t t p :w w w x i n h u a n e t c o m r s s h t m ) 等。 4 西安工业大学硕士学位论文 r s s 技术的出现为电子商务的发展提供了新的契机,在美国市场调查数据统计公司 e m a r k e t e r 评出2 0 0 5 年期间电子商务的十大新走向中,r s s 技术位列第二,由此可以看出 r s s 技术在电子商务领域的应用前景。作为全球综合性b 2 b 电子商务网站旗舰的阿里巴 巴,已在其国际站a l i b a b a c o m 正式运用和推广r s s 技术。阿里巴巴国际站的会员可以在 每日商机、新产品展示页面轻松方便地使用这种技术,并且可以通过关键字搜索建立起更 加具有针对性、更能满足不同会员个性化需求的r s sf e e d s 。 作为一种新兴的信息技术,r s s 技术的应用才刚刚开始,其应用领域在不断的扩展 中。随着人们接收信息的习惯改变,网络信息环境的变化以及新的商务模式的创新,r s s 技术的应用必将进一步普及和推广。 1 2 4r s s 技术应用于新闻采集系统的优势 r s s 具有一定的语义承载能力,解析处理也相当方便,对于数据量不大,数据语义 比较简单的数据类型比较适合,尤其是新闻类信息,一般都采用r s s 方式。 1 ) r s s 的技术优势 作为一种处于发展时期的信息技术,不管是对信息的接收者、提供者,还是整个互联 网来说,r s s 的出现都是网络信息技术的一个突破,r s s 的技术优势主要表现在以下几 个方面: 首先,r s s 技术提高了网络信息的利用效率。互联网的飞速发展在创造丰富的信息 资源的同时也带来了“信息爆炸”问题,个人所需要的只是互联网信息很小的一个部分, 信息资源的合理配置才能实现其效用的最大化,r s s 技术允许信息接收者有选择的订阅 自己所需要的信息,而且在收到摘要信息后有选择的获取详细信息,这在很大程度上提高 了网络信息的利用效率,这是其一。其二,信息接收者通过r s s 技术可以把目标信息聚 合到r s s 阅读器或r s s 聚合门户中,省略了中间的导航页面,不但直接、方便,而且减 少了被迫接收广告等信息污染的可能性。第三,作为一种“推 技术,r s s 技术能按照 一定的频率主动把相关信息推送到信息接收者的浏览器里,并通过一定方式表明信息的发 布时间,大大提高了网络信息利用的时效性,这也是网络信息利用效率提高的一个重要方 面。 其次,r s s 技术为网络信息的个性化利用提供了方便。作为一种网络信息元数据格 式,r s s 技术被广泛用于诸如新闻、电子商务、个人b l o g 、电子出版等多种网络信息 源的发布,信息接受者根据自己的喜好,通过r s s 阅读器或r s s 聚合门户有选择性地将 感兴趣的多来源信息聚合在一个统一的界面中,并根据需要进行诸如更新频率、排序方式、 自动存档等相关设置,充分体现信息利用的个性化。 再次,对信息发布提供者来说,r s s 技术降低了信息的发布成本,提高了发布时效。 作为一种基于x m l 的元数据格式,r s s 技术适合多种形式的网络信息发布,而且在技术 实现上非常简单,信息发布的边际成本趋近于零。r s s 技术秉承“推 信息的理念,新 5 西安工业大学硕士学位论文 信息能在第一时闻被“推静到用户端阅读器中,极大地提高了信息的时效性和价值。 最后,r s s 技术提高了互联网信息的组织结构性。信息发布主体复杂、信息发布形 式多样、信息发布时间不确定、信息的结构化程度不一等特点导致了互联鬻除了具有信息 量大、资源丰富等优点之外、还有无序、组织结构性差等缺点。r s s 技术的出现在一定 程度上提高了互联网信息的组织结构性,因为r s s 本身是一秭元数据格式,每一个r s s f e e d 就是一系列网络信息页面的描述元数据,随着r s s 技术普及推广,提供r s sf e e d 的网络信息也就越来越多,整个互联网的结构性、组织性就会得到很大的改善。 2 ) r s s 应用于新闻采集系统的优势 r s s 通过x m l 标准定义新闻的包装和发布格式,所以任何新闻源都可以采用这种方 式束发布新闻,使新闻提供者和接收者都能从中获益。对于新闻提供者来说,r s s 技术 提供了一个实时高效的新闻发布渠道;对于新闻接收者来说,r s s 技术提供了一种崭新 的阅读体验。r s sf e e d 可看作是一种半结构化的数据模型,它使用半结构纯数据模型抽 取技术,可以很容易地将其内容与关系数据库中的属性一一对应起来,从而实现精确数据 抽取。r s s 作为互联网上的最薪技术之一,它应用于新闻采集系统有以下几点优势f 6 】: a 、新闻来源多样、聚合个性化的优势任何新闻内容源都可以采用r s s 这种内容 包装定义格式来发布信息,而现在随着r s s 技术的日益成熟,网络上以r s s 形式发布的 新闻来源已经菲常普遍,基本上各大新闻媒体都提供r s sf e e d 。利用新闻采集系统,用 户可以按照囱己的喜好从多个r s sf e e d 抓取感兴趣的新闻,方便地得到这些经过组织、 、汇总的薪闻。 b 、技术难度低、新闻发布时效强的优势r s s 是一种简单和成功的x m l 应用,实 现容易。r s s 技术秉承“推 的概念,当新闻内容在服务器数据库中出现时第一时间被 “推 到用户端阅读器中,极大地提高了信息的时效性和价值。此外,服务器端新闻的 r s s 包装在技术上易于实现,而且是一次性的工作,使长期的新闻发布成本几乎降为零, 是传统的发布方式无法比拟的。 c 、信息无干扰、资料可管理的优势用户根据自身喜好以“频道 的形式订阅值得 信任的内容来源,用户具有对订阅内容的控制筛选权,没有广告或者圈片来影响标题与 概要的阅读,并可对下载内容进行离线阅读、存档保留、搜索排序、分类等操作。 1 3 论文研究的主要内容 1 3 。1 研究的主要内容 近年来,随着i n t e m e t 技术的发展,各种各样的信息充斥着互联网,计算机用户想要 快速搜索到对自己真正有用的信息变得十分困难,因此,基于w w w 的网上信息的采集、 发布和相关信息处理日益成为人们关注的焦点,各种信息采集软件也相继而出,但是随着 人们对提供的各项信息服务要求越来越高,传统的基于整个w e b 的信息采集也越来越力 不从心,它无法及时地采集到足够的w e b 信息。本项秘针对网上资源丰富但却分散难以 6 两安t 业大学硕士学能论文 有效进行筛选并合理组织的现状,结合r s s 技术和信息采集技术提出了基于r s s 的新闻 采集系统。本项目的主要实现的功能为: d 实现网络新耀信息的本地化、结构化畿够准确、快速的将分散在不同网站上、 表现形式各异的新闻信息收集在一起,以结构化的形式在页面上显示出来或者存储进数据 库以方便用户以后对新闻信息的搜索显示。 2 ) 实现网络新闻信息的全自动添加能够根据用户的需求,自动将新闻信息进行及 时更新,使用户能够更高效、便捷地跟踪网络信息变化。 为了实现以上功能,需要研究的主要内容如下: 1 ) 站点内容分析分析各类新闻站点数据,建立数据抽取模型,并根据系统的需要 对站点内容进行分析,区分出哪些是和新闻相关的内容( 新闻标题、摘要、内容等) ,哪 些不是和新闻相关内容( 广告等) 。 动重复新闻处理对重复新闻进行识别过滤,将更新的新闻和已采集的新闻区分开 来,以便新闻采集时不稃对重复新闻进行提取。 3 ) 新闻内容抽取将站点中更新的新闻条目及其内容等相关信息抽取出来,通过对 新闻嬲站的特点的分析提出适用的内容抽取方法。 、 4 ) 新闻内容持久化将抽取出来的新闻内容以结构化形式存储在数据库中。 匀显示新闻信息根据用户需求将新闻信息以友好直观的方式在页面上显示出来。 1 3 2 论文组织结构安排 论文的第一章介绍了选题的背景及意义、国内外对相关内容的研究现状,论述了r s s 技术应用于新闻采集系统的优势并简单说明了论文的主要工作;第二章对研究过程中所用 到的理论和技术进行了介绍和分析,包括r s s 相关技术标准、j a v a 相关技术以及b s 三 层体系结构的选择;第三章是从系统架构、系统功能及系统数据库等方面对系统进行了分 析;第遥章主要分析了在基于r s s 的新闻采集系统中实瑰新闻采集功麓的开发过程的一 些关键技术问题,并提出了相关解决方案,对采集中的关键问题页面的解析进行了具体的 阐述;第五章搂述了系统的实现平台及系统的具体实现,并对实现结果进行了分析;第六 章是论文的总结及对未来工作的展望。 7 2 相关理论与技术支持 2 相关理论与技术支持 我们在基于r s s 的新闻采集研究时主要用到的技术是r s s 技术和信息采集技术。由 于r s s 是一种基子x m l 标准,并在互联网上被广泛采用的内容包装和投递协议,所以 深入研究x m l 技术标准、x m l 标准的各种应用及x m l 文档的结构对于研究r s s 技术 及其解析是很重要的依据。本章中首先详细贪绍了笔者对予x m l 标准及豳麓比较流行的 r s s 2 0 技术规范的研究。本章第二节对信息采集技术中的信息提取、h t m l 解析以及数 据抽取技术进行了概述。 2 1r s s 技术 r s s 是互联网内容联合发布系统髂种格式,它提供了以简单、标准的方式发表站 点内容的规范,随着越来越多的站点对r s s 的支持,r s s 已经成为目前最成功的x m l 应用,典型应用包括r s s 新闻聚合、网络i 志等。r s s 规范援定了r s s 穗子的结构,r s s 种子使用x m l 规范描述,是标准的x m l 文档,因此可以用x m l 解析器来处理r s s 种 子。本节将对r s s 技术及其应用到的x m l 和r s s 的标准规范进行介绍和研究 7 i t s 。 2 1 1i 峪s 技术及其应用 r s s l 9 1 是一种用于共享新闻和其他w e b 内容的数据交换规范,起源予溺景的箍技术, 是一种基于x m l 标准的s y n d i c a t i o n 技术和在互联网上被广泛采用的内容包装和投递协 议,霹以是r e a l l ys i m p l es y n d i c a t i o n ( 真正简单的整合) 、r d fs i t es u m m a r y ( r d f 站点 摘要) 、r i c hs i t es u m m a r y ( 丰富站点摘要) 3 个解释的其中一个。r s s 通过x m l 标准定 义内容的包装和发布格式,为内容提供者提供实时、高效、安全、低成本的信息发布渠道, 是一种增加网站流量、推广网站品牌、更好为用户服务的重要手段;为内容接收者提供崭 新阅读体验,不用一个个去打开页面即能很快地知道所关注网络内容是否更新。具有信息 来源多样、聚合个性化、发布的高时效和低成本、无干扰、资料可管理等优点瑟o l 。 r s s 技术还没有被使用前,即在传统w e b 浏览方式中,用户需要打开多个浏览器窗 曰,进入不嗣的门户网站,再从这些站点寻找感兴趣的标题,点击穗应的链接怎才麓看到 目标信息。即在一些大的门户网站,用户往往需要3 次甚至更多的点击才能看到最终的内 容页面,并且这些内容可能是过麓的,如图2 。1 所示。 当r s s 技术被广泛使用后,用r s s 订阅w e b 信息,可看作是一种内容阅读的“直销 模式,用户可以在r s s 聚合站点或r s s 阅读器中有针对性地订阅自己感兴趣的信息源。 利用r s s 技术,目标信息源将内容提要( f e e d ) 袋p 时传送到聚合站点或r s s 阅读器中。用 户只要访问一个自己定制的聚合站点甚至打开个软件r s s 阅读器或r s s r p ,就可以 获取所感兴趣的信息,而且这些信息怒即时的,如图2 。2 新示。 8 西安工业大学硕士学位论文 图2 1 传统w e b 浏览方式图2 2r s s 订i 弼w e b 方式 图2 1 和图2 2 反映出了r s s 技术的订阅机制比传统w e b 浏览方式优势所在【1 。从 表面上看r s s 订阅信息方式的功能如同收藏夹,但如果用户订阅了几十个、几百个网站 的信息,且这些网站中每日只有少数的内容进行了更新,完全没有必要把所有这些网站都 逐个浏览,而r s s 的浏览方式正是按照用户的要求只显示所订阅的各个网站的更新内容, 也就是说r s s 订阅的本质在于“同步更新 1 1 2 。 2 1 2 x m l 标准 为达到信息采集的目的,信息发布者需要以一种通用的格式描述所要发布的信息。由 于x m l 具有扩展性、形式与内容分离、自描述性、平台无关性和健壮性的优点,可扩展 标记语言x m l 是实现信息交换的一种最佳选择【1 3 1 。x m l 的标准如下: 1 ) x m l 标准概述 x m l 代表e x t e n s i b l em a r k u pl a n g u a g e ( e x t e n s i b l em a r k u pla n g u a g e 的缩写,意为可 扩展的标记语言) 。x m l 是一套定义语义标记的规则,这些标记将文档分成许多部件并对 这些部件加以标识。它也是元标记语言,即定义了用于定义其他与特定领域有关的、语义 的、结构化的标记语言的句法语言。其具体标准如下: a 、x m l 是一种元标记语言用户可以定义自己需要的标记,用来描述一定数目的 元素。这些标记必须根据某些通用的原理来创建,但是在标记的意义上,也具有相当的灵 活性。x m l 定义了一套元句法,与特定领域有关的标记语言( 如m u s i c m l 、m a t h m l 和 c m l ) 都必须遵守。如果一个应用程序可以理解这一元句法,那么它也就自动地能够理 解所有的由此元语言建立起来的语言。浏览器不必事先了解多种不同的标记语言使用的每 个标记。事实是,浏览器在读入文档或是它的d t d 时才了解了给定文档使用的标记。 b 、x m l 标记描述的是文档的结构和意义它不描述页面元素的格式化。可用样式 单为文档增加格式化信息。文档本身只说明文档包括什么标记,而不是说明文档看起来是 什么样的。 9 西安工业大学硕士学位论文 c 、x m l 是自描述的x m l 标准中的标记可有三类意义:结构、语义和样式。结构 将文档分成元素树。语义将单个的元素与外部的实际事物联系起来。而样式指定如何显示 元素。结构只是表达文档的形式,而不管单个标记和元素间的差别。语义的意义存在于文 档之外,在作者的心中或是读者或是某些生成或读取这些文件的计算机程序中。 d 、x m l 可以作为应用间交换数据使用x m l 而不是专有格式,人们就可以利用 任何理解x m l 的工具来处理数据。还可以为不同的目的使用不同的工具。一个程序用来 查看而另一程序用来编辑。x m l 使用户不必因为数据已经用专有格式编写好了或是接受 数据的人只接受专有格式而限制在一个特定的程序上。 e 、x m l 文档是结构化和集成的数据x m l 对于大型和复杂的文档是理想的,因为 数据是结构化的。这不仅使用户可以指定一个定义了文档中的元素的词汇表,而且还可以 指定元素之间的关系。x m l 也提供客户端的包括机制,可以根据多种来源集成数据并将 其作为一个文档来显示。数据还可以马上进行重新排列。数据的各个部分可以根据用户的 操作显示或隐藏。 2 ) x m l 文档的处理过程 a 、编辑器x m l 文档大多数情况下都是用编辑器创建的。编辑器可以是基本的文 本编辑器如n o t e p a d ( 记事本) 或是v i ,这些编辑器并不真正理解x m l 。另一方面,也 可以用所见即所得的编辑器,如a d o b ef r a m e m a k e r ,这种编辑器可将用户完全隔离于 x m l 底层格式之外。另外也可以是一个结构化的编辑器,如j u m b o ,它可将x m l 文档 显示为树状结构。总之,在何种情况下,都是编辑器或其他程序创建了x m l 文档,这一 文档是某种计算机硬盘上的实际文件。 b 、语法分析程序和处理程序x m l 的语法分析程序( 即所谓的x m l 处理程序) 读 取文档并检查其中包括的x m l 是否是结构完整的。它还要确定文档是否合法,虽然这种 测试不是必需的。如果文档通过了测试,则处理程序就将文档转换为元素的树状结构。 c 、浏览器和其他工具语法分析程序将树状结构或是树的节点传送给用户端应用 程序。这个应用程序可能是浏览器,如m o z i l l a ,或是其他能够理解如何处理x m l 数据 的程序。如果这个应用程序是浏览器的话,数据就显示给用户。但是其他程序也可以接受 数据。x m l 是非常灵活的,可以用于许多不同的目的。 d 、x m l 文档处理过程总结首先由一个编辑器创建了x m l 文档。语法分析程序 将树状结构传送给浏览器,由浏览器显示出来。图2 3 显示了这个处理过程。 卜 览轸 浏览器 一用 用户文档编辑器编写 n x m l 文档 图2 3x m l 文件处理过程图 所有这些部分都是独立的,互相分离的。将这些部分联系在一起的是x m l 文档,改 变编辑程序与终端应用程序无关。事实上,很可能在编写文档时就根本不知道最终的应用 1 0 西安工业大学硕士学位论文 程序是什么。可能是最终用户来阅读文

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论