（计算机软件与理论专业论文）网络动态内容挖掘与分类研究.pdf

上传人：灰*** IP属地：宁夏上传时间：2019-12-14 格式：PDF 页数：72 大小：4.31MB 积分：0 举报 版权申诉

已阅读5页，还剩67页未读，继续免费阅读

（计算机软件与理论专业论文）网络动态内容挖掘与分类研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要摘要随着互联网产业的飞速发展，新的互联网技术层出不穷，网络内容呈爆炸式增长之势。面对如此海量、繁杂的互联网信息资源，尤其是以r s s 为代表的网络动态内容，读者的网络阅读行为模式与传统的阅读模式发生了深刻变革，传统的信息挖掘技术显然已经不能满足互联网动态内容高维度、大数据量、动态更新的处理要求。迫切需要针对网络动态内容进行高效整合，其中包括网络动态内容的挖掘、分类、监控、管理以及用户行为追踪与分析等环节。本文在深入研究信息挖掘技术、网络爬虫算法及中文文本分类技术的基础之上，设计实现了网络动态内容挖掘与分类管理系统，主要解决了以下关键问题：设计并实现了基于爬虫算法的r s s 挖掘系统，经实验证明可以对网络动态内容进行高效抓取；利用文本分类技术和聚焦的抓取已分类信息多策略的分类模式解决了动态内容繁杂的问题，实现了对网络动态内容的有效分类和管理；模拟生物成长过程对r s s 种子生命周期进行监控和管理，解决了网络动态内容读物质量良莠不齐，缺乏合理的评估体系的问题；对用户行为进行追踪和分析，为网络阅读形态的研究积累的宝贵的数据基础；以上研究成果，经过在r e a d i g n s 同步阅读平台上的验证，共采集到近万个 r s sf e e d s ，实现了多分类模式下的网络动态内容的有效管理，对超过1 5 0 0 0 个 r s sf e e d s 进行了长达1 年的监控评估管理，同时，在实验过程中获得的大量用户行为数据，为网络用户行为模式的研究提供了强大的数据支撑。关键词：信息挖掘，动态内容，r s s ，网络爬虫 a b s t r a c t 一 a b s t r a c t w it ht h ed e v e l o p m e n to ft h ei n t e r n e ti n d u s t r yf o ro n eo ft h em o s t i m p o r t a n ti n f o r m a t i o nm e d i a ，t h ev o l u m eo fw e bi n f o r m a t i o ng r o w sa s a n e x d l o s i o n t ot h eh u g ea n d m a s s i v ew e bi n f o r m a t i o nr e s o u r c e s ，e s p e c i a l l y t h ew e bd y n a m i cc o n t e n ts u c ha sr s s ，t h er e a d i n gb e h a v i o r so f - t i e w e b r e a d e r sh a v et o t a l l yc h a n g e d ，s ot h et r a d i t i o n a lw a y o fi n f o r m a t i o n m i n i n ga p p a r e n t l yc a nn o ts a t i s f yt h en e e do nw e bd y n a m i cc o n t e n tw i t h h i g hd i m e n s i o n a l i t y ，h u g ed a t av o l u m ea n dd y n a m i c l yc h a n g i n g t h en e e d o fa ne f f i c i e n tw e bd y n a m i cc o n t e n ti n t e g r a t i o ns y s t e mi sv e r ya g g r e s s i v e i n c l u d i n gw e bm i n i n g ，c l a s s i f y i n g ，m a n a g i n ga n d r e a d e rb e h a v i o rp e r s u i n g ， a n a l y s i sa n ds oo n i nt h ep a p e r ，id e s i g na n di m p e l e m e n taw e bd y n a m i cc o n t e n tm i n i n g a n dc l a s s i f y i n gs y s t e mt or e s o l v et h ek e yp r o b l e m sa s f o l l o w ： b yt h er s sm i n i n gs y s t e mb a s e do nc r a w l e rt os c r a t c ht h ew e bd y n a m i c c o n t e n te f f i c i e n t l y ： b vt h et e x tc l a s s i f yt e c h n i q u e sa n df o c u s e dc r a w l e rt or e s o l v et h e d r o b l e mo ft h ew e bd y n a m i cc o n t e n tm a s s i v ea n dh a r dt oc l a s s i f ya n d m a n a g e ： b r o u g h tu pa nr s sf e e d sl i f e c y c l em o n i t o ra n dm a n a g e r m e n ts y s t e mt o r e s 0 1 v et h ep r o b l e mo ft h ec o n t r o lo f t h eq u a l i t yo fw e bd y n a m i c c o n t e n t ： b yt h ep e r s u i n ga n da n a l y s i st h er e a d e rb e h a v i o r st og e tt h ed a t ao f t h ew e br e a d i n gm o d e lr e s e a r c h ； m o r eo v e rb yt h em o n it e ro fm o r et h a n15 0 0 0r s sf e e d s m o r et h a n1y e a r ， w eg e tm a n yt r e a s u r ed a t as o u r c eo f r e a d e rb e h a v i o r s ，w h i c h i st h e i m p o r t a n ts u p p o r to ft h ew e br e a d i n gm o d e lr e s e a r c h k e y w o r d s ：i n f o r m a t i o nm i n i n g ，d y n a m i cc o n t e n t ，r s s ，w e bc r a w l e r 目录图目录图2 1x m l 相关的技术标准。9 图2 2r s s2 0 元素结构图1 5 图2 3g o o g l e 公司的个性化主页i g o o g l e 界面1 7 图2 4 百度公司的个性化主页m y b a i d u 界面1 7 图2 5g o o g l e 公司的r s s 阅读器g o o g l er e a d e r 1 8 图2 6r s s 鲜果阅读器1 8 图2 7r s s 阅读应用模式1 9 图2 8r s s 信息整合模式2 0 图2 9 信息挖掘分类。2 2 图3 1 网络页面结构示例。3 0 图3 2 系统架构3 2 图3 3 爬虫模块架构图3 3 图3 4 爬虫工作流程图。3 4 图4 1 网络文本分类系统流程图3 7 图4 2 分类器训练阶段系统架构图3 9 v i 目录图4 3 分类器分类阶段系统架构图。3 9 图4 4 聚焦抓取的工作流程41 图4 5r s sf e e d s 在r e a d i n g s 平台的展示效果图4 4 图4 6r e a d i n g s 平台下用户行为的展示模式4 6 图5 1 信息挖掘系统的数据流图4 9 图5 2 第二阶段挖掘实验抓取速度趋势图( 国内中文) 。5 2 图5 3 第二阶段挖掘实验抓取速度趋势图( 国外英文) 5 2 图5 4 分类器分类正确率统计。5 5 图5 5 新浪网博客分类检索页面5 5 图5 6r e a d i n g s 用户行为关键词分析。5 7 v i i 目录表目录表2 1 三种互联网信息挖掘类型的属性对比2 5 表3 1 网络爬虫的输出格式3 5 表5 1 第一阶段挖掘实验对比数据( 国内中文) 5 1 表5 2 第一阶段挖掘实验对比数据( 国外英文) 5 1 表5 3 新浪博客检索页面抓取结果统计5 6 表5 4 与通用爬虫式抓取的对比分析5 6 南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定，同意如下各项内容：按照学校要求提交学位论文的印刷本和电子版本；学校有权保存学位论文的印刷本和电子版，并采用影印、缩印、扫描、数字化或其它手段保存论文；学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务；学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版；在不以赢利为目的的前提下，学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名易洙马舻沙汐尸年多月唇日经指导教师同意，本学位论文属于保密，在年解密后适用本授权书。指导教师签名：学位论文作者签名：解密时间：年月日各密级的最长保密年限及书写格式规定如下：南开大学学位论文原创性声明本人郑重声明：所呈交的学位论文，是本人在导师指导下，进行研究工作所取得的成果。除文中已经注明引用的内容外，本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体，均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名：球春即许矽降毛只| 髫e l 第一章导论第一章导论第一节论文的背景随着上世纪9 0 年代后期以来互联网的出现及爆炸式发展，它已经日益成为人们获取信息、进行娱乐、参与沟通、高效工作等的重要手段之一，并从方方面面深刻影响着人类的生活。随着互联网网页的极大增多和网络数据的急剧膨胀，人们感受到了信息浪潮所带来的巨大冲击，互联网已经成为世界上最大的信息资源载体。当互联网成为人类生活的重要组成部分之后，面对其上海量繁杂、多种多样的信息资源，面对那些被掩埋的海量数据下的有效信息，如何有效的组织和管理这些数以百亿b t 计的文档、资源等信息，有效的挖掘其数据背后隐藏的结构化信息内容，让这些信息更有价值，以最有效、便捷的方式呈现给用户；如何在非结构化数据的基础上，让使用者能更加轻松地查寻、访问、处理和使用这些信息，通过持续的人机协作，帮助人们建立并维护一个动态更新的知识库、信息库、资源库，使其为新的应用提供基础，则成为目前亟待解决的问题之一。中国互联网络信息中心( q 州i c ) 于0 9 年1 月发布的数据显示，中国互联网一直处于爆炸式增长状态，截至0 8 年底，中国网站数量达到2 8 7 8 万，网页数量高达1 6 0 亿，同比增长9 0 。有专家指出，如此庞大的信息已经为用户造成信息处理和阅读的负担。所以，如何在信息爆炸的大时代背景下，利用传统信息处理手段与网络动态内容技术自身的特点相结合，探索出一套有效挖掘网络信息资源的方法，使其转变为有限注意力范围内的有价值、高价值资源，便是本文的研究重点。 1 1 1 互联网发展互联网( i n t e i 矾e t ，又译因特网、网际网) ，即广域网、局域网及单机按照一定的通讯协议组成的国际计算机网络。互联网是指将网联网，人们可以与远在千里之外的朋友相互发送邮件、共同完成一项工作、共同娱乐。 1 9 6 9 年底，a r p a n e t 诞生的时候，只有四台主机联网运行。那时，甚至第1 页第一苹导论连局域网( l a n ) 的技术也还没有出现。而到现在，将近“而立”之年的互联网至少运行着1 千6 百万台主机。 1 9 9 5 年1 0 月2 4 日，“联合网络委员会 ( f n c ：t h ef e d e r a ln e t w o r k i n g c o u n c i l ) 通过了一项关于“互联网定义的决议：“联合网络委员会认为，下述语言反映了我们对互联网这个词的定义。 “互联网指的是全球性的信息系统： 1 通过全球性的唯一的地址逻辑地链接在一起。这个地址是建立在互联网协议( i p ) 或今后其它协议基础之上的。 2 可以通过传输控制协议和互联网协议( t c p 口) ，或者今后其它接替的协议或与互联网协议( 口) 兼容的协议来进行通信。 3 可以让公共用户或者私人用户使用高水平的服务。这种服务是建立在上述通信及相关的基础设施之上的。当然，这仅仅是从技术的角度来定义互联网，但这个定义至少向我们揭示三个方面的内容：首先，互联网是全球性的；其次，互联网上的每一台主机都需要有“地址；最后，这些主机必须按照共同的规则( 协议) 连接在一起。互联网始于1 9 6 9 年，是在a r p a ( 美国国防部研究计划署) 制定的协定下将美国西南部的大学：u c l a ( 加利福尼亚大学洛杉矶分校) 、s t a n f o r dr e s e a r c h i n s t i t u t e ( 斯坦福大学研究学院) 、u c s b ( 加利福尼亚大学) 和u n i v e r s i t yo f u t a h ( 犹他州大学) 的四台主要的计算机连接起来。这个协定由剑桥大学的b b n 和 m a 执行，在1 9 6 9 年1 2 月开始联机。到1 9 7 0 年6 月，m i t ( 麻省理工学院) 、 h a r v a r d ( 哈佛大学) 、b b n 和s y s t e m sd e v e l o p m e n tc o r p i ns a n t am o n i c a ( 加州圣达莫尼卡系统发展公司) 加入进来【l 】。由于t c p i p 体系结构的发展，互联网在七十年代迅速发展起来，这个体系结构最初是有鲍勃卡恩( b o bk a h n ) 在b b n 提出来的，然后由斯坦福大学的卡恩( k a h n ) 和温特瑟夫( mc e r f ) 和整个七十年代的其他人进一步发展完善。八十年代，美国国防部采用了这个结构，到1 9 8 3 年，整个世界普遍采用了这个体系结构【2 j 。简单地说，互联网是一个由各种不同类型和规模的、独立运行和管理的计算机网络组成的世界范围的巨大计算机网络全球性计算机网络，它的英文名字叫i n t e r n e t 。组成互联网的计算机网络包括小规模的局域网( u n ) 、城市规模的区域网( m a n ) 以及大规模的广域网( w a n ) 等等。这些网络通过普通电第2 页第一章导论话线、高速率专用线路、卫星、微波和光缆等线路把不同国家的大学、公司、科研部门以及军事和政府等组织的网络连接起来。然而，只用计算机网络或者计算机网络的网络来描述互联网是不恰当的。原因在于计算机网络仅仅是传输信息的媒介，而互联网的精华是它能够为用户提供有价值的信息和令人满意的服务。打个比方，我们去商店买东西时，我们主要关心的是这家商店的商品是否货真价实，以及商店的服务是否和蔼周到，而至于这家商店本身是否华丽富有并不是作为顾客所真正关心的。可以说，互联网是一个世界规模的巨大的信息和服务资源。它不仅为人们提供了各种各样的简单而且快捷的通信与信息检索手段，更重要的是为人们提供了巨大的信息资源和服务资源。通过使用互联网，全世界范围内的人们既可以互通信息，交流思想，又可以获得各个方面的知识、经验和信息。 1 1 2 网络动态内容网络动态内容作为网络信息资源的最重要的一种，是指基于互联网技术的周期性动态更新的网络内容，并主要以r s s 为载体网络信息资源一般是指通过计算机网络可以利用的各种信息资源的总和，主要可以分为网络内容、网络结构、网络访问信息三大类别。其中网络内容来源多种多样、种类复杂，而大量有价值的网络信息资源也被淹没在各种信息海洋之中。由互联网平台自身的动态性、虚拟性、智能性、精确性、敏捷性的特点，决定了网络内容的实时变化，所以，网络动态内容的获取和整合就成为互联网信息处理领域迫切需要解决的问题。其中，动态性是根据用户不同需求，围绕不同的内容主题建立不同的信息库，组成快速信息反馈体系。网络动态内容本身没有物理形态存储和固话的信息，而是通过网络广泛而动态的连接各类分布式的信息源，通过将这些零散的信息资源通过复杂、科学的整合，实现网络信息的有效组织和高效利用。在网络动态内容领域，r s s 技术就成功阐释了网络动态内容的零散、多来源的有效整合。其中，r s s 格式文件就是网络动态内容的载体，通过系统的信息采集、加工、整合、分析，形成针对某一特点主题下的多来源信息的整合存储与展示，是一整套高效的资源优化、信息重构的解决方案。最重要的是网络动态内容的第3 页第一章导论有效集成与整合，不仅给用户带来更加良好的阅读体验，同时从信息集成转化为知识的整合。不仅如此，以r s s 作为载体的网络动态内容可以体现用户行为的个性化，信息用户的需求是多层次、多方面、多学科性的，而r s s 信息整合、订阅的模式从用户使用信息资源的记录中分析用户的个性、兴趣、心理和使用习惯等信息，获取用户的真正信息需求，提供了用户不同个体间的订阅使用差异，主动向用户提供可能需要的信息。第二节研究目的及意义本文在论述了网络信息挖掘、分类技术和r s s 网络动态内容技术的基础之上，详细介绍了网络爬虫的基本原理，同时创新性的在r s s 网络动态内容领域，将网络爬虫技术应用于网络信息挖掘领域，并辅以聚焦的抓取。通过初期的实验数据，证明该系统应用于网络信息挖掘，将非结构化网络信息转化为结构化信息的过程中，通过爬虫抓取和聚焦抓取相结合的手段取得了良好的效果。同时，对用户行为进行跟踪记录，并将其结果反馈于系统中，从而有效改善了系统的使用体验。为网络信息挖掘，尤其是r s s 网络动态内容挖掘和管理监控提供了一个新视角。 1 2 1 研究目的自上世纪9 0 年代以来，随着因特网技术的迅猛发展以及网络的普及化，越来越多的信息通过网络这个媒体进行发布，越来越多的人习惯从互联网上获取资源，可以说互联网已经成为承载信息的一个巨大媒体，随之而来的是网页的极大增多和网络数据的急剧膨胀。根据2 0 0 7 年第十九次中国互联网报告，中国网页总数有4 4 7 亿个，中国网页字节总数为1 2 2 ，3 0 6 g b 【3 】。而根据2 0 0 8 年底发布的中国互联网发展状况统计报告中的数据，中国网民规模继续呈现持续快速发展的趋势。截至2 0 0 8 年6 月底，中国网民数量达到2 5 3 亿人。中国网站数量已达1 9 1 9 万个，年增长率达到4 6 3 【4 j 。然而，面对互联网上的信息不断增加，尤其是其动态变化更新的信息不易捕捉，面对这些海量的互联网信息，随着其迅速成为人类社会最重要的信息媒介之一，网络挖掘技术已经逐步成为信息领域目前研究的重点和热点。于此同第4 页第一苹导论时，搜索引擎技术的发展在近年得到空前提高，有数百、千计服务器组成的网络爬虫穿梭于互联网之上随时随刻获取信息。高效的将上述两种技术结合起来，利用其自身的特点开发出一套高效、低负载的适用于动态内容领域的r s s 网络信息挖掘、分类和管理的解决方案，就是本文的研究目的。 1 2 2 研究意义随着互联网信息规模的急剧扩张，繁杂的网络动态内容越来越难被用户所直接利用，而由于其网络信息的封装格式、实时变化更新的特点，决定了传统的信息挖掘技术显然不能满足网络动态内容的要求。那么，如何针对网络动态内容自身的特点，选择恰当、可行、有效的信息挖掘技术，在尽可能低功耗的在海量的互联网资源中获取更多有价值的信息呢? 专业搜索引擎中，网络爬虫的任务是根据一定的策略获取w e b 页面和决定链接的访剐顿序，随着搜索引擎技术的不断发展，每天，每时，每刻，互联网上都有大量的网络爬虫在运行，也因此需要占用大量的服务器资源和网络带宽等资源。而爬行的结果仅仅被搜索引擎作为数据流使用其价值并未得到充分的发挥。本文结合网络动态内容媒介- r s s 自身的特点，设计开发出一套网络信息挖掘系统，就是将爬虫结果进行二次挖掘，并辅以有针对性的聚焦抓取，实现了一整套针对r s s 的高效、低负载的网络信息挖掘解决方案，并根据t f i d f 算法原理，设计实现了r s s 网络动态内容分类系统，利用聚焦抓取的原理，实现了针对部分主流网络媒体的聚焦抓取的解决方案；同时网络动态内容下的用户行为研究，设计并实现了基于r e a d i n g s 平台的用户行为追踪、展示的解决方案，通过初期实验数据进行跟踪记录，为以后的用户行为的分析研究积累了宝贵的数据基础。同时，制定了有效的r s s 管理方案，对r s s 种子的生成、发展、成熟直至死亡建立一套科学的检测管理体系，实现了对网络动态内容的有效监管。第三节主要研究内容和组织结构本文针对网络动态内容自身的特点，探索出一套高效的网络动态内容挖掘、分类和管理的方法。在深入研究网络信息挖掘相关技术的基础上，提出一套尤第5 页第一章导论其适合r s s 动态网络内容自动提取、挖掘、分类、处理的系统架构，该系统以基于爬虫算法的通用抓取为主，有针对性的聚焦抓取为辅，并在其中嵌入用户阅读行为追踪模式，可高效的获取r s s 种子，有效提取其中的信息并追踪、分析、记录用户的网络行为。本文在阐述爬虫算法、r s s 相关技术和网络挖掘、分类理论技术的基础之上，详细介绍了该针对基于爬虫算法的r s s 挖掘系统的总体架构和实现细节，并提供了初期实验的全部数据，通过对相关实验数据的分析，证明了此系统可以在低附加资源消耗的前提下，高效、灵活的进行网络动态内容挖掘。同时，在实验过程中获得的大量用户行为数据，为今后网络用户行为模式的研究提供了强大的数据基础。文章的安排如下：第一章简要介绍了互联网的发展历程，以及网络动态内容的相关背景、特点和优势等，同时阐明了本文的研究目的及意义。第二章详细介绍了与网络动态内容相关的技术理论，包括r s s 概念、技术、标准及特点的介绍，并单独分析了r s s 作为网络动态内容的优势，论述了网络信息挖掘的基本概念和关键技术及其发展现状。第三章详细阐述了基于爬虫算法的r s s 挖掘系统的总体架构，其中着重介绍了网络爬虫的基本架构。在第四章中介绍了 r s s 多策略分类管理模式的设计与实现，其中包括基于传统的文本分类的管理模式和面向特点目标的聚焦抓取的管理模式，另外介绍了r s s 种子生命周期管理的设计思路与初期实现细节。在第五章中，详细介绍了第三章和第四章系统相关功能模块的实现细节，并提供了初期的实验数据，根据实验结果进行了对比分析和评估总结。最后，第六章对本文的研究工作进行了总结，同时对未来的进一步工作进行了展望。第6 页第二章网络动态内容概述第二章网络动态内容概述第一节r s s 随着互联网的飞速发展，网络已成为人们重要的信息来源。但是现在的网络浏览方式也存在着一些问题。首先，不能为每个用户定制个性化阅读方案，每个人都必须面对同样的内容，不能由用户自主地选择感兴趣的信息类型；其次，现在网站的铺天盖地的广告、大量的图片、影音文件，会在浏览时减慢速度，影响用户的使用。 r s s 技术的出现，为这些问题提供了一个很好的解决办法。r s s 的定义为 “r i c hs i t es u m m a r y ( 丰富站点摘要) 、“r d fs i t es u m m a r y ( r d f 站点摘要， r d f 是一种语义网技术) ，还可以“r e a l l ys i m p l es y n d i c a t i o n ( 简易聚合) 【5 】。这主要是因为该技术有不同的源头，不同的技术团体对其做出了不同的解释。实际上r s s 是一种简单x m l 格式，用于为内容整合客户端提供选择性的、汇总过的w e b 内容。准确地说，r s s 是一种“轻量级、多用途、可扩展的元数据描述及联合推广格式【6 j ，它能够用于共享各种各样的信息，包括新闻、简讯、 w e b 站点更新、事件日历、软件更新、特色内容集合和电子商务等。同时，r s s 是目前新媒体领域最重要的应用之一，其作为w e b 背景下的一种特殊的读物，在技术、形式、传播、整合、反馈等方面都彻底颠覆了传统读物的原有模式。本节将从r s s 及其相关技术的介绍出发，对r s s 的发展、标准规范、工作原理及其作为网络动态内容载体的代表的优势与应用做一个探讨。 2 1 1 相关格式 r s s 是x m l 的重要应用之一，同时又是r d f ( r e s o u r c ed e s c r i p t i o n f r a m e w o r k ) 的二种，r s s 是r d f 的子集，是强调r d f 可用于描述很多知识，而r s s 是其中一种；说r d f 是r s s 的子集，是强调r s s 可以用多种格式来写，而r d f 只是其中一个可选的格式，总之，x m l 、r d f 、r s s 三者之间联系紧密、互为依托。资源描述框架( i f ) 是一个如何描述任何因特网资源例如一个网站和它的第7 页第二章网络动态内容概述内容的普通框架。一个资源描述框架的描述( 这样的描述经常被称为元数据，或者“关于数据的数据”) 可以包括资源的作者、创建或更新的日期，网站上的纪录的组织，根据观众描述的内容的信息或者内容等级、搜索引擎数据收集的关键字、主题类别等等。资源描述框架将使每一个人都可能更容易的共享网站和其他描述，使软件开发者建造产品时使用元数据提供更好的搜索引擎和指导，使引擎像一个智能引擎，给网络用户对他们所浏览的东西更多的控制权。资源描述框架是另一种技术可扩展标记语言( 儿) 的应用，已经在万维网联盟的赞助下进行发展。一定数量的元数据已经提供给使用超文本链接标示语言 ( h t m l ) 的网站资源。 2 1 1 1x m l x m l ( e x t e n s i b l em a r k u pl a n g u a g e ) 是由万维网协会( w 3 c ) 设计，特别为w 曲应用服务的s g m l ( s t a n d a r dg e n e r a lm a r k u pl a n g u a g e ) 的一个重要分支。总的来说，x m l 是一种中介标示语言( m e t a - m a r k u pl a n g u a g e ) ，可提供描述结构化资料的格式，详细来说x m l 是一种类似于h t m l ，被设计用来描述数据的语言【6 】。x m l 提供了一种独立的运行程序的方法来共享数据，它是用来自动描述信息的一种新的标准语言，它能使计算机通信把i n t e m e t 的功能由信息传递扩大到人类其他多种多样的活动中去。x m l 由若干规则组成，这些规则可用于创建标记语言，并能用一种被称作分析程序的简明程序处理所有新创建的标记语言，正如h t m l 为第一个计算机用户阅读i n e r n e t t 文档提供一种显示方式一样， x m l 也创建了一种任何人都能读出和写入的世界语。x m l 解决了h t m l 不能解决的两个w e b 问题，即i n t d n e t 发展速度快而接入速度慢的问题，以及可利用的信息多，但难以找到自己需要的那部分信息的问题。x m l 能增加结构和语义信息，可使计算机和服务器即时处理多种形式的信息。因此，运用x m l 的扩展功能不仅能从w e b 服务器下载大量的信息，还能大大减少网络业务量。 x m l 不仅仅是一种语言，广义的x m l 还是一系列标准的集合。图2 1 表现了x m l 及其相关标准的层次结构关系。其中，中间一层是x m l 基础标准，最下层是x m l 的应用标准。 x m l 是一种元标记语言，强调以数据为核心，这两大特点在x m l 的众多技术特点中最为突出，同时也奠定了x m l 在信息管理中的优势。x m l 是一种元标记语言与h t m l 不同，x m l 不是一种具体的标记语言，它没有固定的标记第8 页第二章网络动态内容概述符号，是一种元标记语言，是一种用来定义标记的标记语言，它允许用户自己定义一套适于应用的d t d ( d o c u m e n tt y p ed e f i n i t i o n ：文档类型定义) 。图2 1x m l 相关的技术标准 x m l 的核心是数据。在一个普通的文档里，往往混合有文档数据、文档结构、文档样式三个要素。而对于x m l 文档来说，数据是其核心。将样式与内容分离，是x m l 的巨大优点。一方面可以使应用程序轻松的从文档中寻找并提取有用的数据信息，而不会迷失在混乱的各类标签中；另一方面，由于内容与样式的独立，也可以为同一内容套用各种样式，使得显示方式更加丰富、快捷【7 】。正是x m l 的特点决定了其卓越的性能表现。x m l 作为一种标记语言，有如下特剧8 】： ( 1 ) 简单 x m l 经过精心设计，整个规范简单明了，它由若干规则组成，这些规则可用于创建标记语言，并能用一种常常称作分析程序的简明程序处理所有新创建的标记语言。x m l 能创建一种任何人都能读出和写入的世界语，这种创建世界第9 页第二章网络动态内容概述语的功能叫做统一性功能。如x m l 创建的标记总是成对出现，以及依靠称作统一代码的新的编码标准。 ( 2 ) 开放 x m l 是s g m l 在市场上有许多成熟的软件可用来帮助编写、管理等，开放式标准x m l 的基础是经过验证的标准技术，并针对网络做最佳化。众多业界顶尖公司，与w 3 c 的工作群组并肩合作，协助确保交互作业性，支持各式系统和浏览器上的开发人员、作者和使用者，以及改进x m l 标准。x m l 解释器可以使用编程的方法来载入一个x m l 的文档，当这个文档被载入以后，用户就可以通过x m l 文件对象模型来获取和操纵整个文档的信息，加快了网络运行速度。 ( 3 ) 高效且可扩充支持复用文档片断，使用者可以发明和使用自己的标签，也可与他人共享，可延伸性大，在x m l 中，可以定义无限量的一组标注。x m l 提供了一个标示结构化资料的架构。一个x m l 组件可以宣告与其相关的资料为零售价、营业税、书名、数量或其它任何数据元素。随着世界范围内的许多机构逐渐采用x m l 标准，将会有更多的相关功能出现：一旦锁定资料，便可以使用任何方式透过电缆线传递，并在浏览器中呈现，或者转交到其他应用程序做进一步的处理。x m l 提供了一个独立的运用程序的方法来共享数据，使用d t d ，不同的组中的人就能够使用共同的d t d 来交换数据。你的应用程序可以使用这个标准的d t d 来验证你接受到的数据是否有效，你也可以使用一个d t d 来验证你自己的数据。 ( 4 ) 国际化标准国际化，且支持世界上大多数文字。这源于依靠它的统一代码的新的编码标准，这种编码标准支持世界上所有以主要语言编写的混合文本。在h t m l 中，就大多数字处理而言，一个文档一般是用一种特殊语言写成的，不管是英语，还是日语或阿拉伯语，如果用户的软件不能阅读特殊语言的字符，那么他就不能使用该文档。但是能阅读x m l 语言的软件就能顺利处理这些不同语言字符的任意组合。因此，x m l 不仅能在不同的计算机系统之间交换信息，而且能跨国界和超越不同的文化疆界交换信息。 2 1 1 2r d f 资源描述框架( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ，简称r d f ) 是一个用于表达关于万维网( w o r l dw i d ew 曲) 上的资源的信息的语言。它专门用于表达关于第l o 页第二苹网络动态内容概述 w e b 资源的元数据，比如w e b 页面的标题、作者和修改时间、w e b 文档的版权和许可信息、某个被共享资源的可用计划表等。然而，将“w e b 资源( w 曲 r e s o u r c e ) 这一概念一般化后，r d f 可被用于表达关于任何可在w e b 上被标识的事物的信息，即使有时它们不能被直接从w e b 上获取。比如关于一个在线购物机构的某项产品的信息( 例如关于规格、价格和可用性信息) ，或者是关于一个w e b 用户在信息递送方面的偏好的描述p j 。 r d f 用于信息需要被应用程序处理而不是仅仅显示给人观看的场合。r d f 提供了一种用于表达这一信息、并使其能在应用程序问交换而不丧失语义的通用框架。既然是通用框架，应用程序设计者可以利用现成的通用r d f 解析器 ( 砌) fp a r s e r ) 以及通用的处理工具。能够在不同的应用程序间交换信息意味着对于那些并非信息的最初创建者的应用程序也是可利用这些信息。 r d f 基于这样的思想：用w e b 标识符( 称作统一资源标识符，u n i f o r m r e s o u r c ei d e n t i f i e r s 或u p i s ) 来标识事物，用简单的属性( p r o p e r t y ) 及属性值来描述资源。这使得r d f 可以将一个或多个关于资源的简单陈述表示为一个由结点和弧组成的图( g r a p h ) ，其中的结点和弧代表资源、属性或属性值。通过r d f ，人们可以使用自己的词汇表描述任何资源，但人们更乐意将它用于描述w e b 站点和页面，由于使用的是结构化的x m l 数据，搜索引擎可以理解元数据的精确含义，使得搜索变得更为智能和准确，完全可以避免当前搜索引擎经常返回无关数据的情况。当然前提是r d f 和标准化的r d f 词汇表在 w e b 上广泛使用，而且搜索引擎需要能够理解使用的词汇表。简单而言，一个r d f 文件包含多个资源描述，而一个资源描述是由多个语句构成，一个语句是由资源、属性类型、属性值构成的三元体，表示资源具有的一个属性。资源描述中的语句可以对应于自然语言的语句，资源对应于自然语言中的主语，属性类型对应于谓语，属性值对应于宾语。由于自然语言的语句可以是被动句，因此前面的简单对应仅仅是一个概念上的类比。 2 1 2 定义 r s s 是一种起源于网景的技术，将用户订阅的内容传送给他们的通讯协同格式( p r o t o c 0 1 ) 。r s s 可以是以下三个解释的其中一个： 1 ) r e a l l ys i m p l es y n d i c a t i o n 第1 l 页第二章网络动态内容概述 2 ) r d f ( r e s o u r c ed e s c r i p t i o nf r a m e w o r k ) s i t es u m m a r y 3 ) r i c hs i t es u m m a r y 但其实这三个解释都是指同一种s y n d i c a t i o n 的技术。因此，r s s 也叫聚合 r s s ，是在线共享内容的一种简易方式，也叫聚合内容。通常在时效性比较强的内容上使用r s s 订阅能更快速获取信息，网站提供r s s 输出，有利于让用户获取网站内容的最新更新。网络用户可以在客户端借助于支持r s s 的聚合工具软件( 例如g o o g l er e a d e r 、n e w zc r a w l e r 、f e e dd e l t l o n ) ，在不打开网站内容页面的情况下阅读支持r s s 输出的网站内容。r s s 目前广泛用于网上新闻频道、b l o g 和w i k i 等，主要的版本有0 9 1 、1 0 、2 0 。 2 1 3 发展历程 r s s 最早要追溯到1 9 9 5 年，当时r a m a n a t h a nvg u h a 和其他在苹果电脑公司的高级技术组开发了一个测试的内容框架i m f 网页概述是最早版本的 r s s ，他最早与1 9 9 9 年3 月在网景公司由g u h a 创建使用。用于n e t s c a p e c o m 网景的端口。 r s s 技术诞生于1 9 9 9 年的网景公司( n e t s c a p e ) 。当时，网景公司定义了一套描述新闻频道的语言叫s s ，发布了一个0 9 版本规范。目的是用来建立一个整合了各主要新闻站点内容的门户，但是0 9 版本的r s s 规范过于复杂，而一个简化的r s s0 9 1 版本也随着n e t s c a p e 公司对该项目的放弃而于2 0 0 0 年暂停。2 0 0 0 年，r s s 技术标准的发展工作被d a v ew i n e r 的公司u s e rl a n d 所接手。通过d a v e w i n e r 的努力，r s s 升级后被众多的专业新闻站点所接受和支持。 2 0 0 1 年，一个第三方、非商业组织根据w 3 c 新一代的语义网技术r d f 对r s s 进行了重新定义，发布了r s s1 0 版，并把r s s 定义为“r d fs i t es u m m a r y ”。 2 0 0 2 年9 月，u s e r l a n d 公司把r s s 升级到了2 0 版本，将r s s 再定义为“r e a l l y s i m p l es y n d i c a t i o n ，并发布r s s2 0 。并交由哈佛大学法学院b e r k m a n 互联网和社会学中心进行维护 1o 】。2 0 0 3 年2 月，g o o g l e 收购了美国大型的博客服务网站w w w b l o g g e r c o m ，使这个网站一直采用的一种近似于r s s 的技术衍生版 a t o m ，迅速成为r s s 领域标准之争的新的有竞争对手。至此，r s s 分化为r s s 0 9 x 2 0 和r s s1 0 两个阵营。r s s 迄今没有一个统一的标准，各种标准正在展开对话。第1 2 页第二章网络动态内容概述 2 1 4 标准 r s s 是一种基于x m l 的标准。与其他互联网应用相比，r s s 算是非常年轻的技术，但其门户之争却非常复杂，版本数量达到9 个之多。现在人们主要采用的是r s s1 0 和r s s2 0 版。 2 1 4 1r s s1 o r s s1 0 是为使用r s s 成为一项不受任何商业机构支配的技术标准而产生的。在广泛的应用过程中，众多的专业人士认识到应当把r s s 发展成为一个通用的规范，并进一步标准化。在此环境下，一个联合小组根据w 3 c 的语义网技术r d f 对r s s 进行了重新定义，发布了r s s1 0 版，并把r s s 重新定义为“r d f s i t es u m m a r y 。由于r s s 开发工作组并没有与u s e r l a n d 公司进行有效的沟通，所以u s e r l a n d 公司不承认r s s1 0 的有效性，r s s1 0 版由w 3 c 联合小组维护。 r s s1 0 和r s s2 0 看起来很类似，但有几点重要区别 1o 】： ( 1 ) r s s1 0 是基于r d f 技术的，所以所有的内容都嵌套在和里。 ( 2 ) 每个都有一个r d f a b o u t 属性，进行标识。 ( 3 ) 在每个中都有个子元素，其下列出了c h a n n e l 中所有的 i t e m 。如下所示： e x a m p l ec h a n n e l h t t p ：e x a m p l e c o m d e s c r i p t i o no ft h ec h a n n

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（计算机软件与理论专业论文）网络动态内容挖掘与分类研究.pdf

文档简介

温馨提示

最新文档

评论

（计算机软件与理论专业论文）网络动态内容挖掘与分类研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档