(计算机应用技术专业论文)一个基于本体的语义blog原型系统的设计与实现.pdf_第1页
(计算机应用技术专业论文)一个基于本体的语义blog原型系统的设计与实现.pdf_第2页
(计算机应用技术专业论文)一个基于本体的语义blog原型系统的设计与实现.pdf_第3页
(计算机应用技术专业论文)一个基于本体的语义blog原型系统的设计与实现.pdf_第4页
(计算机应用技术专业论文)一个基于本体的语义blog原型系统的设计与实现.pdf_第5页
已阅读5页,还剩48页未读 继续免费阅读

(计算机应用技术专业论文)一个基于本体的语义blog原型系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

东南大学颈士学位论文 个基于本体的语义b 1 0 9 原型系统的设计与实现 摘要 随着i n t e f _ 1 1 e t ( 因特网) 及w e b ( 万维网) 技术的发展,众多基于w e b 的应用系统应运而生, b l o g 就是其中之一。b i o g 是一种基于w e b 的应用系统,用于提供用户以日志方式发布网页。由于 采用了r s s ( r d fs i t es u m m a 叫) 技术和1 m c k b a c k ( 引用跟踪) 机制,b l o g 的沟通方式比电子邮 件、讨论群组更简单、更灵活,现已成为家庭、公司、部门和团队之间越来越盛行的网络交流工具, 并逐渐被应用于企业内部网络( i n t r a n e t ) 。本文工作即是以研究组内部成员间的信息交流和协作为 应用场景,将语义w e b 技术应用于b l o g 系统构建,设计并实现的一个b l o g 应用系统。 语义w e b 是现有w e b 的延伸,同时也被看成是下一代w 曲的发展方向,其目标是让w e b 上的 信息能够为机器所理解,实现w e b 信息的自动处理,从而使得计算机和人类能够更好地协同工作。 耍在语义层次上实现信息的互操作性,需要对信息的含义有一个一致的共同的理解,对此,语义 w e b 采用了本体沦( o n 幻l o g y ) 的思想。本体是一组概念及这些概念间关联描述的集合,它描述了包 括客观事物及它们之间联系的领域知识。本系统中采用了o w l 作为本体的描述语言。 目前,已有少数研究机构在语义w e b 技术和b j o g 技术的结合方面进行了一定的探索。特别是 s 、m d e u r o p e 工作组的s e m a m i cb i o g g i n g 示例为语义b 1 0 9 的发展奠定了基础,也为本文工作的开 展提供了成功范例。 。我们将语义w e b 技术应用丁b i o g 系统的构建,设计并实现了一个称为“w o w ”的基于w e b 本 体的b 1 0 9 原型系统。该系统不仅实现了b l o g 的常用功能,而且实现了对b l o g 条目的语义查询。本 文详细介绍丁w o w 系统的分析、设计及实现,着重介绍了w e b 本体技术在语义b l o g 系统中所起 到的作用。 关键词:b l o g ,r s s ,语义w e b ,本体,r d f ,o w l 东南丈学硕士学位论文个基于本体的语义b l o g 原型系统的设计与实现 a b s t r a c t a l o n gw i t ht | l eg r o w l ho ft h ei n t e r n e ta n dt h ew e bt e c h n o i o g y ,m a n yw e b _ b a s e da p p i i c a t i o ns y s t e m s c o m ei n t ob e i n g b 1 0 9i so n eo ft h e s es y s t e m s b l o gi saw e b _ b a s e da p p l i c a t i o ns y s t e m ,a n du s e r sc a n p u b n s h 也e i rw e bp a g e sa sl o g sw i 血n w i t ht l er s s 幔d fs h es u m m a r y ) t e c h n j ca n dt h et r a c k b a c k m e c h a n i s m ,m ec o m m u n i c a t i o no fb l o gi sm o r ee a s ya 1 1 dn e x i b l et h a nt h a to fe m a i la i l dd i s c u s s i o ng r o u p b 1 0 9i sg 。i n gt ob eap o p u l a rc o m m u n i c a t i o nn e tt 0 0 1f o rt h ef a m i l i e s ,c o m p a n i e s ,d e p a n m e m sa n dt e 帅s , a n di t i su s e do nt h ei n t r a l l e tn o mb a s e do nt h es c e n eo fc o m m u n i c a t i n ga n dc o 叩e r a t i n ga m o n gt l e m e m b e r so far e s e a r c ht e 绷,t h i sp a p e rp r e s e n t st h ed e s i g na n di m p l e m e n t a t i o no fab l o ga p p l i c a t i o n 5 y s t e m ,i nw h l c ht h es e m a n t i cw e bt e c h n o l o 斟i sa p p l i e d s e m a n “cw e b ,a ne x t e n s i o no ft h ec u r r e n tw e b ,i sv i e w e da st h en e x tg e n e r a t i o nw e bl e c h n 0 1 0 9 y w h i c ha i m sa tt h a tt h ei n f o r r n a t i o no nt h ew e bc a nb eu n d e r s t o o db ym a c h i n ea n db e 芦o c e s s e d a u t o m a t i c a l ly ,s ot h a th u m a n sc a nc o m m u n i c a t ew i t ht h em a c h i n e sb e t t e lt bi m p l e m e n tt h ei n f o r m “o n i n t e r o p e r a t i o no nt h es e m a n t i cl e v e i ,ac o m m o nu n d e r s t a nd 】n g o ft 1 1 ei n f o m l a t i o ni sn e e d e d ,s ot h e s e m a n t i cw e b a d o p t so n t o i 。g yo n t 0 1 0 9 y sa ne 文p l i c i tf o r m a ls p e c i 订c a t i o no fh o wt or e p r e s e n tt h eo b j e c t s , c o n c c p t sa n do t h e re n t i t i e st h a ta r ea s s u m e dt oe x i s ti ns o m ea r e ao fi n t e r e s ta n dt h er e l 砒i o n s h i p st h a t1 1 0 l d a m o n gt h e m i nt h i ss y s t e m ,w eu s et h eo w l ( w e bo n t o l o g yi 且n g u a g e ) t od e s i g no u ro n t o l o g 弘 af e wr e s e a r c ho 喧a 1 1 i z a t i o n s ,s u c ha ss w a d - e u r o p ew o r kg r o u p ,i n v e s t i g a t e ds o m e w h a ti nt h e c o m b i na t l o no fs e m a n t i cw e ba i l d b 1 0 9t e c h n o l o g y t h es e m a n t i cb i o g g i n g d e m o n s t r 砒o r o f s w a d - e u r o p ew ge s t a b l i s h e dt 1 1 eb a s eo f s e m a m i cb l o g ,a n di ti sas u c c e s s 乱lp a r a d 培mf o ro u rf e s e a r c h w o r k u n d e rt h i sb a c k g r o u n da n da p p l y i n gt h es e m a n t i cw e bt e c h n o i o g yi nc o n s t r u c t i n gb i o gs y s t e m ,w e d e s i g t la n di m p l e m e n tap r o t o t y p eo fw e bo n t o l o g y - b a s e dw e b l o g ,c a l l e dw o w t h i sp r o t o t y p ep r o v i d e s n o t 。n i yt h eb a s i c 札n c t i o n a l i t i e so fb l o g 、b u ta l s os o m es e m a n t i cq u e r yf o rw e b l o gi t e m s t h i sp a p e r p r e s e n t st h ea n a l y s i s ,d e s i g n ,a n di m p l e m e n t a t i o no fw o wa i l dh i 曲l j 曲t st h eu s a g eo fw e bo n t o i o 时 l e c h n q u ei nt h es e m a n t i cb l o gs y s t e m k e y w o r d s :b 1 0 9 ,r s s ,o n t o l o g y ,s e m a n t i cw e b i i 东南大学学位论文独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究威 果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发幕 或撰写过的研究成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用翅 的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明爿 表示了谢意。 研究生签名:一孕i 一日 期:扣r 。牛i 。 东南大学学位论文使用授权声明 东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的 复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内 容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可 以公布( 包括刊登) 论文的全部或部分内容。论文的公布( 包括刊登) 授权东南大学研 究生院办理。 研究生签名: 莩:邀 导师签名:挺日期:u “中v 东南大学硕士学位论文一个基于本体的语义b i o g 原型系统的设计与实现 1 1 研究背景 1 1 1b l o g 简介 第一章前言 随着i n t e m e t ( 因特网) 及w e b ( 万维网) 技术的发展,众多基于w e b 的应用系统应运而生, 俏然改变着人们的网络生活方式,b l o g i 】就是其中之一。引o g 是“w e bl o g ”( 网志) 的缩写,是一种基 于w 曲的应用系统,用丁提供用户以日志方式发布网页。它象是一种改避的b b s 系统,可以围绕 某些主题发表评论,但能将评论保留在自己的网页上;它采用1 r a c k b a c k ( 引用跟踪) 机制 2 】将b l o g 用户们聚集成一个个虚拟的网络群体;它通过r s s ( r d fs i t es u m m a r y ) 技术 3 】,将用户感兴趣的 b l o g 或新闻网站的更新内容自动汇集到用户桌面;它以简单、实用、低成本的特点和独特的网络沟 通方式在众多领域得到迅猛发展。 在网络上发表b l o g 的构想始于1 9 9 8 年,2 0 0 0 年开始在荚国流行起来,2 0 0 4 年在纽约召开的 w 3 c 会议中也出现了相关文章,详见【4 5 】。由于b l o g 的沟通方式比电子邮件、讨论群组更简单、 灵活,现己成为家庭、公司、部门和团队之间越来越盛行的沟通工具,并逐渐应用丁= 企业内部网络 ( i m r a n e t ) 。b 1 0 9 通常具有以下特点: ( 一) 简单、快捷、低成本 b 1 0 9 象是样式简单的个人主页,用户只需几分钟的时间就可申请到一个b 1 0 9 空间,方便的发 表文章或评论,且无需租用域名空间或学习h t m l 相关技术。与传统的个人土页相比,b l o g 的优势 在于它的简单、快捷、低成本。 ( 二) 开放性、私有性、交互性 引o g 又象是改进了的b b s 系统,可以针对某个主题公开发表评论,且能将评论保留在自己的 网页上。借助b l o g 所特有的t r a c k b a c k 机制,b 1 0 9 还能够自动记录下评论文章的u r i 等信息,使 不同的用户因相同的主题而聚集起一个个虚拟的网络群体。相比b b s ,引o g 是一种更加灵活、更个 性化的知识共享和交流形式,兼具开放性、私有性和交互性的特点。 ( 三) 可定阅、易管理、实时传递 b l o g 是易于管理的个人电子出版系统,用户可以自由的记录、发布和更新,也可以方便的对文 章分类管理。而且,b i o g 系统能自动生成站点汇总提要( r s sf e e d ) ,以方便其他人定阅。如果用 户只对某些网站上的某个专题或某个b l o g 上的某一类内容感兴趣,也可以通过b | 0 2 或相关工具 ( 如:r s s 聚合器) 进行选择性的订阅。这样,他就无需每天登录那些网站去逐一查看发生了什么, 新的消息旦产生,就会自动“推”到用户的客户端。当前,伴随b 1 0 9 潮流的发展,借助r s s 让更 新的信息直接从喜欢的嘲站自动传递到桌面,已波众多爱好者看成是下一次网络革命的肇始。 总之,b l o g 继承和彰显了网络文化发展的内在逻辑。同时,它所呈现的新的特点又产生了两大 影响:一是从媒体传播角度考察,它代表了一种全新的自由发表的个人网络出版方式,对传统媒体 _ 业的运作模式形成挑战;二足从知识管理角度考察,代表着个人知识过滤与积累和深度交流沟通 的网络新方式,为组织沟通和社会交流带来了全新的变革。 个普通b 1 0 9 的页面如图1 1 所示。 东南大学硕士学位论文一个基于本体的语义b l o g 原型系统的设计与实现 b l o g 名称 b i o g 简介 文章标题 文章摘要 发布文章的 时问及 作者信息 留言功能 引用蹋踪 计算机教育博客空间 理不在高,有论则乌;娃不在深,有术刚是;博客空间,难有t 百樨新 又u ( q = 二二二 1 1 2 语义w e b 概述 图l :1 一个普通的引。g 页面 当前,包括b l o g 在内的众多网络信息使得w e b 资源不断增长,这一方面为人们提供了更多的 可共享信息;另一方匝,也增大了人们获取所需要信息的难度,因为目前的w 曲还不能说是一个自 动管理的信息源,它更多的是一个信息资源空间,而目前所采用的关键字匹配的搜索技术很难在查 准率上让人们满意。如:一个b l o g 用户想要查找关于o w l ( o n t o l o g yw 曲l a n g u a 醇) 的文章,但 返回信息却包含了火量关于二o w l ( 猫头鹰) 的文章。这种类似词多意”的现象,使得机器难以理解人 们要表达的准确含义,而诸如“同义词”等现象的存在又使搜索引擎可能会遗漏很多有意义的信息, 比如:电影( m o v i e s n l m 6 l m s ) 。总之,“丰富的数据和贫乏的知识”问题越来越突出。其主要的原 因是:一方面对于目前w e b 上的信息,计算机只能从格式上来处理和验证,并不能处理知识级别 盼问题;另一方面则是因为目前w e b 上的信息还没有被归纳、提炼成知识。如能有效解决上述问 题,让计算机理解所存储和传输的数据的话,它势必可以帮助人们去选择、鉴别,并进而自动地去 处理这些数据,这样将极大地提高人们获取所需要信息的效率。 1 9 9 8 年1 0 月,w e b 的奠基人t i mb e m e r s l e e 提出了语义w e b 【6 的设想。语义w e b 是现有w e b 的延 伸,同时也被看成尾下一代w e b 的发展方向,其目标是让w e b 上的信息能够为机器所理解,实现w 曲 信息的自动处理( 如自动搜索、知识获取、逻辑推理等) ,以适应w e b 信息资源的快速增长,从而使 得计算机和人类能够更好地协同工作。语义w 曲的思想是利用元数据( m e t a d a t a ) 语言对w e b 信息资源 的内容进行语义上的描述,从而使得计算机能够利用这些语义信息对信息资源的内容进行理解和处 理并在此基础上,实现更高层的、基于知识的智能应用。要在语义层次上实现信息的互操作性, 需要对信息的含义有一个一致的、共同的理解。对此,语义w e b 采用了本体论( o n t o l o 盯) 的思想。 本体是一组概念及这些概念间关联描述的集合,它描述了包括客观事物及它们之间联系的领域知 识。 东南太举硕士学位论文 一个撼于本体的语义b l o b 原型系统的设计与实现 按照t i mb e m e r s - l e e 及其合作者的构想,语义w e b 的技术体系是种分屡式的,从底层到商层 分别为:u n i c o 船和u r l 、x m 乙、r d f 、o i o l o g y 、l o g i c 、p r o o f 、1 h s t 。如圈1 2 所示。 t 1 舢s t p o f l o g i c 薹i 蕊幻i o g y c a b n l 蝌 蚕l r d r r d fs c h e m a x m l ,x m ln a m e s p a c e ,x m ls c h 。m a u n i c o d e u r j 图l ,2 语义w 曲的技术体系 第一层由u r i 和u n i c o d e 构成,是整个涪义鞴,e b 韵基榴,其中u n i c o d e 齄理资源驹编褐,像证 使用的是国际通用字符熬,实现网上信息的统一编码。u r l 支持语义w e b 上的对象和资源的精细标 鼋爰,麸i | 霉菠精确信惠捡索藏为可缱。 第二层主鬻解决数据交换中的语法问题,由x m l 、x m ls c h e m a 等相关掖术组成。通过x m l 标记语言将w 幽瓷源信息的结构、内容与数据的表现形式进行分离,并支持与其它基于x m l 的标 准送行无缝集娥。 第三层是解决关于元数据的驻操作性问题。主要是通过r d f 和r d fs c h e i n a 7 1 为w e b 资源描 述提供一秘透明框架和安现数据集或黔元数据鼹决方案。 第网层为率体词汇朦,目的怒为了提供一个耐元数据进行描述和褒示的通用模型,辫便对事物 以及他们的相甄关系进行更深入的描述,这也就是本体的语言层,目前主疆有d a m l + o i l 和 o w 乙 8 】; 第五层为邋辑层,主要是希凝在本俗之上再提供一个描谶推理规则的互操作语言,这样就可以 通过所描述的攀实和推瑷翘则对无数据和数据进行椠转逻辑推理,从两得出一些潜在的结论: 第六层为谶明层,主要是提供一个舟来描述推理步骤静征髓语言。通过该屡,我们可以对所得 到的结论的正确性进行驰证; 繁七崖为镰经层,芰要矮决聚理结论旋霹信缝酒遂,疆绦迂霜户代理a g e 瓜在w 秘上进嚣令犍 化服务和彼此阐合作时鬣安全可靠。 搓该技术体系中,搀有语义擒述能方的是r d f 、陋fs c h e m a 落鼓莛搿、主壤。第二警将详细介绍 r d f 屡和本体词汇层,萋点讨论w 3 c 所开发的语言规范:r d f 、r d fs c h e m a 和o w l 。由于其上的 逻辑爨、证明鼷秘信任鼷妁研究二 乍尚东进行中,隧藤,还没舂相应的标准出蠹,因此本文中将不 作讨论。 1 1 3 语义b l o g 发展现状 姿蕾,语义强确技术已经延僚羁b 键鹃掇躐避秀,己寄少数疆究枫捣褒语义w 两技末移毽 锷 技术的结合方谢进行了一定的探索,其中较为知名的有:s w a d e u r 。p e 工作组的s e m a n t i c 引。g 崩n g 项譬f 9 l 和m i t ( 美国臻赣理工学院) 的s e m a n l i c b l o g g i n g 具 1 0 】。观简分如下: 东南大学硕士学位论文 一个基于本体的语义b l o g 原型系统的设计与实现 s w a d e u r o p e 工作组的s 哪a n 廿cb l o g g i n g 项目( 以下简称为h p - s e m b i o g ) 将语义w e b 技术 应用到b 1 0 9 系统中以实现基于语义的著书目录的管理,于2 0 0 3 年发布了一个原型系统【1 1 ,并在 之后对其进行了小范围的改进( 如:合并了语义的导航和查询等) ,其主要特点如下: 在元数据方面: 一个b l o g 的入口( e n t 叮) 包含一个文献的条目( i l e m ) : 使用r d f 的存储机制生成并丰富了r s s ; 使用t i f ( t h e s a u r u si n t e r c h a n g ef o r m a t ) 1 2 定义的主题分类本体来帮助用户将元数据加入 b l o g : 使用r d fs c h e m a 驱动的方式,用户可以自定义元数据的编辑界面。 在元数据的应用方面实现了: 语义的视图:元数据能够以r d fs c h e m a 驱动的、个性化的方式呈现( 记录卡片或表格 形式) : 语义的导航:浯义化的元数据能被用于驱动并定制导航形式( 树状浏览或平面浏览) : 语义的查询:用户可选择依据b l o g 入口( e n 蚵) 或文献条目( i t e m ) 的相关元数据进行 杏洵。 2 0 0 4 年,m i t 以其原有项目h a y s t a c k f l 3 为基础,构建了一个s e m a n t i c b l o g g i n g 原型l 具( 以 r 简称m i t _ s e m b l o g ) 。它同样扩展了r s s l o 1 4 】,并实现了r s so 9 舵o ( 参见2 1 1 r s s 一节) 文件到r d f 格式的转换。其主要特点为: 元数据方面: 重用了h a y s t a c k 本体 】5 j ,将其中定义的类h s :c 0 1 1 e c t i o n 用于b l o g 资源的分类,通过一个简 单的属性h s :m e m b e 刊奇c o l l e c t j o n 和它的成员关联起来。 重用了消息本体【1 6 】【1 7 】来描述b 1 。g 之问的会话流,定义了r s s l o 本体的r s s :i t e m 作为 m s g :m e s s a g e 的来源。 h a y s t a c k 支持基于s c h e m a 的表单生成,允许用户输入不同的r d f 元数据。 元数据的应用方面: 元数据的输入:没有给用户增加额外的输入负担,而是由软件自动捕获用户已经提供的语 义以及b 1 0 9 所固有的语义,而且允许高级用户阻类似a n n o t e a 1 8 形式的表单机制在b 1 0 9 中嵌入任意的r d f 数据。 元数据的显示:不局限于一次只浏览一个引o g ,而是可以浏览多个b l o g 之问的回复图以跟 踪b l o ge n l r i e s 之间的会话。 使用了简单的分类标识( 如:赞成或批评) ,并以可视化的方式( 如:拇指方向) 呈现,方便 用户在浏览中快速捕获相关信息。 h p - s e m b l o g 和m i t - s e m b l o g 的共同特点是:都使用r d f s 扩展了r s s l o 规范本体,为b 1 0 9 信息 增加了更为丰富的语义支持;而且都使用了基于j a v a 的b 1 0 j s o m 1 9 作为b l o 朗务软件,通过对普通 的引o g 文章增加机器可理解的元数据以实现基于语义的存储和浏览功能。 基于语义的b 1 0 9 系统在国内未见先例,h p - s e m 引o g 和m l t _ s e m b l o g 为语义引o g 的可行性研究和 进一步发展提供了成功范例。 4 东南大学硕士学位论文 一个基于本件的语义b l o g 原型系统的设计与实现 1 2 本文工作 通过对引o g 、语义w e b 及语义b 1 0 9 现状的分析,我们了解了语义w e b 技术对b l o g 的发展所 产生的积极影响,同时通过对现有语义b 1 0 9 原型系统的分析,我们也看到他们在r s s 扩展、b l o g 分类建模和语义查询等方面存在的不同程度的局限性( 详见6 1w o w 与现有语义b i o g 原型的比较 一节) 。 伴随b 1 0 9 及语义w e b 技术的发展,我们认识到语义b l o g 可持续的发展前景及广阔的研究空间。 在现有语义b l o g 研究成果的基础上,同时考虑其存在的部分局限性,我们将语义w e b 技术( 特别 是w e b 本体技术) 应用于b 1 0 9 系统的构建,通过在r s s 中增加机器可理解的元数据扩展了b l o g 的功能,设计并实现了一个称为“w o w ”的基于w 曲本体的b l o g 原型系统。该系统以研究组内部成 员间的信息交流和协作为应用场景,不仅实现了b i o g 的常用功能,而且实现了对b l o g 条目的语义 奇询。 本文将在之后的章节中详细阐述w o w 系统的分析、设计及实现,并着重介绍w e b 本体技术 在语义b 】o g 系统中所起到的作用。 本文共分六章。其余各章的内容安排如_ f : 第二章介绍了构建语义b 1 0 9 的相关技术,着重介绍了b l o g 的核心技术r s s 、t r a c k b a c k 以及 语义w e b 相关技术r d f 、r d fs c h e m a 和w e b 本体语言o w l ;第三章给出了w o w 系统的需求分 析和概要设计:第四章详细介绍了w o w 的本体设计,并结合系统功能讲述了本体的存储访问过程 和基于本体的逻辑推理:第五章是本系统的详细设计与实现部分,包括系统的各功能模块的设计及 具体实现、r s s 存储模块的实现及r s s 查询服务的实现;第六章结合w o w 系统的特点与现有语 义引。g 原珏! ! 进行了对比,并对本文工作进行了总结,提出了有待改进的部分问题,最后对基于本 体的语义b l o g 系统的进一步发展进行了展望。 东南大学硕士学位论文 一个基于本体的语义b 】o g 原型系统的设计与实现 第二章构建语义b l o g 的相关技术 象其它的w e b 信息一样,普通的引o g 信息也是采用h t m l 和x m l 等标准来表示的,随着互 联网的发展,它们的弱点也表现得越来越突出。h t m l 文档为显示而设计,缺乏针对内容的描述, 而且有限的、预定义的标记集台使得用户不能定义自己的标记。x m l 注重描述数据的内容和结构, 可以将数据和显示分离,但也只足在语法上统一了数据交换的格式,并没有提供基于语义的表达方 式。因此,对丁| 目前w e b 上的信息,计算机只能从格式上来处理和验证,并不能处理知识级别的 问题。呈指数级增长的海量信息使得用户对信息的查找、访问、表示以及维护变得越来越困难。而 要实现机器理解w e b 的内容,就必须提供对数据进行语义表示的方式。 本章通过对b l o g 及语义w e b 相关技术的介绍,为语义b l o g 的构建提供了技术基础,具体包括 b l o g 的核心技术r s s 和t r a c k b a c k ,语义w e b 的相关技术r d f 、r d fs c h e m a 及o w l 。 2 1b i o g 的相关技术 虽然现在人们更多的足在谈论b l o g 的人文氛围、b o g 的商业经营价值,但从这种新的网络文 化的演变过程中可以看到,是b l o g 技术的出现使得每个人可以低成本、少维护地创建自己的网络 媒体,是b l o g 独特的交互形式促成了不同于以往社区的引o g 文化。b l o g 技术缔造了b 1 0 9 文化, 而b | o g 文化的发展进而推动了b 1 0 9 技术的进步。以下将着重介绍引o g 的核心技术r s s 和 t r a c k b a c k 。 2 1 - 1r s s 2 1 1 1r s s 概念及版本 r s s 起源于2 0 世纪9 0 年代后期,最初是n e t s c a p e 定义的一套用于描述新闻频道的语言,是英 文r i c hs i t es u m m a r y ( 丰富站点摘要) 的首字母缩写。后来,r s s 技术被应用于b l o g 软件中为网 站内容创建汇总,极大的推动了b 1 0 9 的普及和发展,成为b 1 0 9 的核心技术。 准确的说,r s s 是一种“轻量级、多用途、可扩展的元数据描述及联合发布格式”,用于为内 容整合客户端提供选择性的、汇总过的w e b 内容。r s s 规范描述了x m l 风格的元素的一个简单子 集,这些元素可用于为网站内容创建汇总。汇总可能包括一个网站徽标、一个网站链接、一个输入 框以及多个引o g 条目。这个( 或者多个汇总) 称为一个r s sf e e d ( 源) 。r s sf e e d 由内容提供者的 网站发布与推广,再由内容罄台者的网站使用,或者由独立的桌面工具( 如:r s s 聚合器) 使用。 目前r s s 存在多个版本,比如r s s09 i 0 9 2 20 2 0 儿2 1 2 2 1 和r s s1 o ,它们分别支持一些专 门的特性,适用于特定类型的内容,如下表所示,参见2 3 】。 东南大学硕士学位论文一个基于本体的语义b l o g 原型系统的设计与实现 表2 1 r s s 版本及建议 版本拥有者特点状态建议 o 9 0 n e t s c a p e o b s o l e t e db v1 od o n tu s e o 母c i a l l yo b s o l e t e du s ef o rb a s i cs y n d i ca t i o n o 9 lu s e r l a n d d r o pd e a ds i m p i e b y2 0 ,b u ts t i l lq u i t ee a s ym i g r a t i o np a t ht o2 0 i f p o p u l a ry o un e e dm o r en e x b i l i t y o 9 2 a l l o w s c h e r o 9 3u s e r l a n do b s o l e t e db v2 ,0u s e2 0i n s t e a d o 9 4 m e t a d a t at 1 1 a 1 1o 9 l r d f b a s e d u s ef o rr d f b a s e d r s s ,d e ve x 把n s i b m t vv i as t a b l ec o r e 、a c t i v e 10 w o r k m g m o d u l e s n o tm o d u l e a p p l i c a t i o n so ri f y o un e e d g r o u p c o n t r o l l e db yas i n g l e d e v e l o p m e n t a d v a n c e dr d f s p e c i n c m o d u l e s v e n d o r e x t e n s i b i l i l yv i a s t a b l ec o r e ,a c t i v e m o d u l e s ,e a s y u s ef o rg e n e r a l - p u r p o s e , r u s e t 乙dm o du l e m i g r a t i o np a mf r o m m e t a d a l a - r i c hs y nd l c a t i o n o 9 xb r a n c h d e v e l o d m e n t 其中,r s s io ( r d fs i t es u m m a r y ) 遵循,w 3 c 的r d f 规范,由于它是模块化的,可以通过 x m l 或r d f 名空间加以扩展,所以必然会进一步演变,适应不断增长的应用程序需求。r s s1 o 的 标准模块包括m o d - c o n t e n t 、m o d - d c 和m o d - s y n d i c a t o n ,r s s i o 被提议的2 1 个模块在【2 4 中介绍。 图2 1 为r s s lo 的r d f 图。 图2 j r s s lo 的r d f 图 东南大学硕士学位论文 一个基于本体的语义b 1 0 9 原型系统的设计与实现 2 1 1 2b l o g 中的r s sf e e d 我们经常会在b l o g 页面上看到这样的图标塞0 璺,或者是诸如t ”d i c a t ec h j ss 沁( x m l ) , 类的 文字,这些图标和文字所对应的超级链接通常也就是该网站的r s s 输出文件的u r l 。一般情况下 这些r s s 文件是以x m l 或者r d f 为后缀的,但是也有一些网站采用动态地址来定位r s s 文件。普通 的b l o g 页面通常提供一个“中心 r s s f e e d ,但也可为网站的各个动态内容区域提供独立的r s s f e e d 。 资深的b l o g 用户往往依据文章分类或归档创建多个r s sf e e d 以供不同需求的用户订阅。 许多b 【o g 服务平台支持r s sf e e d 的自动生成,也可人工生成r s sf e e d 。有许多工具和网上服 务可以根据网站现有的内容来自动生成r s s f e e d 。如果网站是用p e r l 开发的,x m l :r s s l 模块能自 动创建一个r s s f e e d 。对于基于a s p 的网站,可使用由t n l n e t 2 提供的大量工具。x p a l h 2 r s s 3 是一 种使用x p a t h 表达式来生成r s sf e e d 的工具。另外,还可使用网上的一些r s sf e e d 生成服务,比 如m y r s s 4 和s i t es u m m a r i e si nx h 丁m l 5 。 b l 。g 用户可以收集自己感兴趣的b l o g 站点,加入自己的b l o g r o o l ( 友情链接列表) ,也可通过 r s s 阅读工具收集感兴趣的b 1 0 9 或新闻站点提供的r s sf e e d ,r s sc l i e n l 则定时去各个链接下载 r s s 文件更新本地缓存。r s s 阅读工具的知识将在下一节中介绍。 除了上述在b l o g 系统中的功能之外,r s sf e e d 还可由内容整合门户使用,比如m yy a h 0 0 6 , m yu s e r l a n d 7 等,或由一些工具使用( 用丁个人或商业用途) ,比如h e a d i i n ev i e w e r 8 ,n e t n e w s w i r e 9 和r a d i ou s e r l a n d ”。也可以插件的形式用于某些电子邮件客户端,比如m so u t l o o k ,以便针对个 人目的而进行基丁j 桌面的内容整合。程序员可采用支持r s s 的任何语言( 包括j a v a ,p h p ,p e r l , a s p 和c # ) 来编写简单的脚本,对r s sf e e d 进行解析,并将它的内容转换成呵显示的格式。 2 1 1 3r s sf e e d s 聚合器 r s s f e e d s 聚合器( a g g r e g a t o r ) ,也称为r s s 新闻聚合器或r s s 新闻阅读器,是一种专门阅读r s s 文件的程序。通过r s s 新闻聚合器,用户可以选择特定主题的r s sf e e d s 并将它们聚集在一起( 如: 有关图书主题的r s sf e e d s ) 。伴随网络社会化的进程,r s s 亦被众多网络媒体所采用,很多主流 w e b 站点( 如,w 3 c 及s l a s h d o l 等网站) 也己使用r s s 更新网站信息。用户通过一些b l o g 工具或 新闻聚台器可实现方便的订阅。这使得人们可以及时跟踪某个领域或某个人的最新话题,而传统的 搜索引擎( g o o g i e ,y a h 0 0 等) 对此是无能为力的。 r s s 新闻阅读器具有以下优势: 一 没有广告或者图片来影响标题或者文章概要的阅读; r s s 阅读器自动更新用户定制的网站内容,保持新闻的及时性; 用户可以加入多个定制的r s sf e e d s ,从多个来源搜集新闻整台到单个数据流中。 h t i p :,s e a r c hc p a n ,o r a u t h o “e i s e n m l - r s s h t t d :w w t n ln e i ,h o 、v 瓜s s , h n d :w w m n o tn e “x d a t h 2 r s “ h t t p :m y r s sc o 州 h t t p :w w ww 3o r 啦0 0 0 ,0 8 ,w 3 c s v n d h u p m yy a h 0 0c o m , h t t d :,m yu s e r j a n dc 0 1 1 “ h n d :w w w h e a d l i n e v i e w e r c o m h n p r a n c h c r oc o r n ,s o n w a r e ,n e t n e w s w i r e h n d :r a d l ou s er 】a n dc o r r 【, 茎堕查兰堡主兰皇堡奎 二尘茎查堡堕堡墨旦塑韭墼叟型型塑堑土! i ! :生 现在已经有很多成熟的最s s 聚合工具,如:n e w z c r a w l e r 、f e e d d e m o n 、r s s r e a d e r 、s h 8 r p r e a d e r 、 n e w s d e j i 及n e 斟e w s w i r el i t e 等,参见【2 5 】。 2 1 1 4r s sf e e d s 聚合、搜索和过滤的相关动态 r s sf e e d s 的聚合站点: 。伴随b l o g 的快速发展,r s sr e e d s 的数量增长迅速,也由l 瞬生出众多b l o g 及r s s f e e d s 的聚 合站点。如:s y n d i c 8 1 1 从2 0 0 1 年起对各种r s sf e e d s 进行分类注册,截止到0 5 年3 月份为止已拥 有超过3 5 0 0 0 0f e e d s 的收藏,参见图2 2 。类似站点如:m 业,量k 雎,融旦2 墅堕盟虹堕里垡堡盟q 碰。 图2 2s ”d i c 8r s sf e e d s 的月统计图 r s s 搜索引孥: n c 乱l 站点1 2 对其r s s 内容攫素的定义是“s e 缸c h t h e w 训dl 1 v e w e b ”( 搜索动态互联网l 这是与g o o g l e 等传统搜索引擎的“s e a r c hl h ew o r l dw i d ew e b ”很不同的一个定位,并且真实而准确 地阐明了r s s 内容搜索的意义。 目前已有很多优秀的r s s 搜索引擎,允许用户以r s s 格式查看搜索结果。如:美国撮著名的 r s s 搜索引擎f c e d s t e r 收录了几十l 万条r s s f e e d s ,其2 0 0 4 年推出的f e e d p a p e r 服务功能,允许用户 从5 0 万个r s s f e e d s 中通过自定义方式选择搜索内容及信息。类似的r s s 搜索引擎还有:堕幽、 b ! q 出i 鹊塑、坠! 匹h 出塑业。 虽然,r s s 搜索很难象g 0 0 2 i e 一样成为一种独立的商业模式,但r s s 搜索的优势不在量大, 而在索引内容更新快,后台资源利用率高,是“新信息”搜索,而不是“全信息”搜索。而且,基于r s s 的搜索引擎的另一优势是它索引独立的i t e m 而非包含了众多i t e m s 的页面,加之r s s 内容和频道的 可定制性为用户开拓了“个性化搜索”的空间。 r s s 聚合和过滤工具: r s s 的应用日渐成为人们获得新闻和时实信息的流行方式。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论