(计算机科学与技术专业论文)基于用户上下文的数字媒体个性化推荐系统的设计与实现.pdf_第1页
(计算机科学与技术专业论文)基于用户上下文的数字媒体个性化推荐系统的设计与实现.pdf_第2页
(计算机科学与技术专业论文)基于用户上下文的数字媒体个性化推荐系统的设计与实现.pdf_第3页
(计算机科学与技术专业论文)基于用户上下文的数字媒体个性化推荐系统的设计与实现.pdf_第4页
(计算机科学与技术专业论文)基于用户上下文的数字媒体个性化推荐系统的设计与实现.pdf_第5页
已阅读5页,还剩62页未读 继续免费阅读

(计算机科学与技术专业论文)基于用户上下文的数字媒体个性化推荐系统的设计与实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

北京邮电人学硕 :研究生毕业论文 独创性( 或创新性) 声明 嬲1燃=,im m 1mllu l | l m ill|l糟iiii i l l l l y7 5 9 5 。1 “6 。 本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究 成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不 包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他 教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任 何贡献均已在论文中作了明确的说明并表示了谢意。 申请学位论 本人签名: 处,本人承担一切相关责任。 日期:竺f ! :! :! 空 关于论文使用授权的说明 学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校 攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部 门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅:学校可以公布学位论 文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后遵守此规定) 保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论 文注释:本学位论文不属乇保密范围,适用本授权书。 本人签名:鱼垒堕日期:z ! ! ! ! ! :! 望 导师签名:日期:垂! ! 丝! ! ! ! 里 北京邮电大学硕i :研究生毕业论文 中义摘要 基于用户上下文的数字媒体个性化 推荐系统的设计与实现 摘要 当今,个性化推荐系统已经在很多领域被应用,如网络商品推荐、 音乐推荐等,协同过滤是其中应用最为广泛的个性化推荐技术,但是, 这些系统大部分没有考虑用户上下文对推荐结果的影响,或者推荐结 果没有随用户兴趣偏好改变而更新。 本文在使用传统的协同过滤技术来实现个性化推荐系统的基础 之上,将用户的上下文信息引入到推荐系统中。本文在研究上下文感 知以及本体相关理论知识的基础上,参与系统分析、设计,并实现了 基于用户上下文的数字媒体个性化推荐系统。 本文主要完成的工作:首先,在初步需求分析的基础上确定了系 统中的用户上下文信息的具体所指内容,并给出了用户上下文信息的 获取方法。其次,建立了系统中的数字媒体领域本体并对用户的上下 文信息进行本体建模,实现系统中各概念的本体实例的程序自动创建 与扩展。再次,建立用户兴趣偏好表示形式,并基于本体的查询与推 理处理能力构建系统各用户的用户兴趣偏好。最后,依据建立的用户 兴趣偏好以及用户的当前上下文信息产生一定数量的推荐结果并将 推荐结果在系统前台页面呈现出来。 总的来说,目前对上下文以及本体在推荐系统中的应用还处于研 究阶段,而且大多数的研究项目针对的是移动领域的服务推荐,针对 w e b 用户的推荐系统研究项目则比较少,本文参与设计实现的基于用 户上下文的数字媒体个性化推荐系统是对这一领域研究的一次尝试。 关键词:个性化推荐系统用户上下文本体用户兴趣偏好 p r o t 6 9 6 j e n a 北京揶l 【l 大学硕i :研究生毕业论文 英文摘受 t h ed e s i g na n di m p l e m e n t a t i o no f p e r s o n a i j z e dr e c o m m e n d 加o ns y s t e mf o r d i g i t a lm e d i ab a s e do nu s e rc o n t e x t a b s t r a c t t o d a y , p e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mh a sb e e na p p l i e d i nm a n yf i e l d s , s u c ha so n l i n ep r o d u c t sr e c o m m e n d a t i o n ,m u s i cr e c o m m e n d a t i o n ,e t c c o l l a b o r a t i v e f i l t e r i n gi so n eo ft h em o s tw i d e l yu s e dt e c h n o l o g yi np e r s o n a l i z e dr e c o m m e n d a t i o n d o m a i n ,b u tm o s to ft h e s es y s t e m sd on o tt a k ei n t oa c c o u n tt h eu s e rc o n t e x tt ot h e i m p a c to fr e c o m m e n d e dr e s u l t s ,o rt h er e c o m m e n d a t i o n sd on o tc h a n g ew i t ht h e u p d a t eo ft h eu s e r si n t e r e s tp r e f e r e n c e s i nt h i sp a p e r , o nt h eb a s i so ft h ep e r s o n a l i z e dr e c o m m e n d a t i o ns y s t e mw h i c hw a s i m p l e m e n t e du s i n gt h et r a d i t i o n a lc o l l a b o r a t i v ef i l t e r i n gt e c h n o l o g y , w ei n t r o d u c et h e u s e r sc o n t e x ti n f o r m a t i o ni n t ot h er e c o m m e n d a t i o ns y s t e m u n d e rt h ei n - d e p t h r e s e a r c ht oc o n t e x t a w a r ec o m p u t i n ga n do n t o l o g y r e l a t e dt h e o r e t i c a lk n o w l e d g e ,t h e p a p e ra n a l y z e sa n di m p l e m e n t st h es y s t e mf o rd i g i t a lm e d i ar e c o m m e n d a t i o nb a s e d o nt h eu s e r - c o n t e x t t h ew o r ka c c o m p l i s h e di nt h i sp a p e ri n c l u d e s :f i r s t l y , b a s e do nt h ep r e l i m i n a r y r e q u i r e m e n t sa n a l y s i s i td e t e r m i n ea n dp o i n to u tt h ec o n c r e t ec o n t e n t so ft h e u s e r - c o n t e x ti n f o r m a t i o ni nt h es y s t e m ,a n dg i v et h es o l u t i o nt or e t r i e v et h eu s e r s c o n t e x ti n f o r m a t i o nf r o mt h ew e b p a g e s s e c o n d l y , w ec o n s t r u c tt h ed o m a i no n t o l o g y f o rd i g i t a lm e d i ai nt h es y s t e ma n dm o d e lt h eu s e r sc o n t e x ti n f o r m a t i o nu s i n gt h e o n t o l o g ym o d e l l i n gt e c h n i q u e s ,i m p l e m e n tt h ea u t o m a t i cc r e a t i o na n de x p a n s i o no f t h eo n t o l o g yi n d i v i d u a li n s t a n c e sf o rt h ev a r i o u sc o n c e p t si nt h es y s t e m t h i r d l y , w e d e f i n et h er e p r e s e n t a t i o no ft h eu s e ri n t e r e s tp r e f e r e n c e sa n db u i l dt h eu s e ri n t e r e s t p r e f e r e n c e sf o re v e r yu s e ri nt h es y s t e mb a s e do nt h eo n t o l o g yq u e r ya n dr e a s o n i n g c a p a b i l i t y f i n a l l y , b a s e do nt h eu s e rp r e f e r e n c e se s t a b l i s h e da n dt h eu s e r sc u r r e n t c o n t e x ti n f o r m a t i o n ,t h es y s t e mc o m p u t e san u m b e ro fr e c o m m e n d e dr e s u l t sa n d p r e s e n t st h er e s u l t so nt h ef r o n tp a g e o v e r a l l ,i ti ss t i l li nt h er e s e a r c hs t a g ea b o u th o wt ou s et h ec o n t e x t a w a r e c o m p u t i n ga n do n t o l o g yt h e o r yi nt h ea c t u a lr e c o m m e n d e rs y s t e m a n dm o s to ft h e r e s e a r c hp r o j e c ti sa i m e da tm o b i l es e r v i c er e c o m m e n d a t i o n ;t h er e c o m m e n d e rs y s t e m i v 北京邮电人学硕? 仁研究生毕业论文英文摘要 f o rw e bu s e r si sr e l a t i v e l yl e s s t h es y s t e mi m p l e m e n t e di nt h i sp a p e ri sa na t t e m p to n t h ec o n t e x t - a w a r ea n d o n t o l o g yr e s e a r c hd o m a i n k e yw o r d s :p e r s o n a l i z e dr e c o m m e n d a t i o n ,u s e r s c o n t e x t , o n t o l o g y , u s e ri n t e r e s tp r e f e r e n c e ,p r o 征g ,j e n a v 北京邮l u 人学顾t :4 0 f 究生毕业论文目录 目录 第一章绪论1 1 1 弓i 言1 1 2 研究背景1 1 2 1 个性化推荐系统的现状和发展方向1 1 2 2 基于上下文感知的推荐系统研究现状2 1 3 本文:r = 作3 1 3 1 研究路线和方法3 1 3 2 主要的研究内容3 1 3 3 论文组织4 第二章上下文与本体理论研究5 2 1 上下文理论。5 2 1 1 上下文的定义5 2 1 2 上下文信息的建模5 2 1 3 上下文信息的处理6 2 2 本体理论6 2 2 1 本体的概念6 2 2 2 本体的构成7 2 3 本体的描述和构建8 2 3 1 本体描述语言8 2 3 2 本体的存储9 2 3 3 本体构建工具介绍9 2 ,4d 、结1 0 第三章系统的需求分析。1 1 3 1 系统需求分析l l 3 2 各子系统问的关系。1 4 3 3 ,j 、结1 5 第四章系统的设计。1 6 4 1 系统的概要设计1 6 4 1 1 系统的设计思路一1 6 4 1 2 系统的模块结构1 8 4 1 3 用户接口设计。2 5 4 1 4 系统体系结构2 7 4 1 5 系统的设计目标2 8 4 2 系统的详细设计2 8 4 2 1 用户上下文获取模块。2 8 4 2 2 用户上下文处理模块。3 0 4 2 3 用户上下文推荐模块。3 3 4 3 ,j 、结3 3 第五章系统的实现与测试3 5 5 1 系统开发环境3 5 5 2 开发关键技术介绍。3 5 v 1 北京邮l 【1 人学顾i :研究生毕业论文日录 5 2 1j a v aw e b 开发框架3 5 5 2 2 语义网开发工具包d e n a 3 6 5 3 系统的具体实现3 7 5 3 1 基于p r o t 6 西对系统涉及的概念本体建模3 7 5 3 2 基于j e n a 构建系统元素本体个体4 0 5 3 3 本体数据的导入和持久化4 1 5 3 4 本体查询推理建立用户兴趣偏好4 3 5 3 5 根据用户的兴趣偏好产生推荐结果。4 7 5 4 系统的测试和分析。4 8 5 4 1 单元测 式4 8 5 4 2 集成测试5 1 5 5 小结5 2 第六章结束语5 3 6 1 工作总结5 3 6 2 f 一步工作5 4 参考文献5 5 j 囊i 射5 7 攻读学位期间发表的学术论文。5 8 v 北京邮i u 人学硕一l :t o f 究生毕业论文 第一章 1 1 引言 第一章绪论 目前,几乎所有大型的电子商务系统,如a m a z o n 、淘宝网、当当网等,都 不同程度的使用了各种形式的推荐系统。研究表明,电子商务的销售行业使用个 性化推荐系统后,销售额能提高2 一8 ,尤其在书籍、电影、c d 音像、日用 百货等产品相对较为低廉且商品种类繁多、用户使用个性化推荐系统程度高的行 业,推荐系统能大大提高企业的销售额i 。迄今为止在个性化推荐系统中,协同 过滤( c o l l a b o r a t i v ef i l t e d n g , c f ) 技术是应用最成功的技术。目前国内外互联网上 有许多大型网站已经应用这项技术为用户提供更加符合用户需求的推荐内容。 而且随着移动计算技术的发展以及移动计算设备的日益普及,移动计算开始 渗透进我们的日常生活中,普适计算也随之开始日益流行。普适计算最本质的特 征是透明。这指的并非完全是物理上的不可见性,更主要的是指用户与计算机之 间的交互是否为用户所觉察。正如人类在交互过程中,常常会有意或无意地利用 到诸如共同知识、氛围、情境、环境状况等上下文信息来减少显示交互提高交互 效率一样,在计算环境中广泛存在的大量上下文信息也可以用于减少或避免人一 机间和机一机间的显示交互。这种蕴涵的交互方式正是普适计算实现透明交互的 重要途径,并也由此发展成为一个独立的研究领域上下文感知计算。上下文 感知计算是通过感知环境中的可用信息,并自动自主地进行推理、决策和计算, 从而大大降低需要人参与的程度,进而实现透明交互l 到。 本项目在使用传统的协同过滤技术来实现个性化推荐系统的基础上,也考虑 用户的当前上下文的信息,通过获取用户的上下文信息,并分析这些用户上下文 信息进而推理出此用户的兴趣偏好。进而根据这些兴趣偏好来给用户进行个性化 的推荐,以此在一定程度上提高推荐系统的准确率,本项目课题的提出契合信息 时代下电子商务的发展以及个性化和多元化的需求。 1 2 研究背景 1 2 - 1 个性化推荐系统的现状和发展方向 协同过滤技术是应用最为广泛的个性化推荐技术,是推荐系统的一个重要组 成部分。协同过滤通过参考与活动用户具有相似兴趣和需求的其他用户的选择来 决定如何为该用户进行信息过滤。协同过滤技术是知识获取的一种方式之一,是 从可利用的知识源中抽取形式化知识的过程。用通俗的话来说,协同过滤就是“如 1 北京邮i u 人学硕i :研究生毕业论文第一章 果和我兴趣爱好相同的人喜欢这样东西,那我也会喜欢这样东西的”l 。协同过 滤的最大优点是对推荐对象没有特殊要求,能处理非结构化的复杂对象,如音乐、 电影、图书。 近年来陆续提出了许多协作过滤的实现算法。协同过滤推荐算法主要分为两 类:一是基于用户的协同过滤( u s e r - b a s e dc o l l a b o r a t i v ef i l t e r i n g ) ,也叫基于邻居 的协同过滤,即先用相似统计的方法得到具有相似兴趣爱好的邻居用户1 3 1 。二是 基于模型的协同过滤( m o d e l b a s e dc o l l a b o r a t i v ef i l t e r i n g ) ,即先用历史数据得到 一个模型,然后再使用此模型来进行预测推荐【4 】。基于用户的协同推荐算法随着 系统中用户数量的增加,计算量成线性加大,系统的性能会变的很差,并且不能 解释推荐出的结果。为此,在2 0 0 1 年s a r z w r 教授提出了另外一种协同过滤推荐 算法,即基于项目的协同过滤推荐算法( i t e m b a s e dc o l l a b o r a t i v ef i l t e r i n g a l g o r i t h m s ) 。该算法首先计算己评分项目和需要预测的项目的相似度,以相似度 作为权重,加权各个己评分项目的评分值,得到预测项目的预测值,并指出基于 项目的推荐算法比基于用户的推荐算法还要好,且能解决基于用户的协同推荐的 所存在的问题l 。 虽然协同过滤作为一种典型的推荐技术有相当的应用,但其仍有许多问题需 要解决。随着网站的结构,网站内容的复杂度和系统用户的增加,协同过滤技术 也暴露出一些缺点,最典型的有稀疏问题( s p a r s i t y ) 和冷启动问题( c o l d s t a r t ) ,除 此之外,还有新用户问题和算法扩展性等问题。 1 2 2 基于上下文感知的推荐系统研究现状 a n n i ec h e n l 5 j 研究了如何将用户上下文信息整合到个性化推荐算法中,在协 同过滤中使用的评分数据模型中添加了上下文的维度使模型由原来的r ( u s e r , i t e m ) 演变为r ( u s e r , i t e m ,c o n t e x t ) ,并提出了新的考虑了用户上下文信息的相似度 计算公式以及预测评分的计算公式。其大致的思想是:根据与当前用户上下文相 类似的上下文下其他用户所作的选择来为当前用户产生推荐,具体的算法过程需 要计算上下文之间的相似度,两个上下文之间是否相似是基于这样一种假设,对 于一个项目如果两个用户在不同的上下文值下( 针对于同一种上下文类型) 评分 相近,则认为这两个上下文值相关。w 6 l f g a n gw 0 e m d l 【6 】等人在手机应用推荐服 务中考虑用户的当前地点上下文信息,通过手机g p s 感知用户的地点上下文信 息,然后根据这个地点信息来对用户进行个性化的推荐。当一个用户处于一个特 定的关注点( p o i n to f i n t e r e s t ) 时,系统根据与此关注点相似的关注点处其它用 户选择的手机应用来对这个用户进行推荐。其也将协同过滤的用户评分二元组 r ( u s e r , i t e m ) 进行扩展加入了用户的上下文信息,先使用协同过滤产生一个推荐 结果集,然后基于知识表示或基于用户的上下文信息来对这个推荐结果集合进行 2 北京邮l 【1 人学硕l :研究生毕业论文 第一章 过滤,反之亦然。l i n a sb a l t r u n a s i t l 贝j j 为上下文感知推荐系统提出了一个通用的体 系架构,主要包括c o n t e x t p r o v i d e r 、c o n t e x t m a n a g e r 、m o d e l a d a p t e r 、 p r e d i c t i o n e n g i n e 、r e c o m m e n d e r 、e x p l a n a t i o n e n g i n e 等组件,文中分析了其各个 组件主要完成的功能,并建立了n a t i v eb a y e s i a n 分类器来对上下文信息进行分析 从而计算出一个基于上下文的预测评分,然后将协同过滤预测评分与此评分进行 整合计算出对项目的最终预测评分。 1 3 本文工作 1 3 1 研究路线和方法 本文的研究重点数字媒体推荐系统中的用户上下文的具体所指内容,以及如 何有效的表示这些上下文信息,在决定采用本体来表示上下文信息之后重点研究 面向数字媒体领域的本体开发和本体应用技术,领域本体的建立是本体应用的前 提和基础。另外一个研究重点是如何将上下文感知研究领域的重要思想运用到系 统的设计和实现中。本文采用理论联系实际的方法进行本体开发和本体应用技术 的研究,首先提出研究方法和思路,然后按照预想的方法和思路进行工程实践, 建立预期的开发环境,用实践检验开发方法的正确性和可行性,对结果进行分析, 并得出结论。 1 3 2 主要的研究内容 本文的主要工作包括如下方面: 设计与部分实现了一个基于用户上下文的数字媒体个性化推荐系统,参 与系统的需求分析过程,并完成了系统主要部分的设计和编码实现。 在查阅国内外大量关于上下文感知和本体研究文献的基础上,探讨了上 下文和本体的概念和相关理论,分析了本体建设的方法论,本体在信息查询和推 理的应用。 熟悉j a v aw e b 开发框架,本体建模p r o t 6 9 6 - 1 - 具和语义网开发工具包j e n a a p i 的使用。 具体针对基于用户上下文的数字媒体个性化推荐系统而言,主要确定了 系统中的用户的上下文信息具体包含内容以及获取方法。 对系统中概念和用户上下文信息本体建模和存储的研究。对系统涉及到 的概念以及概念的关系进行本体建模,实现系统中本体个体实例的自动创建与扩 展。 对用户的上下文信息进行查询推理并建立用户的兴趣偏好,并根据用户 兴趣偏好产生一定的推荐结果,将推荐结果集在页面中展示给用户。 气 北京i i $ l i j , 人学顾i :研究生毕业论义 第一章 1 3 3 论文组织 本文主要进行基于用户上下文的数字媒体个性化推荐系统的设计和实现工 作。论文第一章介绍了个性化推荐系统的研究现状与发展以及基于上下文感知的 个性化推荐系统的研究与发展状况。同时,提出了研究路线和方法。第二章对相 关理论进行描述,主要包括上下文的定义,上下文信息的建模与处理,对本体的 定义进行了阐释,并对最新的本体技术进行了详细全面的综述。第三章针对基于 用户上下文的个性化推荐系统提出需求分析。第四章主要阐述了基于用户上下文 的个性化推荐系统的概要设计和详细设计。第五章则是系统的开发实现与测试, 首先主要介绍了系统开发中的关键技术,然后针对于开发过程中遇到的关键问题 进行分析说明并给出解决方案,最后是系统的测试部分的工作并给出一个特定的 例子来说明推荐结果的合理性。论文第六章得出研究的结论以及进一步需要完成 的工作。 北京邮l u 人学硕+ i :研究生毕业论文 第二章 2 1 上下文理论 第二章上下文与本体理论研究 2 1 1 上下文的定义 上下文感知计算具有感知构成环境绝大部分知识的环境上下文以及用户兴 趣、趋势、行为习惯等用户上下文信息并有效加以利用的能力,这为服务和内容 的个性化提供了可能。 尽管上下文在某些环境中显而易见,如某次谈话中,谈话的时间,地点和氛 围等很容易成为交谈双方确知的上下文,但要给感知计算中的上下文下一个通用 的定义却相当困难。大多数的研究人员认为“上下文 ( c o n t e x t ) 指的是应用程 序的周遭环境和状况,以及应用程序执行环境特性的组合,包括计算环境( 如网 络的可用性,网络带宽,通讯开销,周边的打印机,显示器等资源) 、用户( 包括 用户的个性,位置,周围的人员,甚至社会关系等) 和物理环境( 如光线的明暗, 噪声的大小,交通状况,气候,温度等) 1 2 1 。d e ya n d a b o w d 提出的上下文的定义 到目前为止在学术界广为接受。该定义如下【8 j : “上下文指的是可以被用于描述某实体周遭状况的任何信息。实体是指和用 户及应用程序之间的交互有关的任何物体,例如用户和应用程序本身。 2 1 2 上下文信息的建模 为了能让上下文信息以一种计算机能处理的方式来进行操作和存储,我们必 须对上下文信息进行建模。而设计一种可用的、可扩展的并能覆盖多种上下文信 息的模型是一项富有挑战的任务。s t r a n g 和l i n n h o f f - p o p i e n 总结了最常用的几种 为上下文信息建模的方法 9 1 。键值模型( k e y v a l u em o d e l s ) 、图形模型( g r a p h i c a l m o d e l s ) 、面向对象模型( o b j e c to r i e n t e dm o d e l s ) 、基于本体的模型( o n t o l o g y b a s e dm o d e l s ) 。s t r a n g 和l i n n h o f f - p o p i e n 指出按照精简性、可扩展性和表达能 力强弱等特性标准,基于本体的模型最能有效的表现上下文信息的。因此综合考 虑后我们决定在系统中采用本体来对用户的上下文信息进行建模。本体 ( o n t o l o g y ) 可以用来描述概念以及它们之间的关系。采用基于本体的模型可以 对上下文信息进行有效的描述,而且可以将本体的推理技术应用于上下文的推 理,因此,众多上下文感知的应用框架都采用本体作为底层的上下文信息的表示 模型。 基于本体来对上下文信息进行建模有如下优剧9 l : 北京邮l 【1 人学硕i :g f 究生毕业论义第一二章 易于知识表示和共享:通过使用本体来表示系统中的用户上下文信息及 其它的元素,有效的将这些元素联系起来。同时也实现了知识的共享。 具有更强的表达能力:使用本体来表示系统中的各实体以及实体之间的 关系,赋予了这些实体一定的语义信息,这些语义信息提供了更强的表达能力。 支持本体查询和逻辑推理:可以使用本体语言提供的推理机制或者依据 。自定义规则来进行上下文推理,从而推理出更高层的上下文信息。 2 :i 3 上下文信息的处理 当原始的上下文数据被数据源采集到以后,需要经过聚合、翻译等处理来生 成有意义的数据以满足上层用户的需求。这里的上下文聚合( c o n t e x t a g g r e g a t i o n ) 指的是将原子的上下文信息进行组合,以组成高层的上下文信息。 而上下文翻译( c o n t e x ti n t e r p r e t a t i o n ) 则指的是对上下文数据的转换,并赋予这 些数据其表示的意义。这两种类型的上下文信息的抽象可以大大减轻应用程序设 计人员的工作。 2 2 本体理论 2 2 1 本体的概念 本体( o n t o l o g y ) 原本是哲学上的一个概念,被哲学家用来描述物质的基础, 是研究实体存在及其本质的通用理论。在近几年作为信息抽象和知识描述的工具 被计算机领域所采用。关于o n t o l o g y 很多人给出了不同的理解,其中最著名并 被引用得最为广泛的定义是由g r u b e r 提出的,“本体是概念化的明确的规范说 明 【姗。后来,s t u d e r 对此稍作修饰,提出:“本体是共享概念模型的形式化规 范说明 【1 1 1 。 一 本体的概念包括四个方面的内容【1 2 l : 概念化( c o n c e p t u a l i z a t i o n ) :抽象出客观世界的现象一些相关概念而得到 的概念模型,即概念系统所蕴含的语义结构,是对某一事实结构非正式的约束规 则,可以理解和或表达为一组概念( 如实体、属性、过程) 定义和关系; 明确( e x p l i c i t ) :所使用的概念及这些概念的约束都有明确的定义; 形式化( f o r m a l ) , 计算机可读的; 共享( s h a r e ) :本体中体现的是共同认可的知识,反映的是相关领域中 公认的概念集。 本体具有丰富的语义和广泛的关系,将本体技术引入到w e b 中能够从根本上 解决目前w e b 的信息格式的异构性、信息语义的多重性以及信息关系的匮乏和 非统一性。它将变革现有的w e b 服务,使之成为智能化的语义w e b 服务,使 6 北京邮l 乜人学硕。l 研究生毕业论文第_ 二章 w e b 实现从自动化到智能化的转变成为可能f 1 3 j 。 2 2 2 本体的构成 本体所表示的知识大致可以分为以下几个组成部分:它们是概念( 或者类) 、 关系、函数、公理、实例。这些内容基本包括了本体知识的语法语义的交互性, 下面是它们的具体内容1 1 0 1 : 概念 概念可以是抽象的也可以是具体的,可以是基本的也可以是复合的,可以是 真实的也可以是假设的;概念可以是任何事物的表示,概念也称为类、对象或者 范畴。 关系函数 关系代表了领域中概念之间的交互作用,形式上定义为n 元笛卡尔乘积的子 集:r ac 1x c 2 x c n 。一个n 元关系的例子是“购买 关系:一个顾客从 个商家那里购买一个产品并支付一定数量的钱。而函数是一种特殊的关系,在 这种关系中前n 1 个元素可以唯一决定第n 个元素,其形式化的定义如下:f : c 1x c 2 x c n 1 一c n 。例如“m o t h e r o f 关系就是一个函数,其中m o t h e r o f ( x , y ) 表示y 是x 的母亲,显然x 可以唯一确定它的母亲y 。 从语义上讲,基本的关系共有4 种: 表2 - 1 本体中的关系 关系名关系描述 p a r t o f 表达概念之间部分与整体的关系。 k i n d o f表达概念之间的继承关系,类似于面向对象中 的父类与子类之间的关系。 i n s t a n c e o f表达概念的实例与概念之间的关系,类似于面 向对象中的对象和类之间的关系。 a t t r i b u t e o f表达某个概念是另一个概念的属性。如“价格 是桌子的个属性。 在实际建模过程中,概念之间的关系不限于上面列出的4 种基本关系,可以 根据领域的具体情况定义相应的关系。 实例 实例描绘了对于一个特定领域概念的元素。事实( f a c t ) 表现了元素之间所 维持的关系,声明( c l a i m s ) 表现由一个实例产生的事实的断言。以上这些都是 用来表示特定领域中的元素。 公理 北京f l f l j q j , 人学硕i :研究生毕业论义第二常 公理代表永真断言。公理可以用于多种目的,比如约束信息,j 下确性检查或 者推论新的信息。虽然公理模型通常是在应用的可依靠性上使用,还没有在现在 的s e m a n t i cw e b 应用中广泛地使用,但由于在查找信息的时候新的信息总会被 推导出来,在处理大量页面的时候矛盾也总会被发现,所以公理模型在s e m a n t i c w r e b 应用中是非常重要的。o n t o l o g y 是面向特定领域,描述特定领域的概念模 型即关于该领域的一个公认的概念集,其中的概念有公认的语义,通过概念之间 的关联来体现【1 3 l 。o n t o l o g y 的目标是捕获相关的领域的知识,提供对该领域知 识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给 出这些词汇( 术语) 和词汇之间相互关系的明确定义。 2 3 本体的描述和构建 2 3 1 本体描述语言 本体语言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该 满足以下要求【1 0 】: 良好定义的语法( aw e l l d e f i n e ds y n t a x ) 良好定义的语义( aw e l l d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o f l ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 本体描述语言有许多种,例如r d f 和r d f s 、o i l 、d a m l 、o w l 、 k i f 、s h o e 、x o l 、o c m l 等等。 从标准化的角度考虑,项目中采用o w l 语言进行建模,如果对于相关内容 感兴趣可以查阅相应的参考文献。下面简单介绍一下项目中用到的o w l - o w l 全称w | e bo n t o l o g yl a n g u a g e ,是w 3 c 推荐的语义互联网中本体描述 语言的标准。o w l 因为有很强的语义表达能力,又可以实现描述逻辑的可判定 推理【堋。o w l 建立在x m l r d f 等已有标准基础上,通过添加大量的基于描 述逻辑的语义原语来描述和构建各种本体。 针对不同的需求o w l 有三个子语言,描述列表如下: 表2 2o w l 语言子集介绍 子语言 描述例子 o w l l i t e用于提供给那些只需要一个分类 支持基数( c a r d i n a l i t y ) , 层次和简单的属性约束的用户。只允许基数为0 或1 。 o w l d l支持那些需要在推理系统上进行当一个类可以是多个类 最大程度表达的用户,这旱的推理的一个子类时,它被约 系统能够保证计算完全性束不能是另外一个类的 北京邮l 乜人学硕l j 研究生毕业论文第一二章 ( c o m p u t a t i o n a lc o m p l e t e n e s s ,即 实例。 所有地结论都能够保证被计算出 来) 和可决定性( d e c i d a b i l i t y ,即 所有的计算都在有限的时间内完 成) 。它包括了o 、l 语言的所有约 束,但是可以被仅仅置于特定的约 束下。 o w l f h u支持那些需要在没有计算保证的一个类可以被同时表达 语法自由的r d f 上进行最大程度为许多个体的一个集合 表达的用户。它允许在一个以及这个集合中的一个 o n t o l o g y 在预定义的( r d f 、o w l )个体。 词汇表上增加词汇,从而任何推理 软件均不能支持o w lf u l l 的所 有f e a t u r e 。 2 3 2 本体的存储 由于本体是一个知识集合,巨大的数据规模是语义网络环境下本体数据存储 管理面临的一个突出问题。目前按照存储介质的不同可以分为基于主存、基于文 件系统和基于关系数据库三类本体存储方法【1 5 l 。 1 、基于主存 将本体数据全部导入内存,按照某种结构进行组织,在内存结构上执行数据 的查询操作。这种方法具有较高的运行效率,但是只能处理有限规模的数据。 2 、基于文件系统 该方式实现起来比较简单,很多本体相关工具都支持对文件格式的本体进行 存取。但是,这种方法不仅效率低,而且一般只适用于规模比较小的本体,很难 适应数据量较大的情况。 3 、基于关系数据库 将本体按照一定的策略组织在数据库中,利用现有的数据库系统对数据的操 纵和管理能力来存取本体。当前,数据库技术有了长足的发展,关系数据库的使 用早已成为主流,对象关系数据库技术也在不但完善,将本体数据信息存储与 关系型数据库中,能够充分利用关系数据库的优点,使数据检索和操作更加方便。 而该技术的关键在于本体与关系数据库的相互映射机制。 2 3 - 3 本体构建工具介绍 到目前为止,已经出现了许多本体建设工具,如o n t o l i n g u a 、o n t o s a u r u s 、 p r o t 6 9 6 、w e b o d e 、o n t o e d i t 等。项目采用的是比较简单易学的p r o t 6 9 6 3 3 1 【1 6 1 。 下面对它进行简单介绍: 北京l l l l j i lj 人学硕1 :研究生毕业论文第_ 二章 p r o t 6 9 63 3 1 是由斯坦福大学的s t a n f o r dm e d i c a li n f o r m a t i c s 开发的一个丌放 源码的本体编辑器,它是用j a v a 编写的。p r o t e g e 3 3 1 界面风格与普通w i n d o w s 应用程序风格一致,用户比较容易学习使用。本体结构以树形的层次目录结构显 示,用户可以通过点击相应的项目来增加或编辑类、子类、属性、实例等,使用 户在概念层次上设计领域模型,所以本体工程师不需要了解具体的本体表示语 口0 p r o t 6 9 63 3 1 支持多重继承,并对新数据进行一致性检查,并且具有很强的 可扩展性,主要表现在如下几点: ( 1 ) p r o t 6 9 63 3 1 是一个可扩展的知识模型。用户可以重新定义系统使用的表 示原语。 ( 2 ) 文件输出格式可以定制。可以将p r o t 6 9 63 3 1 的内部表示转换成多种形 式的文本表示格式,包括x m l 、r d f ( s ) 、o i l 、d a m

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论