




已阅读5页,还剩64页未读, 继续免费阅读
(计算机应用技术专业论文)可编辑语义的语义网标签系统的设计与实现.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
浙江大学硕士学位论文摘要 摘要 语义网是当前万维网研究的热点之一 它是人们对于未来智能化互联网络的 伟大设想 自语义网的概念在1 9 9 8 年由互联网之父t i mb e r n e r s l e e 提出以来 语义网的理论研究 特别是在语义网各种标准和关键技术上 有了很大的发展 然而 语义网技术在实际应用中的发展相对缓慢 另一方面 新一代互联网兴起 了标签的应用 就是使用关键字对网络资源如博客文章等进行标记 从而提高资 源搜索的准确率与效率 事实上 语义网标准和技术所提出的对知识的组织结构 以及知识的推理 检索方式 使得标签系统可以成为语义网技术的一个直接应用 然而 使用语义网技术实现标签系统的最大问题是时间与内存的开销较大 使得 语义网技术在标签系统这样的附加系统上得不到流行 本文描述了一个应用语义网技术实现的标签系统的详细设计与实现 本文通 过引入语义网技术 并把语义推理技术应用到资源查找定位算法上 不但丰富了 标签语义 强化了标签的搜索定位功能 并且简化了具有类似功能的标签系统的 构建 通过对系统语义元素的精心挑选 以及对系统设计与实现的改进 优化了 内存使用以及响应时间 基本达到现时中小型应用中支持标签上万 平均响应时 间毫秒级的要求 此外 文本提出了在多用户共享语义库架构下的一个语义合理 性检查与纠正的算法 并进行了简单的测试 本文的研究表明 语义网技术发展 到今天 已渐趋成熟 有很大的应用价值与发展前景 关键词 语义网技术 标签系统 优化 浙江大学硕士学位论文 a b s t r a c t a b s t r a c t s e m a n t i cw e bi so n eo ft h eh o ts p o ti nt h ec u r r e n tr e s e a r c ho fw o r l dw i d ew e b i ti sa g r e a ti m a g i n a t i o na b o u tt h ei n t e l l i g e n ti n t e m e ti nt h ef u t u r e s i n c et h ec o n c e p to ft h e s e m a n t i cw e bw a sp r o p o s e db vt i mb e m e r s l e ei n19 9 8 t h e o r e t i c a ls t u d yo ft h e s e m a n t i cw e b e s p e c i a l l yi nt h es e m a n t i cw e bs t a n d a r d sa n dk e yt e c h n o l o g i e s h a d d e v e l o p e dg r e a t l y h o w e v e r t h eu s eo fs e m a n t i cw e bt e c h n o l o g i e si np r a c t i c ei sn o t a ss u c c e s s f u la st h et h e o r e t i c a ls t u d y o nt h eo t h e rh a n d t a g g i n gs y s t e mr i s e sa sa n a p p l i c a t i o no fn e x tg e n e r a t i o ni n t e r n e t at a g g i n gs y s t e mu s e sk e y w o r d st ol a b e l i n t e m e tr e s o u r c e ss u c ha sb l o ga r t i c l e s t h e r e b ye n h a n c i n gt h ea c c u r a c ya n de f f i c i e n c y o ft h es e a r c ho fi n t e m e tr e s o u r c e s i nf a c t t h ew a yo fo r g a n i z a t i o n r e a s o n i n ga n d s e a r c ho fk n o w l e d g eu s e db yt h es e m a n t i cw e b m a k e si td i r e c t l ya p p l i c a b l et ot a g g i n g s y s t e m s t h eb i g g e s tp r o b l e mw i t ht h i sk i n do fa p p l i c a t i o ni st h a ti ti sn o tv e r yt i m e a n ds p a c ee f f i c i e n t f o rt h i sr e a s o n t h es e m a n t i cw e bt e c h n o l o g i e sc a n n o tb ev e r y p o p u l a ri nt h o s es e c o n d a r ys y s t e m sl i k et a g g i n gs y s t e m t h i sp a p e rd e s c r i b e st h ed e t a i l e dd e s i g na n di m p l e m e n t a t i o no fat a g g i n gs y s t e m w h i c hi sb u i l to ns e m a n t i cw e bt e c h n o l o g i e s t h r o u g hi n t r o d u c i n gs e m a n t i cw e b t e c h n o l o g i e s a n da p p l y i n gs e m a n t i cr e a s o n i n gt e c h n o l o g yi nr e s o u r c es e a r c h i n g p r o c e s s t h i sp a p e rn o to n l ye n r i c h e st h et a gs e m a n t i c s s t r e n g t h e n st h er e s o u r c e s l o c a t i n ga b i l i t yo ft a g b u ta l s os i m p l i f i e st h et a g g i n gs y s t e mi n f r a s t r u c t u r e sw i t h s i m i l a rf u n c t i o n a l i t i e s b ys e l e c t i n gs e m a n t i ce l e m e n t sv e r yc a r e f u l l y a n di m p r o v i n g b o t ht h ed e s i g na n dl m p l e m e n t a t i o n w eo p t i m l z e st h em e m o r yu s a g ea n dr e a c t i o nt i m e o ft h et a g g i n gs y s t e m m a k e si tas y s t e mt h a ts u p p o r tt e nt h o u s a n d so ft a g s a n dr e a c t i nm i l l i s e c o n d so na v e r a g et ou s e rq u e r i e s w h a t sm o r e t h i sp a p e ri n t r o d u c e sa n a l g o r i t h mt od e t e c ta n dc o r r e c tu n r e a s o n a b l es e m a n t i c su n d e rm u l t i u s e re n v i r o n m e n t a n dp r e s e n t sas i m p l et e s t t h i sp a p e rs h o w st h a ts e m a n t i cw e bt e c h n o l o g i e si sm o r e a n dm o r em a t u r et o d a y 1 th a sg r e a tv a l u ea n db r i g h ti u t u r ei np r a c t i c a ju s a g e k e y w o r d s s e m a n t i cw e bt e c h n o l o g y t a g g i n gs y s t e m o p t i m i z a t i o n i i i 浙江大学硕士学位论文图日录 图目录 图2 1 单语句r d f 图 1 1 图2 2 多语句r d f 图 1 3 图3 1 类别断言三元组图 2 3 图3 2 属性断言三元组图 2 5 图3 3 系统模块设计图 2 6 图3 4j e n a 语义模型结构图 2 7 图3 5 系统运行的双j a v a 虚拟机架构图 2 8 图3 6 内存优化前的j e n a 语义模型内部结构图 2 9 图3 7 内存优化后的j e n a 语义模型内部结构图 3 0 图3 8 效率优化前的系统架构图 3 1 图3 9 分离j e n a 语义模型后的系统架构图 3 4 图4 1 合理性检查及纠正流程 3 9 图4 2 标签关系中的环路 4 0 图4 3 环路检查和纠正算法 4 l 图4 4 资源查找定位算法流程 4 3 图4 5 利用属性标签定位资源 4 5 图5 1 类别与属性关系图 5 0 图5 2 利用类别标签定位结果 5 l 图5 3 利用属性标签定位结果 5 2 图5 4 平均运行时间比较图 5 5 图5 5 单操作运行时间比较图 5 6 浙江大学硕七学位论文表目录 表目录 表2 1o w ll i t e 词汇表 1 5 表2 2o w ld l 新增词汇表 1 6 表2 3 几款流行语义推理器的特点 1 7 表3 1 描述类别标签的语义元素表 2 1 表3 2 描述属性标签的语义元素表 2 4 表5 1 标签与资源关联表 5 0 表5 2 内存优化结果 5 3 表5 3 效率测试数据参数表 5 3 表5 4 效率测试结果 5 4 表5 5 语义合理性检查纠正算法测试结果 5 7 浙江大学研究生学位论文独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已经发 表或撰写过的研究成果 也不包含为获得浙江大学或其他教育机构的学位或 证书而使用过的材料 与我一同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文作者签名 签字日期 年月日 学位论文版权使用授权书 本学位论文作者完全了解浙江大学有权保留并向国家有关部门或机构 送交本论文的复印件和磁盘 允许论文被查阅和借阅 本人授权浙江大学可 以将学位论文的全部或部分内容编入有关数据库进行检索和传播 可以采用影 印 缩印或扫描等复制手段保存 汇编学位论文 保密的学位论文在解密后适用本授权书 学位论文作者签名 导师签名 签字日期 年月 日 签字日期 年月日 浙江大学硕士学位论文致谢 致谢 首先衷心感谢我的导师陈越教授 她严谨的治学态度 渊博的学识以及敏锐 的学术眼光给予了我深刻的影响 同时也给我提供了一个宽松的研究学习环境 使得我能够顺利完成毕业论文 在此 我还要感谢在一起愉快的度过研究生生活的曹光彪楼5 1 9 各位同门 正是由于你们的帮助和支持 我才能克服一个一个的困难和疑惑 直至本文的顺 利完成 同时你们的陪伴让三年多的研究生活变得绚丽多彩 焦宪驶 2 0 1 0 年1 月2 8 日 浙江大学硕士学位论文第l 章绪论 1 1 课题背景 第1 章绪论 互联网特别是万维网 w o r l dw i d ew e b 的出现极大的改变了人们相互交流 的方式以及商业运作模式 它在从农业经济 工业经济到全球知识经济的变革中 起到了非常核心的作用 互联网的发展也改变了人们对于计算机的看法 在互联网出现以前 计算机 主要被认为是数值计算的工具 今天 计算机的主要应用领域在于信息处理 典 型的应用包括数据库 文本处理 以及游戏等等 人们已经渐渐的把计算机看成 是 信息高速公路 的接入点 今天万维网上绝大多数的内容是专门供人类阅读的 即使网页上的内容是从 数据库中的数据自动生成的 但是一般来说这些信息在呈现给用户的时候 都没 有保留它们本来在数据库中的结构 万维网的这个行为特性给使用软件工具处理 网页信息造成了很大的困难 要万维网用户提供更好的服务 最主要的障碍在于 计算机无法获得网页信息的语义 当然 我们有工具可以提取文本 划分段落和 词语 检查拼写以及统计词频 但是在解释句子意思和为用户提取有用信息这个 方面 软件的能力还有很大的欠缺 基于文本处理 怎么可以改善这种情况昵 一个方案是保留现在网络信息的 组织结构 然后在这上面应用越来越先进的自然语言处理和人工智能技术 这个 方案已经被尝试了很长一段时间 虽然取得了一定的进展 但是现在看来这个设 想有点太过于雄心勃勃 另一个方案重新组织互联网信息 从而让它可以更有效 的被智能技术处理 我们把这个想法看成是语义网 s e m a n t i cw e b 的起源 语 义网的目标是推动现在的万维网网语义网的方向发展 它并不是一个与现有万维 网平行的 信息高速公路 语义网成为研究热点以后 慢慢的产生了一个很重要的概念 标签 t a g 浙江大学硕士学位论文第1 章绪论 互联网上的标签是一种关键词标记 用户通过关键词标记互联网上的资源 用于 描述资源方方面面的信息 有人把标签与早期门户网站上用于导航的目录结构的 分类方法等同 事实上 标签比传统目录结构的分类法更丰富 更灵活 更有趣 首先 标签能够以相对较少的代价细化分类 一个涉及面比较广的资源 如果要 按照它涉及到的各个方面 通过目录结构来细化分类 将使得整个目录结构异常 庞大 而是用标签 只需要为资源添加关于各个方面的不同的标记 根本不需要 预先设置好栏目 其次 标签的意义不止在于分类 它还可以体现出用户个人的 思想 生活和感情 添加标签的行为是一个主动推荐的过程 用户通过对网络资 源添加标签表达对网络资源的某种看法 认为它应该享有某种特性 而并不是因 为标签本身出现在网络资源中 标签现在被广泛的应用于网络生活中 包括博客 照片 图书信息 音乐信 息 电影信息等 可以说 在今天的互联网上 标签无处不在 1 2 课题的提出 在我们与哈佛大学医学院的一个合作项目中 需要开发一个关于脑疾病的一 个门户网站 这个网站的目标在于整合多个相关网站 为用户提供更方便 更强 大的关于脑医学的资源的查找 在这个项目中 脑医学论文的查找定位是一个重 要的组成部分 由于我们的数据来自于多个不同的网站 它们有不同的组织结构 和格式 为此我们希望使用一种有高度灵活性和重用性的方法来实现这个功能 经过深入的研究调查 我们决定提供以标签来定位论文资源的方法 并结合现阶 段语义网技术的发展 把语义网技术应用到我们的实现中 从而使得我们的实现 不但集成了语义网技术的优势 并且达到规范化的要求 符合未来互联网的发展 趋势 具体来说 我们认真分析了系统的需求 对系统进行了详细的设计 然后实 现了一个标签系统并对系统进行了优化 我们使用本体描述语言来作为标签的内部描述语言 它们带有从属 等价等 关系 同时 通过语义网技术 我们使得脑疾病方面的专家可以编辑标签以及标 2 浙江大学硕士学位论文第1 章绪论 签之问的关系 然后通过标签和标签之间的这些关系 以及语义网推理技术 使 得对论文资源的查找定位更为高效而准确 1 3 国内外发展现状 互联网之父t i mb e r n e r s l e e 在1 9 9 8 年提出语义网的概念 并几经修订 形成了现在被普遍接受的语义网的定义 其关键是信息的计算机可理解 在此基 础上 研究人员为实现语义网进行了大量的理论研究及实践 然而 与人工智能 研究的情况类似 语义网的研究在经过了一段时间的可以说是过度狂热之后 渐 渐的有了平缓下来的迹象 发展到现在 人们意识到语义网的实现并不是一步之 遥 而是还有很长的路要走 虽然道路是曲折的 但是人们的普遍观点是语义网 是互联网的发展趋势 仍然不断的有大量的研究人员投身到语义网的理论与实践 研究当中 经过多年的发展 这些研究工作逐渐的转化成了现阶段语义网的根基 包括一系列的标准 概括来说 语义网的研究可以划分为三个方面 一是实现语 义网的体系结构的研究 二是语义网关键技术的研究 三是把语义网技术应用在 实际项目中的研究 设计语义网体系结构最主要的目的在于定义语义网应用程序之间的语义信 息交换的接口 其本质是人们对于实现语义网方式的探索 b e r n e r s l e e 为了支 持语义网的概念 在2 0 0 0 年提出了他第一版的体系结构雎1 b e r n e r s l e e 在此后 持续进行关于语义网的研究并参加w 3 c 的各种活动 陆续提出了修订版本的体系 结构 这些包括在2 0 0 3 年s i i a 会议上作为他的讲座的一部分提出的第二版n 3 在w w w 2 0 0 5 上提出的第三版h 1 以及在a a a l 2 0 0 6 上提出的第四版哺1 每个版本都 是前一版本的修正或细化 并且不断的把新制定的标准加入到体系结构当中 这 四个版本的体系结构是当前被应用最广泛的体系结构 但是它们都没有被很明确 的书面化和标准化 总体上 它们包含了很多前后的不一致的地方 另一方面 针对b e r n e r s l e e 所提出的第二和第三版本的单栈的语义网语言的体系结构 k i f e r b r u ij n b o l e y 和f e n s e l 认为 多个互相独立 互相配合的语义网语言 栈 更符合实际情况并且更有利于语义网的实现哺3 所以他们在2 0 0 5 年提出了双 3 浙江大学硕士学位论文第1 章绪论 塔式的语义网体系结构 1 g e r b e r 等人认为 体系结构主要的目的是描述系统功 能 具体的技术不应该出现在一个体系结构当中 他们试图使用一个 全面的 功能化的 层次化的 体系结构来综合现有的体系结构阳3 在语义网体系结构发展的同时 各大组织主要是w 3 c 开始制订语义网相关 标准以推动语义网进程 现时的所制定的标准集中在语义网体系结构的下层 主 要是关于互联网资源描述和知识表示的各种语义网描述语言的标准 资源描述框 架r d f 的概念由w 3 c 在1 9 9 9 年发布提出 在那以后 他们马上着手新标准的修 订 并且在2 0 0 4 年以一系列相关标准的形式发布了修订版本阳1 r d f 能够以三元 组的形式描述一切可以用u r i 标识的资源的属性 在发布r d f 标准的同时 w 3 c 定义了一种基于x m l 的r d f 表示 称为r d f x m l n 叭 是当前使用最为广泛的r d f 表示方式 此外r d f 还有其他的表示方式如n t r i p l e s h l r d f 的查询语言为 s p a r q l n 引 使用与关系数据库s q l 语言相类似的格式 在r d f 的基础上 w 3 c 提 出了r d fs c h e m e n 引 其作用是通过预设的标签定义新的词汇 随后 本体描述语 言o w l 作为一种比r d fs c h e m e 更成熟的语言由w 3 c 提出 1 o w l 是一种基于描述 逻辑n 别的本体描述语言 用于描述概念以及概念之间的关系 它与已有的本体描 述语言包括s h o e n 引 o i l n 引 d a m l o i l n 印等有很大的兼容性 在o w l 推理方面 推理依据一般有两种 一种是依据o w l 本身所定义语义元素 另一种是通过规则 描述语言如s w r l n 们制定额外的推理规则 而在推理算法方面 比较著名的是f b a a d e r 和u s a t t l e r 在2 0 0 1 年提出的算法心刚 伴随语义网一系列标准的提出 各个组织纷纷开发语义网的各种应用 这其 中包括像o w la p i 心引 j e n ao w l 接口啦 这种读写o w l 和r d f 基本应用 也有实现 难度较大的语义推理器 如p e l l e t 陋引 f a c t 豫3 1 r a c e r 瞳盯 等 j e n a 实现了很 多w 3 c 推荐的标准 试图建立一个完善的语义网应用开发框架比引 为了统一语义 推理器的应用 d li m p l e m e n t a t i o ng r o u p 提出了d i g 接口乜7 在上述这些与标 准紧密联系的应用的基础上 产生了一些更上层的语义网应用和工具 d 2 r q 应用 在关系数据库上 并将之转化为一个r d f 图担引 p r o t e g e h t t p p r o t e g e s t a n f o r d e d u s w o o p a l t o v as e m a n t i c w o r k s 4 浙江大学硕士学位论文第1 章绪论 h t t p 1 i n k a l t o v a c o m s e m a n t i c w o r k s h t m l 这些r d f o w l 编辑器使得语 义数据可以更直观的被修改 语义网技术也逐渐的开始应用在互联网上 例如 s w o o g l e 瞄门是一个针对本体的互联网搜索引擎 在我国 语义网的研究相对的落后 主要体现在理论研究较少 所引用参考 文献基本为国外参考文献 不过情况在近年来逐渐改善 无论是论文的数量 还 是研究的广度和深度 都有不错的发展势头 论文的主题涵盖语义网定义阳2 3 钔瞄制 语义网体系结构 3 5 m 引 语义网关键技术m 1 勰儿3 小4 引 此外 还有一些关于语义网技 术对其他领域的影响与启示的论文h 妇m 删 在语义网应用方面 包括r d f 的应用 和存储h 制 基于r d f m l 的语义网搜索引擎的设计与实现h5 1 语义网开发框架和 平台的设计与实现n 引 本体的构建与应用n 7 儿4 刚等等 1 4 课题的意义 作为语义网技术的一个实际应用 我们把语义网标准应用到标签系统上 使 得标签不再是互不关联的平面结构 而是可以利用语义网标准里面定义的丰富的 语义 把我们的标准按照语义网标准来组织的好处有两个 第一 标准化的描述 语言有利于知识的共享 通过我们的系统 脑疾病方面的专家为论文添加标签 并且编辑标签之间的关系 这些语义数据在导出以后 可以很容易的应用到其他 使用语义网标准的网站中 同时 我们也可以利用互联网上由其他组织发布共享 的本体数据 第二 按照语义网标准来组织我们的标签 使得我们可以应用语义 网社区里面各种功能强大的推理器 推理器的作用是可以通过已知的语义关系推 理出蕴含的语义关系 虽然从理论上说 不使用语义网标准也能实现这种推理 但是语义推理是一个相对比较专业的课题 实现起来有一定的困难 应用语义网 标准能大大的节省开发成本 另外 我们的系统相当于实现了 个网页上的的语义编辑器 有利于信息的 进一步共享 一般来说 本体数据都是由专家学者在线下编辑 然后发布到互联 网上以达到共享的目的 而我们系统中的语义编辑器是基于互联网的 通过我们 系统修改的语义数据 能够马上体现在我们的系统中 用于资源的检索 浙江大学硕士学位论文第1 章绪论 1 5 本文的组织结构 文章其余部分的组织结构如下 第2 章介绍语义网标准和技术 以及相关应用开发工具 第3 章详细介绍了系统设计 包括标签的设计以及系统模块设计 然后针对 系统初期存在的问题 仔细分析了造成这些问题的原因 并提出一系列相应的解 决方案进行优化 第4 章首先提出了计算标签关系可信度的方法 并利用这些可信度对不合理 的语义进行排除 然后介绍了利用标签进行资源查找定位的算法 第5 章对系统进行了一系列测试并讨论了测试结果 第6 章总结了本文的主要工作 并提出了未来的发展方向 其中 本文3 5 章是作者的主要工作 1 6 本章小结 语义网作为一个新兴互联网产物 其充满活力前景吸引了许许多多学者对其 进行研究 本章对论文课题的背景 研究意义等进行了简单的介绍 使得读者对 本论文的内容有整体的把握 同时还对本文的行文结构进行了大致的介绍 方便 读者们的阅读需要 第一节对课题产生的背景作了一个大体的介绍 阐述了发展语义网的必要性 以及发展方向 第二节介绍了本文希望解决的问题以及主要工作 第三节介绍了课题在当前语义网发展的大环境下的地位和意义 第四节介绍了本文的组织结构 包括各章的主要内容 6 浙江大学硕士学位论文第2 章语义网相关技术介绍 2 1 语义网概述 第2 章语义网相关技术介绍 2 1 1 语义网的基本概念 今天我们所使用的万维网 实际上只是一个存储和共享信息的媒介 这些媒 介一般是文本和图像 我们所看到的这些文本和图像 都是计算机不加识别的呈 现给我们的 计算机并不知道这些信息所蕴含的意义 语义网是人类对未来互联网的一个伟大设想 它是一个发展中的项目 它的 核心在于 通过给万维网上的文档添加能够被计算机所理解的元数据 语义 从而使得整个互联网成为一个通用的信息交换媒介 在这样的网络里面 信息都 被赋予了明确的含义 计算机不但能够理解这些含义 而且能够自动处理和收集 网络上这些可用的信息 并利用这些信息为人类进行推理和决策 语义网将使人 类从搜索相关网页的繁重劳动中解放出来 人类在语义网上提供相关资源的语义 信息 计算机结合个人偏好 能够准确的定位到人类想得到的资源 而不是像今 天的万维网搜索引擎 会给你罗列出数以万计的无关结果 语义网是对万维网的 本质的变革 它的主要任务是使得网络信息能够更加便于计算机进行查找和处 理 将今天万维网中一个个的信息孤岛 变成一个巨大的且高效的信息数据库 2 1 2 本体的基本概念 本体论 o n t o l o g y 是近年计算机科学中的研究热点 它本来是哲学概念 研究存在的本质 但在近几十年里 这个词被应用到了计算机科学中 并且在人 工智能 计算机语言以及数据库理论中扮演着越来越重要的角色 虽然到目前为 止 本体论还没有统一的定义和固定的应用领域 但是在计算机科学中 大家普 遍认可本体论是对概念化的精确描述和详细说明 在形式上 个本体往往是一 个正式的词汇表 其核心作为在于定义某一领域内的专业词汇以及它们之间的关 7 浙江大学硕士学位论文第2 章语义网相关技术介绍 系 本体论研究热点的出现其实和语义网的提出和发展密切相关 为了实现语义 网 需要提供一种计算机能够理解的 结构化的语义描述机制 以及一系列的推 理规则以实现自动化推理 而这样的知识表示和知识推理 正是本体论的研究范 畴 在语义网中 最典型的本体具有一个分类体系和一系列的推理规则 其中分 类体系定义对象类别和类别之间的关系 分类体系提供推理基础 借助推理规则 语义网能够从已知分类体系 推理出隐含的分类体系知识 为了实现语义网中对本体的描述 国际万维网联盟 w o r l dw i d ew e b c o n s o r t i u m 先后提出了一系列的规范化本体描述语言 包括r d f s 和o w l 等 2 1 3t b o x 与a b o x 在计算机科学中 t b o x 和a b o x 共同组成一个知识库 其中t b o x 表示知识库 中的术语部分 a b o x 表示知识库中的断言部分 t b o x 和a b o x 被用来描述本体里 面两种不同的陈述语句 t b o x 语句通过描述词汇来描述一个本体系统 例如各种 类别和属性 它更像我们平常所用的字典 包含很多词汇的定义 a b o x 语句则是 使用这些词汇的其他语句 从面向对象的角度来看 t b o x 相当于其中的类 a b o x 则更多的与类的具体实例相关 举个例子来说 典型t b o x 语句的是以下这样的 形式 或者 而典型的a b o x 语句的是以下的形式 8 在上面几个例子中 人 司机和乘客都可以看成是类别 而小王则是一个个体 是司机的一个实例 2 2 语义网标准 自语义网概念提出 发现到现在 w 3 c 为之制定了一系列的标准 这里我们 介绍两个关于知识表示的两个重要标准 r d f 与o w l 2 2 1 资源描述框架r d f 1 r d f 的概念 r d f r e s o u r c ed e s c r i p t i o nf r a m e w o r k 即资源描述框架 是一种用来描 述万维网上关于各种资源的信息的语言 例如网页的标题 作者和修改日期 网 络文档的版权信息 或者某些共享资源的可用时间表等等 实际上 通过泛化 网 络资源 的概念 r d f 可以用来描述互联网上任何可以标识的资源 甚至它所描 述的资源在互联网上其实是无法获取的 这样的例子包括网上商城里各种商品的 规格 价钱和是否有货等信息 而商品本身存在于现实中 r d f 的设计意图并不单单是让人类可以理解 而是让计算机可以方便的处理 并理解它 r d f 提供了一个通用的框架来描述资源 所以它能够由不同的应用所 共享语义 而不会造成语义的丢失 共享语义的意思语义本身被共享了 而不是 从其中可以得到语义的对象 正因为r d f 是一个通用的框架 r d f 社区中已经有 很多r d f 的解析器工具和处理工具 应用程序的设计者可以直接利用这些工具 而无须实现自己的r d f 解析器 2 r d f 的基本结构 r d f 规范是定义在x m l 的基础上的 使用x m l 来表现r d f 使得r d f 与生俱 来就具有格式结构化 可交换等优点 让我们来看看r d f 的基本元素 比如我们想要说一个名叫阿北的人创造了 9 浙江大学硕士学位论文第2 章语义网相关技术介绍 h t t p w w w d o u b a n c o l l q 这个网站 一种很直接的方法是利用自然语言比如中文 来表达 我们把上面这句话的某些部分加粗 是为了说明在需要表达某个对象的属性的时 候 我们需要有一些方法来指认出某些东西 包括 语句所描述的对象 在这里是h t t p w w w d o u b a n c o m 网站 代表所描述对象的某一方面本身的对象 在这里是创始人 代表所描述对象的某一方面的属性的对象 在这里是阿北这个人 h t t p w w w d o u b a n c o m 这个网站还可以有很多其他的属性 例如创建日期 语言等等 这些属性都可以通过上述的形式来表达 r d f 正是基于这样的想法 被描述的对象可以有很多不同方面的带有属性值的属性 不过在r d f 里面 这些 元素都有特定的名字 被描述的对象称为主体 代表对象哪一个方面被描述的对 象称为谓词 代表某个属性的值的对象称为客体 这样的一组对象在r d f 里面被 称为一个三元组 三元组是r d f 的基本元素 一个r d f 就是有很多个这样的三元 组构成的 但是正如前文所说 r d f 是为了让计算机来 阅读 的 为了达到这个目的 我们还需要两个东西 一个是能够标识不同的主体 谓词和客体的系统 使计算 机不至于混淆名称相似的不同对象 另一个是一套能表达这种三元关系的标准语 言 便于在不同计算机上传输 幸运的是我们所需要的很早就存在于互联网中 一个是u r i u n i f o r mr e s o u r c ei n d e n t i f i e r 另一个是x m l 如果我们给上述 三元组都赋上u r i 主体 h t t p 嗍 d o u b a n t o m 谓词 h t t p e x a m p l e o r g v o c a b s c r e a t o r 客体 h t t p e x a m p l e o r g p e r s o n a b e i 通过 m l 语言 我们可以把这个三元组表示成 1 0 浙江大学硕 i 学位论文第2 章语义网相关技术介绍 我们把r d f 通过x m l 来表达的语法称为r d f m l 值得一提的是上面所示的 r d f m l 并不是例子中的三元组的唯一表示方法 r d f m l 所定义的格式是很灵 活的 具体的格式超出本文的范围 读者可以参阅w 3 c 相关的标准文档 然而 无论采用什么格式 r d f x m l 所表示的语义都是唯一的 这样的三元组也可以通过有向图来表示 主体和客体通过节点来表示 谓词 通过从主体指向客体的弧来表示 这样的有向图称为r d f 图 上述三元组可以通 过图 2 1 所示的r d f 图表示 图2 1 单语句r d f 图 让我们再看一个复杂的例子 假设有这样的一组断言 有一个人在网络上 可以由h t t p e x a m p l e o r g p e o p l e z h a n g s a n 这样u r i 来标识 这个人的名字 是张三 他的头衔是教授 他的电子邮箱是z h a n g s a n e x a m p l e o r g 并且电子邮 箱的密码是1 2 3 4 5 6 它可以由下面的r d f m l 来描述 浙江大学硕士学位论文第2 章语义网相关技术介绍 c o n t a c t p e r s o nr d f a b o u t h t t p e x a m p l e o r g p e o p l e z h a n g s a n c o n t a c t f u li n a m e 张三 c o n t a c t f u l l n a m e c o n t a c t m a i l b o xr d f r e s o u r c e m a i l t o z h a n g s a n e x a m p l e o r g 教授 c o n t a c t p e r s o n a l t i t l e 1 2 3 4 5 6 或者 我们可以通过图 2 2 所示的r d f 图来表达同样的语义 1 2 浙江大学硕士学位论文第2 章语义网相关技术介绍 图2 2 多语句r d f 图 注意到图中 m a i l t o z h a n g s a n e x a m p l e o r g 这个u r i 在其中是一个三元组中 是客体 而在另一个三元组中是主体 2 2 2 本体描述语言o w l r d f 已经有很好的表达语义的能力 但是r d f 是否已经足够了呢 与x m l 的 情况类似 r d f 中的属性集也是没有任何的限制的 比如说某个表示作品创作人 的属性 我们既可以用 来表示 也可以用 来表示 也就是说 同一个概念 可以通过不同的词汇来描述 这个是我们熟知的同义词现象 跟同 义词相对的另一个现象是一词多义的现象 一个词的具体含义跟上下文密切相 关 这两种现象都是跟现实生活相 致的 在实际应用中很常见 但是r d f 并没 有表达这两种语义的能力 为了解决这样的问题 我们在描述语义的时候可以通 过本体技术 对语义描述的结果作进一步的约束 在本体描述语言上 w 3 c 提出 了o w l w e bo n t o l o g yl a n g u a g e 它的建模基础是r d f s c h e m e 这样 o w l 本体描述语言天生就具有了r d f 数据模型的优点 计算机可处理以及语义可交换 浙江大学硕士学位论文第2 章语义网相 关技术介绍 o w l 本体描述语言中定义了丰富的词汇 这些词汇或者定义新的类型或者属 性 或者定义词汇之间的关系 这样 o w l 有比r d f 远为强大的语义表达能力 例如上文提到的同义词 可以通过o w l e q u i v a l e n t c l a s s 或者 o w l e q u i v a l e n t p r o p e r t y 这样的词汇来描述 然而这里存在一个问题 是不是语 义表达能力越强越好呢 我们不能忘记语义网的目标 通过广泛的存在的可交换 的语义 使得计算机可以为人类作决策 要作出决策 就要通过语义的推理 要 作出正确有效的决策 就需要保证推理的有效性和效率 但是语言的表达能力越 强大 推理的难度就越大 效率和正确率就更难保证 为了权衡表达能力和推理 能力 w 3 c 把o w l 分成三个表达能力递增 推理难度也递增的子语言 o w ll i t e o w ld l 和o w lf u l l 其中每一种子语言都是它的前一个子语言的表达合法性与 推理有效性的扩展 具体来说 对于下面的每一点 正向都成立 但是反过来都 不成立 任何合法的o w ll i t e 本体都是合法的o w ld l 本体 任何合法的o w ld l 本体都是合法的o w lf u l l 本体 任何有效的o w ll i t e 推理都是有效的o w ld l 推理 任何有效的o w ld l 推理都是有效的o w lf u l l 推理 程序开发人员如果决定采用o w l 技术 需要认真的考虑哪个子语言更合乎他 们的要求 1 o w ll i t e 如果用户只需要基础的分类系统以及简单的限制语句 o w ll i t e 能满足他们 的需要 o w ll i t e 的特点是简单 所以相对于o w ld l 与o w lf u l l 为o w ll i t e 提供工具支持将更为的容易 在o w ll i t e 上进行的推理的效率与推理的准确率 也更高 o w ll i t e 包括表 2 1 所示的词汇 1 4 浙江大学硕士学位论文 第2 章语义网相关技术介绍 表2 1o w ll i t e 词汇表 继承自r d fs c h e m e 相等与不等 属性特性 宰c l a s s t h i n g n o t h i n g 木e q u i v a l e n t c l a s s 木0 b j e c t p r o p e r t y 木r d f s s u b c l a s s o f 木e q u i v a l e n t p r o p e r t y木d a t a t y p e p r o p e r t y 木r d f p r o p e r t y 幸s a m e a s木i n v e r s e o f 幸r d f s s u b p r o p e r t y o f i c d i f f e r e n t f r o m 幸t r a n s i t i v e p r o p e r t y 宰r d f s d o m a i n 木a 1 1 d i f f e r e n t 术s y m m e t r i c p r o p e r t y 幸r d f s r a n g e 木d i s t i n c t m e m b e r s 木f u n c t i o n a l p r o p e r t y 宰i n d i v i d u a l 丰i n v e r s e f u n c t i o n a l p r o p e r t y 属性上的限制 基数上的限制 文档头信息 木r e s t r i c t i o n 木m i n c a r d i n a l i t y o n l y0o r1 掌o n t o l o g y 木o n p r o p e r t y 木m a x c a r d i n a l i t y o n l y0o r1 i m p o r t s 爿 a li v a l u e s f r o m木c a r d i n a l i t y o n l y0o r1 木s o m e v a l u e s p r o m 类型相交 版本信息 注释属性 唪i n t e r s e c t i o n o f versi o n l n f o爿 r d f s l a b e l 木p r i o r v e r s i o n 木r d f s c o m m e n t 数据类型 木b a c k w a r d c o m p a t i b l e w it h宰r d f s s e e a l s o 木i n c o m p a t i b l e w i t h r d f s i s d e f i n e d b y 术x s dd a t a t y p e s 枣d e p r e c a t e d c l a s s 女a n n o t a tio n p r o p e r t y 木d e p r e c a t e d p r o p e r t y木o n t o l o g y p r o p e r t y 2 o w ld l o w ld l 之所以称为o w ld l 是因为它跟逻辑学中的描述逻辑 d e s c r i p t i o n l o g ic s 是一致的 描述逻辑的研究是o w ld l 的基础 o w ld l 子语言在保证推 理完备性 所有结论都保证能被推理出来 和推理可判定性 所有推理都在有限 的时间内完成 的前提下 为用户提供最大程度的描述能力 它在一定的限制条 件下包括了o w l 本体描述语言的所有构建语句 这些限制条件 作为令一个类型的实例等等 o w ld l 在o w ll i t e 基础上增加了表 2 2 所示的词汇 包括一个类型不能 浙江大学硕士学位论文第2 章语义嘲相关技术介绍 表2 2o w ld l 新增铡汇表 类别原语 类别表达式的布尔组合 木o n e o f d a t a r a n g e木u n i o n o f 宰d i s j o i n t w i t h木c o m p le m e n t o f 木e q u i v a l e n t c l a s s i n t e r s e c t i o n o f i c r d f s s u b c l a s s o f 任意
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 事业科业务培训课件
- 慢性肾脏病4期的护理
- 事业单位安全培训总结课件
- 胆管癌的术后护理
- 《老人与海》课件教学
- 招标采购从业人员考试(招标采购专业实务初级)在线复习题库及答案(2025年全国)
- 《穷人》公开课课件
- 生产企业个人工作总结
- 《眼睛的抗议书》课件
- 2025合作项目合同样本:工程建设项目合作协议范本
- GB/T 46104-2025电解水制氢系统功率波动适应性测试方法
- 信贷档案管理培训课件
- (2025)安全知识竞赛试题(附完整答案)
- 赛轮埃及年产300万条半钢子午线轮胎项目可行性研究报告
- 2025年辅警招聘考试(行政职业能力测验)复习题及答案
- 催收行业培训课件
- 学堂在线 中国传统艺术-篆刻、书法、水墨画体验与欣赏 章节测试答案
- 胜思石器时代宠物一级四围表
- 典型船体结构术语
- 调查单位基本情况表
- LI6400光合仪维护保养和简单故障处理
评论
0/150
提交评论