




已阅读5页,还剩60页未读, 继续免费阅读
(管理科学与工程专业论文)面向本体映射的语义相似度计算方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
国防科学技术大学研究生院硕士学位论文 摘要 语义网是解决现行w e b 不能自动处理海量信息的有效途径 本体作为一种领 域知识概念化的方法 是语义网的基础 w e b 本身的分布性使得不同的用户根据 不同的应用需求构建合适的本体 这些本体所描述的内容在语义上重叠或关联 但在表示语言和表示模型上却具有差异 这便造成了本体异构 本体映射能够很 好地解决本体异构问题 映射过程中 核心内容是概念间相似度的计算 m d 3 模型是一种典型的概念间相似度计算方法 它基于本体描述 分别从概 念名称 特征属性以及语义邻居三个方面计算相似度 然后加权综合得到概念之 间的综合相似度 然而它还存在一些不足 本文在分析m d 3 模型的基础上 增加了非层次关系以及实例对概念相似度的 影响 提出了m d 4 模型 并进而提出了基于m d 4 模型的本体映射机制 构建了 相应的本体映射流程 设计实现了基于m d 4 模型的本体映射算法 搭建了本体映 射的实验平台 三组本体映射的对比实验显示 在同等条件下 与m d 3 模型相比 m d 4 模型在返回率和精确率上都有所提高 相信随着本体技术的不断发展 m d 4 模型的优势还有待于进一步发现 主题词 语义网本体本体映射语义相似度m d 3 模型m d 4 模型 第i 页 国防科学技术大学研究生院硕士学位论文 a b s t r a c t s e m a n t i cw e bi sag o o dw a yt os o l v et h ep r o b l e mt h a tt h ec u r r e n tw e bc a i l t p r o c e s st h em a s s i v ei n f o r m a t i o na u t o m a t i c a l l y o n t o l o g yi st h eb a s eo ft h es e m a n t i c w e bb e c a u s ei ti sag o o dm e t h o do fc o n c e p t u a l i z a t i o no ft h ed o m a i nk n o w l e d g e t h e d i s t r i b u t i o no ft h ew e bm a k e st h a td i f f e r e n tu s e r sd e v e l o pt h e i ro w l lo n t o l o g i e s a c c o r d i n gt ot h e i rr e q u i r e m e n t 1 1 1 ec o n t e n to ft h e s eo n t o l o g i e si so v e r l a p p e do rr e l a t e d i nt h e i rs e m a n t i c b u tt h ed e s c r i p t i o nl a n g u a g ea n dt h em o d e la r ed i f f e r e n t s ot h e o n t o l o g yh e t e r o g e n e o u sh a sg e n e r a t e d o n t o l o g ym a p p i n gc a n s o l v e dt h ep r o b l e mw e l l a n di nt h ep r o c e s so fo n t o l o g ym a p p i n g d e t e r m i n i n gt h es i m i l a r i t yo ft h ec o n c e p t s a c r o s sd i f f e r e n to n t o l o g i e si st h ek e y 1 f 1 1 et r i p l em a t c h i n gd i s t a n c em o d e i m d 3 i sat y p i c a lm e t h o dt od e t e r m i n et h e s i m i l a r i t yo fc o n c e p t sf r o md i f f e r e n to n t o l o g i e s t h em o d e li so nt h eb a s i so fo n t o l o g y s r e p r e s e n t a t i o n s t od e t e r m i n i n gt h es i m i l a r i t yf r o mt h r e ef a c e t s 1 l e x i c o nm a t c h i n g 2 f e a t u r em a t c h i n g a n d 3 s e m a n t i c n e i g h b o r h o o dm a t c h i n g t h cg l o b a ls i m i l a r i t yi st h e n aw e i g h t e ds u mo ft h es i m i l a r i t yo f e a c hc o m p o n e n t m d 3m o d e li sag o o dm e t h o d b u t i th a ss o m es h o r t c o m i n g s o nt h eb a s i so fa n a l y s i st ot h em d 3m o d e l t a k i n gi n t oa c c o u n tt h ei n f l u e n c eo f n o n h i b e r a r c h yr e l a t i o n sa m o n gc o n c e p t sa n dt h ei n s t a n c e so fc o n c e p t s t h ep a p e rh a s p r o p o s e dt h em d 4m o d e l o nt h eb a s i so ft h em d 4m o d e l w eh a v ep r o p o s e dt h e o n t o l o g ym a p p i n gm e c h a n i s m d e s i g n e dt h e f l o w o fo n t o l o g y m a p p i n g a n d i m p l e m e n t e dt h ea r i t h m e t i co fo n t o l o g ym a p p i n g a n dt h e nh a v eb u i l tt h ee x p e r i m e n t f l a to fo n t o l o g ym a p p i n g t r e eg r o u p se x p e r i m e n tr e s u l t ss h o wt h a tm d 4m o d e li s b e t t e ri nt h er e c a l la n dp r e c i s i o nt h a nt h em d 3m o d e li nt h es a m ec o n d i t i o n w i mt h e d e v e l o p m e n to ft h eo n t o l o g y i ti st r u et h a tt h ea d v a n t a g e so f t h em d 4m o d e lw i l lb e f o u n di nt h en e a rf u t u r e k e yw o r d s s e m a n t i cw e b o n t o l o g y o n t o l o g ym a p p i n g s e m a n t i c s i m i l a r i t y t h et r i p l em a t c h i n gd i s t a n c em o d e l f o u r f o l dm a t c h i n gd i s t a n c e m o d e i 第i i 页 国防科学技术大学研究生院硕士学位论文 表目录 表1 1 本体定义的演变 5 表1 2 本体中的四种基本关系 7 表4 1 四个本体描述范围的比较 4 9 表4 2m d 3 模型和m d 4 模型单匹配结果 5 0 表4 3m d 3 模型和m d 4 模型综合匹配结果比较 5 0 表4 4m d 4 模型不同权重的比较结果 5 1 第1 i i 页 国防科学技术大学研究生院硕士学位论文 图目录 图1 1 论文的组织结构 1 4 图2 1 概念图的相似度计算方法 2l 图2 2 概念层次结构中的最短路径 2 3 图3 1 本体的组成结构 2 7 图3 2 由p r o t 6 9 6 构建的交通工具的本体实例 2 8 图3 3 交通工具本体的关系实例表示 2 9 图3 4m d 3 模型的框架 3 0 图3 5m d 4 模型的基本思路 3 3 图3 6v e h i c a l 的语义邻居表示 3 6 图3 7 非层次关系表示图 3 7 图3 8m d 4 模型和m d 3 模型的比较 4 0 图4 1 基于m d 4 模型的本体映射流程 4 3 第1 v 页 独 创性声明 本人声明所呈交的学位论文是我本人在导师指导下进行的研究工作及取得的研 究成果 尽我所知 除了文中特别加以标注和致谢的地方外 论文中不包含其他人已 经发表和撰写过的研究成果 也不包含为获得国防科学技术大学或其它教育机构的学 位或证书而使用过的材料 与我 同工作的同志对本研究所做的任何贡献均已在论文 中作了明确的说明并表示谢意 学位论文题目 亘囱奎堡迭盟鲍适墓担丝廑让簋痘洼盈塞 学位论文作者签名 盏缝扔 魄砷年j 月护加 学位论文版权使用授权书 本人完全了解国防科学技术大学有关保留 使用学位论文的规定 本人授权国 防科学技术大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档 允 许论文被查阅和借阅 可以将学位论文的全部或部分内容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制手段保存 汇编学位论文 保密学位论文在解密后适用本授权书 学位论文作者签名 垄丝盈 作者指导教师签名 日期 切勺年 日期 劫0 7 年 日 日 a7 叩鸪 月 月 国防科学技术大学研究生院硕士学位论文 第一章绪论 1 1 研究背景 知识的记录和传播是人类文明延续和发展的根本保证 从远古的结绳记事和 烽烟传信 到现代大容量高速度的存储设备和便捷的无线电 光纤通信设备 人 类知识比以往任何时代都更容易被保存 组织 传播和检索 特别是在信息时代 的今天 w e b 极大地改变了人类利用知识的形式 w e b 是互联网上最重要的上层 应用 它一方面作为信息的载体 以丰富的表现形式将信息及时重现 另一方面 还提供各种检索和查询服务 使人们能方便获取所需信息1 1 1 尽管w e b 的诞生至今只有短短的十多年 但人类对它的关注和频繁使用极大 地促进了这项技术的不断发展和革新 从最初的静态h t m l 页面 到现在的动态 w e b 页面 从最初的对内容的简单描述 到今天将内容的结构和表示分离处理 无论w e b 的功能还是关键技术都发生了重大的变化 但到了上个世纪9 0 年代中期 随着w e b 信息量的膨胀 人类意识到缺乏自动处理w e b 海量信息的有效技术 人 类面临一个尴尬的境地 我们创建了w e b 这个庞大的知识库 却无法有效利用它 针对这些问题 b e m e r s l e e 于2 0 0 0 年提出了下一代w e b 的概念 语义网 语 义网汲取人工智能 哲学和逻辑学科的研究成果 希望对w e b 上信息的表示和获 取方式进行重大改进 以解决目前使用w e b 存在的问题 语义网将改变计算机在w e b 中的角色 使得它不但可以保存和重现信息 而 且能对信息进行智能化处理 这就要求在语义网中引入语义知识的表示 即语义 网不仅仅局限于将页面内容和表现形式分离 更强调增加具有语义的信息 从而 保证w e b 页面能被机器理解和自动处理 因此如何表示语义信息对语义网就显得 非常关键 目前网络上的数据可分为两种 面向人类阅读的数据与面向机器处理的数据 不同的使用方式造成了对数据的要求不同 这两种数据的差异主要体现在 面向 人类阅读的数据强调数据的表现形式 不需要有语义标记 由人来实现语义提取 而面向机器处理的数据强调机器可读 要求具有跨平台的能力 以帮助机器理解 其语义信息的方式来组织数据 为什么会出现上述的差异呢 这是由于人类和机器对于数据理解方式的不同 而造成的 人对符号的解释可以通过概念映射到现实世界对象 也就是说 人类 可以获得符号的现实世界语义 而机器却很难做到这一点 机器更关心的是如何 保证形式系统在逻辑运算上的正确性 而非语言符号与现实世界对象之间的映射 关系1 2 1 一般而言 哲学 语言学侧重于面向人类理解的语义研究 而数理逻辑和 第1 页 国防科学技术大学研究生院硕士学位论文 计算机科学则更加侧重于面向机器 应用程序 理解的语义研究 这两者之间存在很 大的不同 关于人类所理解的语义 语言学研究 3 认为 在认知发育的过程中 人类已在 大脑中建立了对世界的基本看法一概念树结构 并通过语言来表达这种概念树 结构 人对符号的解释可以通过概念直接映射到现实世界对象 关于机器 应用程序 理解的语义 我们以往常把它们分为 公理语义 4 j 操作语 义 5 1 指称语义 6 1 等 前二者在逻辑学中通常称作证明系统 指称语义则被称为一 种模型论语义 在传统应用程序开发过程中 对符号的语义解释通常由程序员本人完成 并 以硬编码的方式实现机器对符号的所谓 语义理解 这种硬编码方式实现比较 简单 但是并不适合于现今的网络环境 因为它无法保证不同程序员对符号的语 义解释一致 在不受控的网络环境下 这将无法保证系统之间的互操作性 为了解决上述问题 计算机科学家开始结合人工智能领域中有关知识本体的 研究成果 考虑将现实世界语义用形式语言来编码 即将某个领域内被公众所认 可的知识用形式语言编码 机器通过将符号 语义标签 向编码的映射来实现对符号 的语义理解 例如 在网络环境下的异构多主体的交互活动中 为了保证智能主 体之间能够互相理解所交互信息的含义 需要制定一些规范来定义交互术语的含 义 7 1 机器本身很难将符号向现实世界中的对象直接映射 但如果可以创建一个符 号系统 知识本体 即将现实世界中某个领域知识做形式化封装 那么机器就可以 通过将符号向知识本体映射来达成对符号语义的理解 这正是实现机器理解语义 的关键问题 r d f s 在x m l 的基础上提供了有限的语义描述能力 但还需要添加更多的用 于描述属性和类型的词汇 语义信息模型本体正是描述语义网中语义知识的建模 手段 它形式化地定义了领域内共同认可的知识 是语义网体系中的核心 语义网使计算机能够 理解 w e b 信息 实现计算机之间的智能交互 8 本体 是语义网的基础 它作为一种领域知识概念化和模型化的方法 可以用来描述计 算机处理数据的语义信息 目前本体已经成为语义w e b 中知识表示的标准 然而 w e b 本身的分布性使得各个领域甚至同一领域的不同组织定义他们自己的本体来 描述数据 这时 本体自身就是异构的 本体可能存在多种多样的异构问题 比 如 两个本体中相同 意义 的元素 元素表示本体中的概念 关系 属性以及 实例 可能使用不同的名称 相同名称也可能表示不同 意义 的元素 另外相 同领域的本体可能定义有不同的分类结构 不同本体库中的相同实例可能使用不 同的表示方法 实现w e b 信息交互的关键也就变成解决本体间的异构问题 第2 页 国防科学技术大学研究生院硕士学位论文 解决本体异构的通用方法是本体集成和本体映射 9 本体集成直接将多个本体 合并为一个大本体 本体映射则是寻找本体间的映射规则 这两种方法的最终目 的都是为了消除本体异构 达到异构本体间的互操作 为了实现基于异构本体系 统间的信息交互 本体映射的方法在本体之间建立映射规则 信息借助这些规则 在不同的本体间传递 而本体集成的方法则将多个本体合并为一个统一的本体 各个异构系统使用这个统一的本体 这样以来 它们之间的交互可以直接进行 从而也解决了本体异构问题 本体映射和集成的目的都是为了解决本体的异构问题 虽然它们的实际过程 存在差别 但相互之间也存在着联系 一方面 在本体集成过程中 映射可看作 是集成的子过程 在单本体的本体集成中 需要分析不同本体之间的映射 才能 够将它们集成为一个新本体 在基于全局本体一局部本体的集成过程中 需要在 全局本体和局部本体之间建立映射 另一方面 通过本体映射在异构本体间建立 联系规则后 本体就能根据映射规则进行交互 因此 建立映射后的多本体可视 为一种虚拟的集成 然而 集成本体的工作费时耗力 随着多本体的变化 集成 过程需要不断重复进行 代价过高 此外 集成的本体对于不同的应用不具有通 用性 缺乏灵活性 本体集成不适合解决语义网中分布和动态的多本体应用问题 实际上 大多应用只需要实现本体间的互操作就可以满足需求 完全的集成是没 有必要的 本体映射通过建立本体间的映射规则达到本体互操作 其形式比较灵 活 更能适应分布动态的环境 由于本体一般理解为概念 属性和关系以及实例的集合 属性即概念的属性 关系即概念间的关系 实例即概念的实例 因此本体映射主要是集中在概念间的 相似度计算及相应的映射 本体映射过程中 其核心内容是计算两个概念间的相 似度 并求出本体中概念的相似矩阵 当其相似度大于某个阈值时就认为这两个 概念间存在一定的映射关系 本文就是针对本体映射中语义相似度计算问题进行 研究 期望能更好地解决语义异构问题 1 2 1 本体的研究现状 1 2 国内外研究现状 本体的概念最初起源于哲学领域 可以追溯到公元前古希腊哲学家亚里士多 德尝试对世界上的事物分类 在信息系统领域 本体论目前主要用于知识的表示 组织和管理 本质上 本体提供的知识共享方式可适用于任意基于知识的系统 因此本体理念不仅在人工智能和知识工程领域引起研究人员的兴趣 而且在信息 系统的很多领域都正在得到广泛的应用 例如智能信息集成 知识管理 自然语 第3 页 国防科学技术大学研究生院硕士学位论文 言处理 信息检索系统 电子商务 以及传统的软件工程等方面 近几年来 本体论在万维网上的应用直接导致了语义网的诞生 创建语义网 的主要目的是解决w e b 信息共享中的语义问题 这给w e b 的未来发展带来了勃勃 生机和无限遐想 语义网得以研发的主要原因之一就是当前对基于网络的知识交 换和知识共享存在着巨大的需求与期望 因此 随着各种已有的和将要研发的w e b 应用的逐渐增多 人们不仅希望不同的系统能够共享某个共同公认的知识库或者 词汇 术语 集合 而且希望提供统一的领域模型 这样将会极大地促进和实现 不同信息系统之间数据或知识的交换 共享和复用 因此 支持数据 信息与知识的交换 共享和复用已成为当今的信息系统要 迫切面临的任务之一 本体的本质就是领域知识的共享和复用 此外 标准且形 式化的领域本体能够为信息系统之间的高层互操作提供很好的工具 即本体的最 大贡献在于规范某个或多个特定领域的概念和术语 为其在该领域或领域之间的 实际应用提供便利 同时 形式化的描述可成为信息系统中可复用和共享的组件 在这种理念的支持下 本体论将会大大提高人们对知识的搜索 积累和共享的效 率 从而使真正意义上的共享和知识复用成为现实 尽管本体论是信息系统领域中引入的新理念 但它和现有的方法和技术有着 密切的联系 本体可以将传统的面向对象方法中对象知识的概念及其之间的关系 约束进行较为精确的形式化定义 在本体论工程和软件工程学科之间存在着很多 潜在有用的相似性 而且 软件工程学科和本体研究者之间很少讨论的很多内容 都会有助于高级本体论工程的开发 例如设计模式 此外 软件体系和软件过程 也都能归并入本体论工程框架中 因为在此框架内 软件体系可以采用静态本体 论进行表示 而软件过程可以采用动态本体论进行描述 作为分布式异构环境中的知识体系 本体论为知识的语义理解 计算机理解 以及人机交互提供了应用框架和实现途径 虽然本体论在人工智能和知识表示中 已经被广泛的讨论与实践 但目前我国对本体论理念的很多研究和应用都还处于 不成熟的探索索阶段 还仅仅局限在概念的界定和初步的理论研究层面上 1 2 1 1 本体的定义 o n t o l o g y 的概念最初起源于哲学领域 它在哲学中的定义为 对世界上客观 存在物的系统地描述 即存在论 是对客观存在的一个系统的解释或说明 关 心的是客观现实的抽象本质 l0 在人工智能界 最早给出o n t o l o g y 定义的是n c c h e s 等人 他们将o n t o l o g y 定义为 给出构成相关领域词汇的基本术语和关系 以及利用这些术语和关系构 成的规定这些词汇外延的规则的定义 0 0 1 后来在信息系统 知识系统等领域 越来越多的人研究o n t o l o g y 并给出了 第4 页 国防科学技术大学研究生院硕士学位论文 许多不同的定义 其中最著名并被引用得最为广泛的定义是由g r u b e 提出的 本 体是概念化的明确的规范说明 w n b o r s t 对该定义也进行了引申 本体是共享 的概念模型的形式化的规范说明 1 1 1 表1 1 本体定义的演变 范畴提出时间 提出人定义 客观存在的一个系统的解释和说明 客观现实的一个抽象 哲学 本质 1 9 9 1 n e c h e s 等 给出构成相关领域词汇的基本术语和关系 以及利用这些 计 术语和关系构成的规定这些词汇外延的规则的定义 算 19 9 3 g r u b e r概念化的明确的规范说明 机 1 9 9 7 b o r s t共享的概念模型的形式化规范说明 1 9 9 8 s t u d e r共享概念模型的明确的形式化规范说明 f e n s e l 对最后一个定义进行分析后认为o n t o l o g y 的概念应该包括四个主要方 面 1 2 1 概念模型 通过抽象出客观世界中的一些现象的相关概念而得到的模型 明确 所使用的概念及使用这些概念的约束都有明确的定义 形式化 精确的数学描述 必须是计算机可读的 共享 本体中体现的是共同认可的知识 反映的是相关领域中公认的概念 集 它所针对的是团体而不是个体 尽管定义的方式不同 但从内涵上来看 不同研究者对于本体的认识是统一 的 o n t o l o g y 的目标是捕获相关领域的知识 提供对该领域知识的共同理解 确 定该领域内共同认可的词汇 并从不同层次的形式化模式上给出这些词汇 术语 和词汇之间相互关系的明确定义 本体即包括一个领域内的知识也包括各种领域 之间的知识 人类 数据库和应用软件使用本体来共享领域知识 一个领域是指 一个特定的学科范围或者知识范围 例如医药 设备制造 房地产等 进一步地 本体提供这种共识的更主要目的是为机器服务 机器并不能像人 类一样能够理解自然语言中表达的语义 目前 计算机只能把文本看成字符串进 行处理 因此 在计算机领域讨论本体 就要讨论本体究竟是如何表达共识的 也就是概念的形式化问题 这就涉及到本体的描述语言 本体的建设方法等具体 研究内容 1 2 1 2 本体的分类和构成 1 本体的分类 第5 页 国防科学技术大学研究生院硕士学位论文 根据本体不同方面的属性 如形式化程度 目的和描述对象 可以对本体 进行不同的分类 如根据本体的形式化程度不同 可以把本体分为高度非形式化 的 结构非形式化的 半形式化的和严格形式化的 1 3 根据本体的描述对象不同 可以把本体分为特殊领域本体 如医药 地理 金融等 一般世界知识本体 问题求解本体和知识表示语言本体等 1 3 1 g u a r i n o 提出以详细程度和领域依赖度两个方面对知识本体进行划分 描述或 刻画建模对象的程度较高的成为引用本体 程度较低的称为共享本体 根据知识 本体对领域的依赖程度由低到高分别分成了四个类别 领域本体 d o m a i no n t o l o g y 针对特定的应用领域抽象出领域知识的 结构和内容 包括各种领域知识的类型 术语和概念 并对领域知识的结 构和内容加以约束 形成描述特定领域中具体知识的基础 区别于领域的 问题和任务 通用或常识性的本体 主要描述客观世界一般性的知识 如时间 空间 状态和事件等 它们通常适用于几个领域 问题求解模型 p r o b l e ms o l v i n gm o d e l 以问题求解方法为描述对象的 本体 表示本体 r e p r e s e n t a t i o no n t o l o g y 通常不限制于一个特定的领域 仅 仅提供了一种表示实体的方式 但是没有规定必须干什么 在表示本体中 类 对象 关系 属性 槽等术语经过严谨的分析和定义 2 本体的构成 p e r e z 等人用分类法组织了o n t o l o g y 归纳出五个基本的建模元语 m o d e l i n g p r i m i t i v e s 类或概念 指任何事务 如工作描述 功能 行为 策略和推理过程 关系 即在领域中概念之间的交互作用 函数 是一类特殊的关系 这种关系的前n 一1 个元素可以唯一决定第n 个元素 公理 代表永真断言 如概念乙属于概念甲的范围 实例 代表概念的实例 从语义上讲实例表示的就是对象 而概念表示的则是对象的集合 关系对应 于对象元组的集合 概念的定义一般采用框架 f r a m e 结构 包括概念的名称 与其它概念之间关系的集合 以及自然语言对该概念的描述 基本的关系有4 种 如表1 2 所示 第6 页 国防科学技术大学研究生院硕士学位论文 表1 2 本体中的四种基本关系 关系名关系描述 p a r t o f 表达概念之间部分与整体的关系 表达概念之间的继承关系 类似于面向对象中的父类与子 k i n d o f 类之间的关系 表达概念的实例与概念之间的关系 类似于面向对象中的 i n s t a n c e o f 对象和类之间的关系 表达某个概念是另一个概念的属性 如 年龄 是 人 a t t r i b u t e o f 的一个属性 在实际建模过程中 概念之间的关系往往不限于上面列出的4 种基本关系 而是根据领域的具体情况定义相应的关系 往往领域中所要描述的情况复杂程度 越高 概念之间的关系越多 1 2 1 3 本体描述语言 由于机器并不能像人类一样能够理解蕴含在自然语言中的语义 计算机最终 把所有的信息都当作0 1 字符串进行处理 而本体的目的是使信息成为机器可理解 的 因此 在计算机领域讨论本体 首先就面临着本体究竟是如何描述的 也就 是概念的形式化问题 对应的研究内容就是本体的描述语言 自2 0 世纪9 0 年代 以来 一些基于越的本体实现语言陆续被提出 1 4 1 如k i f k n o w l e d g ei n t e r c h a n g e f o r m a t 与o n t o l i n g u a 斯坦福大学知识系统实验室提出的o k b c o p e nk n o w l e d g e b a s ec o n n e c t i v i t y o c m l o p e r a t i o n a lc o n c e p t u a lm o d e l i n gl a n g u a g e 和k a r l s r u h e 大学开发的框架逻辑语言 f r a m el o g i c 等 o w l 是一种对w e b 本体进行定义和例示的语言 o w l 相对x m l r d f s 拥 有更多的机制来表达语义 2 0 0 2 年7 月 w 3 c 在d a m l o i l 基础上发展了o w l 语言 以使其成为国际通用的标准语义w e b 语言 2 0 0 3 年2 月公布了 w e b o n t o l o g y l a n g u a g e o w l r e f e r e n c ev e r s i o n1 0 它是为了在w w w 上发布和共享o n t o l o g y 而提供的语义标记语言 o n t o l o g y 之所以逐渐引起人们的重视 主要的原因在于 它能够提供明确定义的词汇表 描述概念和概念之间的关系 使得使用者之间达 成对概念含义的共同理解 而对同一概念的语义共享和共同理解正是构建语义 w e b 的关键 本文所用的o w l 将以此标准为依据 o w l 作为r d f s 的扩展 是在d a m l o i l 的基础上发展起来的 目的是提 供更多的原语以支持更加丰富的语义表达 并更好的支持推理 与i m f s 一样 o w l 可以声明类 属性 及各自的层次关系 但是 o w l 还可以通过逻辑组合 算子 合取 析取 否定 在其他类的基础上构造新的类 同时o w l 可以通过属 性约束定义类 另外o w l 还可以声明某个属性具有传递性 对称性 函数性 或 第7 页 国防科学技术大学研究生院硕士学位论文 是某个属性的逆属性等 例如 在o w l 中可以声明属性 朋友 具有对称性 那 么如果声明了张三是李四的朋友 则可以推断出李四也是张三的朋友 显然 o w l 的这些新特性都超越了r d f s 的描述能力 为了应用的需要 o w l 提供了三种表达能力递增的子语言 o w ll i t e o w l d l 和o w lf u l l 其中 1 o w ll i t e 用于提供给那些只需要一个分类层次和简 单属性约束的用户 例如 虽然o w ll i t e 支持基数限制 但只允许基数为0 或l 开发支持o w ll i t e 的工具要比开发支持其他两个子语言的工具更容易些 2 o w ld l 支持那些不仅需要最强表达能力而且需要保持计算完备性 c o m p u t a t i o n a l c o m p l e t e n e s s 即所有的结论都能够保证被计算出来 和可判断性 d e c i d a b i l i t y 即所有的计算都在有限的时间内完成 的用户 它包括了o w l 语言的所有语义成 分 但是使用时必须符合一定的约束 例如 一个类可以是多个类的子类 但它 不能同时是另一个类的实例 另外 它是以描述逻辑为基础的 名字中d l 表示描 述逻辑 3 o w lf u l l 支持那些需要最强的表达能力和完全自由的r d f 语法 但是不需要可计算性保证的用户 例如 它允许一个类被看作是许多个体的一个 集合 而同时本身也作为一个个体 它允许在一个o n t o l o g y 增加预定义的 r d f o w l 词汇的含义 所以 没有推理软件能支持o w lf u l l 的所有特性 总的来 说 o w ll i t e 是o w ld l 的一个子集 它在o w ld l 的基础上除去了组合类以 及枚举类 并规定基数约束仅为o 或1 等 提供的是最简单最基本的o w l 语言成 分 o w ld l 要求类 属性 和个体是三个不相交的集合并提供了基于描述逻辑 的推理特征 可以在其上应用已有的推理工具 完整的o w l 用o w lf u l l 表示 它不严格区分类 属性和个体 并放松了o w ld l 中的某些推理限制 使其更适 合于某些数据库和知识表示系统使用 1 2 1 4 典型的本体介绍 自从本体的思想被引入计算机科学领域 人们已开发出不计其数的本体 这 些本体在规模和复杂程度上都有很大的差异 有的本体针对特定的领域 有的希 望建立通用的大规模常识知识库 这里将介绍一些典型本体 它们均不局限于特 定的具体领域 具有一定的通用性 并在本体的发展和应用中起着重要的作用 c y c 是一个巨型的 多关系型知识库和推理引擎 同时也是最著名的常识知识 库之一 它用本体定义其中的知识库 1 5 l c y c 的开发早在8 0 年代就已经开始 主 要负责人是l e n a t c y e 的应用领域覆盖了分布式人工智能 智能信息检索 自然 语言处理 语义网 知识表示 以及语义知识集成等方面 c y c 是大型的服好形人 工智能的一次尝试 c y e 中所有的知识都以逻辑声明的形式表示 它包含乐4 0 0 0 0 0 多个关键声明 包括对事实的简单陈述 关于满足特定事实陈述时得出何种结论 的规则 以及关于通过一定类型的事实和规则如何推理的标准 构建c y e 的核心 第8 页 国防科学技术大学研究生院硕士学位论文 成员不相信在通往智能化或创造智能主体的途中存在什么捷径 他们强调需要有 大型的具有内容的知识主体 而知识中的联系智能通过手工组织和比较信息来获 得 o p e n c y c 是c y c 的一个开源版本 h t t p w w w c y c c o m c y c o p e n c y c o v e r v i e w 它是世界上公开的最大和最全面的通用知识库和常识推理引擎 o p e n c y e 的1 0 版 本包括乐6 0 0 0 个概念 这是一个人类世界的上层本体 此外 它还包括关于这6 0 0 0 个概念的6 0 0 0 0 个断言 o p e n c y c 提供乐推理引擎 浏览知识库的方式 以及支 持应用开发的a p i w o r d n e t 是由p r i n c e t o n 大学的一些心理学家和语言学家开发的一个大型在线 知识库i l6 其主要组织者是m i l l e r w o r d n e t 能在概念层次上查找词汇 而不仅仅 是依据字母顺序来查找 因此 可以说w o r d n e t 是基于心理学规则的词典 w o r d n e t 的相关信息可从网站h t t p w o r d n e t p r i n c e t o n e t u 获得 最新的版本是2 0 0 5 年3 月 发布的2 1 版本 目前w o r d n e t 大约有2 0 31 4 5 个词义 其中包含乐1 5 2 0 5 9 个单 词和1 1 5 4 2 4 个合成词 除此之外 w o r d n e t 还含有7 7 7 3 9 个同义词集 w o r d n e t 与普通标准词典的最大不同是它将词分为四类 名次 动词 形容词和副词 w o r d n e t 一个显著的特征是它试图根据意义来组织分类词汇信息 而不是根据词 的形式 w o r d n e t 用同义词集来表达词汇的概念意义 比如 b o a r d p l a n k 表示木板 的概念 b o a r d c o m m i t t e e 表示会议桌的概念 w o r d n e t 采用语义关系来组织词汇 语义关系是指两个意义之间的关系 w o r d n e t 中的关系有同义词关系 反义词关 系 上厂f 位关系 部分整体关系和词形态上的关系 w o r d n e t 已被应用到诸多领 域 包括知识表示 知识工程 自然语言处理 文本翻译 信息检索和语义网等 s u m o 是建议上层共用本体的简称 由i e e e 标准上层知识本体工作小组所建 立1 1 7 其目的是发展标准的上层知识本体 这将促进信息的互操作 信息检索和查 询 自动推理和自然语言处理等应用 s u m o 的资源可从网站 h t t p w w w o n t o l o g y p o r t a l o r g 获得 s u m o 系统通过建立公认的最高层次的知识本 体 鼓励其他特定领域的知识本体以它作为标准和基础 衍生出更多的其他领域 的知识本体 并为一般多用途的术语提供定义 另外 s u m o 是形式化的 目前 它已经全部和w o r d n e t 建立了映射 s u m o 具有生成多种语言的模版 并能通过 工具支持对它的浏览和编辑 在各种领域本体的组合下 s u m o 的规模变得越来 越庞大 目前 它包含有2 0 0 0 0 个词汇和6 0 0 0 0 个公理 基因本体 由于生物学上定义混乱 不仅计算机难以精确检索到这些随时间 人为等多重因素而随机改变的定义 即使是完全由人手动处理也无法完成 现代 的生物学家浪费太多的时间和精力在搜寻生物信息上 基因本体项目的目标正是 为了使各种数据库中基因产物功能描述能够一致 1 8 1 这个项目最初是在1 9 8 8 年对 三种不同模式的生物数据库进行整合集成开始的 果蝇数据库 酵母基因组数据 第9 页 国防科学技术大学研究生院硕士学位论文 库和小鼠基因组数据库 从那时开始 基因本体不断发展扩大 现在已经是包含 数十种动物 植物和微生物的庞大数据库 基因本体的一些相关信息可以从网站 h t t p w w w g e n e o n t o l o g y o r g 得到 基因本体发展了具有三级结构的本体 分别描 述基因产物的相关分子功能 生物学途径和细胞学组建 这些定义是通用的 不 考虑具体的物种 截至2 0 0 4 年5 月1 0 日 基因本体中分别含有上述三种本体7 3 4 0 8 6 4 5 和1 4 0 9 个术语 目前基因本体的基本工作可分为三个部分 第一 提供和维 护定义 第二 将位于不同数据库中的本体语言 基因和基因产物进行联系 形 成网络 第三 开发相关的工具 使本体标准语言的生成和维护更为便捷 s d t s 1 9 在目前世界上的各种空间数据转换标准中 美国空间信息转换标准 s p m i 2 l 1d a t at r a n s f e rs t a n d a r d 以下简称s d t s 是一个比较完整和成功的标准 s d t s 包括概念 数据质量 总体规范和模块规范等方面的内容 这里主要介绍概 念 s d t s 的概念主要包括空间实体和属性 把现实世界中的实体与空间数据库中 数字表达的对象联系起来 定义了一个对存在于现实世界的空间实体和它们的相 关属性的列表 有2 0 0 多个基本实体用相关属性进行定义 选定了2 0 0 多个标准 术语和1 2 0 0 多个相关术语作为标准词汇 对于每一个标准实体都列出了和它相关 的属性 例如水道有4 0 多个相关属性 其中有位置 名称 宽度 深度 长度等 这个标准可以使多种属性与一特殊的实体相联系 1 2 2 本体映射的方法 本体能解决特定应用中的知识共享问题 但是 不可能构建出一个覆盖万事 万物的统一本体 这不仅是因为世界知识的无限性决定构建这样的本体在工程上 难以实施 更重要的是由于本体构建所具有的主观性和分布性特点决定了这种统 一本体的构建无法得到一致的认可 此外 过于庞大的本体也往往难以维护和使 用 实际中 不同的用户和团体根据不同的应用需求和应用领域来构建或选择合 适的本体 这样一来 即使在同一个领域内也往往存在着大量的本体 这些本体 所描述的内容在语义上往往重叠或关联 但在所使用的本体表示语言和表示模型 上却具有差异 这便造成了本体异构 在语义网中 为了获取其他应用所拥有的 信息 或者联合多个应用以实现更强大的功能 不同应用系统之间的信息交互便 无法正常进行 实际的语义网应用中 本体异构造成了大量的信息交互问题 因 此 解决本体异构 消除应用系统间的互操作障碍 是语义网应用面临的关键问 题之一 1 1 在分布式数据库及其它数据集成应用中也存在和本体映射类似的问题 其通 常的方法是定义一个全局模式描述分布式环境下的所有数据 这样 数据集成问 题就转换成本体数据库模式到全局数据库模式的映射问题 然而基于本体的信息 第l o 页 国防科学技术大学研究生院硕士学位论文 互操作和信息集成问题是一个更加动态的知识共享过程 这种全局模式方法并不 能完全适用 近年来 为解决本体异构问题 国内外许多专家学者和研究机构做了大量卓 有成效的研究工作 在个别领域以及一定程度上解决了一些语义冲突问题 并且 出现了一些可以应用的映射系统 概括起来发现本体映射的方法可分为以下四种 2 0 基于术语的方法 即借助自然语言处理技术 比较映射对象之间的相似度 以发现异构本体间的联系 基于结构的方法 即分析异构本体之间结构上的相似 寻找可能的映射规 则 基于实例的方法 即借助本体中的实例 利用机器学习等技术来寻找本体 间的映射 综合方法 即在一个映射发现系统中同时采用多种寻找本体映射的方法 一方面能弥补不同方法的不足 另一方面还能提高映射结果的质量 本体映射中用到的方法一般分为基于模式的方法和基于实例的方法 基于模 式的方法一般是从名称相似度 类型相似度 描述相似度等方面来考虑 基于实 例的方法一般利用数据实例信息来计算概念间的相似度 它既可单独使用也可和 模式级方法一起使用 目前 科研人员提出一些实现方法 如本体代数方法和本 体聚类方法 有的映射系统和工具已经在具体领域中被应用 本体代数方法方法是利用斯坦福大学设计的本体代数来进行本体映射 本体 代数包括三个操作符 即集合交 并和差 2 1 1 其目的是提供一种用来咨询存在大 量语义且互斥的知识资源的能力 通过建立关联 跨领域链接的规则 来实现知 识的互操作 并且需要定义由一些属性的抽象数学实体组成的上下文 即具有良 好结构的本体封装单元 2 2 1 m i t r a w i e d e r h o l d 和k e r s t e n 使用本体代数和关联本体 来实现本体间的互操作 它的输入是本体的图 2 3 1 其中一元操作符包括过滤 抽 取 二元操作符包括集合并 交 差 集合并操作符通过关联来链接两个源本体 图生成一个统一的本体图 集合并体现了本体的一致性 集合交操作符是用来生 成关联本体图 它包括利用关联生成器和两个本体间的关联规则生成节点和边 集合交决定了知识库所要处理的相似概念部分 集合差操作符可以用来辨识两个 本体之间的差别 并定义一个本体的条目和关系 它们不受另一个本体中的条目 和关系的影响 这一操作允许局部本体维护器来决定一个本体的范围 使得它和 别的领域本体间的映射关系是独立的 从而可以在不更新其它映射关系的情况下 独立进行操作 本体聚类方法是由v i s s e r 在k r a f t 项目中提出把本体映射分成多个一对一的 第1 1 页 国防科学技术大学研究生院硕士学位论文 映射来实现1 2 4 j 这些映射包括 类映射 源本体类名和目标本体类名之间的映射 属性映射 源本体一系列属性的值与目标本体一系列属性的值进行映射 源本体属性名和目标本体属性名的映射 关
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 双鸭山市中医院护理教学资源配置考核
- 2025年微型核反应堆及配套产品项目合作计划书
- 2025年矿山(小型露天采石场)安全管理人员考试笔试试题含答案
- 2025年结核培训试卷及答案
- 2025年全国安全生产月《安全知识》培训考试题库及答案
- 2025年驾驶员理论试题及答案
- 长治市中医院神经肌肉疾病诊断考核
- 通辽市中医院护理物资与高值耗材精细化管理试题
- 包头市中医院病理科技师年度考核
- 重庆市中医院术中神经保护技术考核
- 采暖拆除工程方案范文(3篇)
- 常州新质生产力发展现状
- 帽状云形成原因课件
- 雨水收集利用灌溉技术方案
- 2025成考专升本政治试题及答案
- 2025年惠州市龙门县平陵街道招聘村“两委”干部储备人选考试笔试试题(含答案)
- 2023年度海尔集团ESG社会责任报告:家电行业的可持续发展蓝图
- 国外军事思想课件简述
- 足球传球游戏课件
- 医疗计量知识培训内容课件
- 药品采购与管理法规制度指南
评论
0/150
提交评论