




已阅读5页,还剩76页未读, 继续免费阅读
(计算机应用技术专业论文)基于fca面向多数据的领域本体创建方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
| 1 j c o m p u t e rs c i e n c ea n dt e c h n o l o g ye n g i n e e r i n g b y y u e j i a np a n a d v i s e db y v i c e p r o f l i s o n gw a n g s u b m i r e di np a r t i a lf u l f i l l m e n t o ft h er e q u i r e m e n t s f o r t h ed e g r e eo f m a s t e ro f p h i l o s o p h y j a n u a r y , 2 0 1 0 n 脚9 肿4胛8 腓5m 2m 8 承诺书 重声明:所呈交的学位论文,是本人在导师指导下,独立进 所取得的成果。尽我所知,除文中已经注明引用的内容外, 的研究成果不包含任何他人享有著作权的内容。对本论文所 工作做出贡献的其他个人和集体,均己在文中以明确方式标 权南京航空航天大学可以有权保留送交论文的复印件,允许 和借阅,可以将学位论文的全部或部分内容编入有关数据库 可以采用影印、缩印或其他复制手段保存论文。 作者签名:趁 e l 期:塑:兰二垒 南京航空航天大学硕士学位论文 摘要 本体的引入,屏蔽了由于知识系统建造者不同而造成的在领域概念理解上的差异,为解决 知识系统中知识共享与重用提供了一条新的思路,同时为机器能自动理解语义提供了有力的支 持。本文在研究国内外领域本体创建方法的基础上,针对以往创建方法数据源的单一性、自动 化程度低、创建方法复杂等不足,提出一种基于f c a 的面向多数据源的领域本体创建方法,并 对其中涉及的重要算法进行了研究。 本文将领域本体理解成一个三元组结构:o = c ,r ,a ) 。其中c 表示概念,r 表示概念 间关系,a 表示公理。完成这三部分的提取,即完成本体的创建。 ( 1 ) 在概念的提取上,为了降低提取的复杂度,提高本体创建效率,引进了f c a 相关理 论。首先从不同的数据源提取形式背景,然后对其进行统一处理,形成独立的形式背景,从而 利用基于矩阵秩的概念格生成算法完成形式概念的提取,并用哈塞图进行了可视化( 即概念格) 。 ( 2 ) 在概念关系的提取上,利用已经形成的概念格完成概念间层次关系的提取。对于概念 非层次关系的提取,为了提高精度,本文提出的一种改进的概念相似度计算模型。实验数据表 明该模型具有良好的实用性。 ( 3 ) 在公理的提取上,本文应用数据挖掘中关联规则挖掘算法,实现公理的提取。 最后本文以数码领域本体创建为实例,对提出的领域本体创建方法进行应用,并对其中的 相关算法进行了实现,同时在全局上对提出的创建方法进行了总结。最后,对全文进行了总结, 指出了未来需要进一步进行的工作。 关键词:本体,f c a ,概念,概念格,关系,公理 基于f c a 面向多数据源的领域本体创建方法研究 a b s t r a c t i no r d e rt os h i e l dt h ed i f f e r e n c eb e t w e e nk n o w l e d g es y s t e m s ,o n t o l o g y si n t r o d u c t i o ni s a l l i r r e s i s t a b l et r e n d i tb e g a nan e wt r a i no ft h o u g h tt os o l v et h ek n o w l e d g es h a r i n ga n dk n o w l e d g er e u s e a n da l s op r o v i d e ds u p p o r tf o rm a c h i n et ou n d e r s t a n ds e m a n t i c sa u t o m a t i c a l l y t h i sp a p e rd i d r e s e a r c ho nt h ec o n s t r u c t i o nm e t h o do fd o m a i no n t o l o g yf r o mh o m ea n da b r o a d ,t h e np r o p o s e da m u l t i - s o u r c e - o r i e n t e do n t o l o g yc o n s t r u c t i o nm e t h o db a s e do nf c aa c c o r d i n gt ot h es h o r t c o m i n g s s u c h 舔d a t as o l l r c 七u n i c i t y , l o w - l e v e la u t o m a t i o na n dc o n s t r u c t i o nm e t h o dc o m p l e x i t yo ff o r e g o n e m e t h o d s ,a n da n a l y z e ds o m ei m p o r t a n tr e l a t i v ea l g o r i t h m sa b o u tt h i sm e t h o d i nt h i sp a p e r ,t h eo n t o l o g yi sv i e w e da sas t y l eo f t r i n i t y - s t r u c t u r e :o2 c ,r ,a ) ,w h i c hi n c l u d e c ( c o n c e p t s ) ,r ( r e l a t i o n s ) a n da ( a x i o m s ) ,a n dc a r r i e do u tt h et r i n i t y - s t r u c t u r e se x t r a c t i o nw i t ht h e r e s u l to ff i n i s h i n gt h eo n t o l o g yc o n s t r u c t i o n ( 1 ) a sf o rt h ec o n c e p te x t r a c t i o n , t h i sp a p e ri n 仃o d u c e dt h er e l a t e dt h e o r yo ff c as oa st ol o w c o m p l e x i t ya n di n c r e a s ec o n s t r u c t i o ne f f i c i e n c yf i r s t l yu s e dt h ed i f f e r e n tm e t h o d st og e ti t sf o r m a l c o n t e x ta c c o r d i n gt h ed i f f e r e n td a t as o u r c e ,t h e nm e r g e da n ds p l i n t e dt h e s ec o n t e x t st ot h e i n d e p e n d e n c ec o n t e x t s f i n a l l yc r e a t e df o r m a lc o n c e p t sa n dc o n c e p tl a t t i c ew i t ht h ea p p l i c a t i o no fa n a l g o r i t h mo fg e n e r a t i n gc o n c e p tl a t t i c eb a s e do nr a n ko fm a t r i x t h i sl a t t i c ei sv i s u a l i z e db yh a s s e g r a p h ( 2 ) a sf o rt h er e l a t i o n sa c q u i s i t i o n ,t h i sp a p e ru s e dt h ef o r m e dc o n c e p tl a t t i c et oe x t r a c tt h e s e m a n t i cr e l a t i o n sa n dp r o m o t e da ni m p r o v e dc o n c e p ts i m i l a r i t ym o d e lt oo b t a i nt h en o n s e m a n t i c r e l a t i o n si no r d e rt oi m p r o v et h ep r e c i s i o n t h ee x p e r i m e n td a t ap r o v e dt h em o d e lh a sag o o d p r a c t i c a b i l i t y ( 3 ) f o rt h ea x i o me x t r a c t i o n ,t h i sp a p e ri n t r o d u c e dt h ea s s o c i a t i o nr u l e sm i n i n ga l g o r i t h mo f d a t am i n i n gt op e r f o r mt h i st a s k t h i sp a p e ru s e dt h ed i g i t a lp r o d u c t sa se x a m p l e ,w h i c ha p p l i e dt h eo n t o l o g yc o n s t r u c t i o n m e t h o d ,a n dr e a l i z e ds o m er e l a t i v ea l g o r i t h m so ft h em e t h o di n v o l v e d ,f i n a l l yg a v et h ec o n c l u s i o no f t h em e t h o di nt h ev i e wo ft h ew h o l es i t u a t i o n a tl a s tc o n c l u d et h ew o r ko ft h ep a p e ra n dp r o s p e c tt h e f u t u r ea n dt h et r a i no ft h o u g h ts t u d i e df u r t h e r k e yw o r d s :o n t o l o g y , f c a ,c o n c e p t ,c o n c e p tl a t t i c e ,他l a t i o n ,a x i o m i i 南京航空航天大学硕士学位论文 目录 第一章绪论。1 1 1 选题背景、目的及意义l 1 2 国内外研究现状分析1 1 2 1 国外领域本体创建研究现状2 1 2 2 国内领域本体创建研究现状4 1 3 本课题研究内容和方案5 1 4 论文组织结构6 第二章本体综述和形式化概念分析( f c a ) 理论基础7 2 1 本体的基本概念7 2 1 1 本体的定义。7 2 1 2 本体的组织方式8 2 1 3 本体分类。9 2 2 面向不同数据源的本体构建方法概述。1 0 2 2 1 结构化数据源概念和关系的提取方法1 0 2 2 2 非结构化数据源概念和关系的提取方法11 2 2 3 半结构化数据源概念和关系的提取方法1 2 2 3 本体的在各方面的应用1 3 2 4f c a 理论基础13 2 5 本章小结15 第三章面向多数据源的本体概念挖掘一1 6 3 1 从不同数据源实现形式背景提取1 6 3 1 1 从纯文本中提取形式背景1 6 3 1 2 从h t m l 文档中提取形式背景。1 8 3 1 3 从关系数据库中提取形式背景2 2 3 2 形式背景的合并和分类研究2 2 3 2 1 形式背景间的关系和运算理论2 2 3 2 2 形式背景的合并和分类举例2 3 3 3 独立子格的生成以及子格的合并研究2 5 3 3 1 概念格的生成算法及其实例2 5 i i i 基于f c a 面向多数据源的领域本体创建方法研究 3 3 2 概念格的合并2 7 3 4 本章小结一2 8 第四章基于概念格的概念关系和公理的挖掘方法2 9 4 1 一种改进的概念相似度计算模型2 9 4 1 1 典型的相似度计算模型3 0 4 1 2 本文提出改进的概念相似度计算模型3 2 4 1 3 模型间精度的比较实验3 4 4 2 概念关系挖掘方法研究3 6 4 2 1 基于概念格的概念层次关系挖掘3 6 4 2 2 基于改进的概念相似度计算模型的概念非层次关系挖掘3 8 4 3 基于关联挖掘实现公理提取一3 8 4 3 1 关联挖掘概述3 8 4 3 2 引入关联规则挖掘本体公理的理由4 2 4 3 3 挖掘本体公理实例4 3 4 4 本章小结4 6 第五章基于f c a 面向多数据源的领域本体创建方法实例4 7 5 1 基于f c a 面向多数据源的领域本体创建方法归纳4 7 5 2 面向多数据源的本体创建实例一4 8 5 2 1 从纯文本中提取形式背景4 8 5 2 2 从h t m l 中提取形式背景4 9 5 2 3 从关系数据库表格中提取形式背景5 1 5 2 4 形式背景的合并和拆分5 1 5 2 5 子概念格的形成和合并5 3 5 2 6 概念关系的的提取5 7 5 2 7 本体公理的提取5 7 5 3 基于f c a 的面向多数据源的领域本体创建方法总结5 7 5 4 本章小结一5 9 第六章全文总结与展望一6 0 6 1 论文工作总结6 0 6 2 下一步工作的思考6 0 参考文献6 1 致谢6 5 i v 6 6 6 7 v 基于f c a 面向多数据源的领域本体创建方法研究 图、表清单 图1 1 先前的本体创建方案5 图2 1 表格2 3 形式背景对应的概念格1 5 图3 1 某f 1 p 网站1 9 图3 2 从网页中抽取表格算法2 0 图3 - 3 形式背景的横向合并和横向拆分2 4 图3 4 形式背景的纵向合并和纵向拆分2 4 图3 5 形式背景的横纵合并和横纵拆分2 4 图3 6 形式背景的完全独立拆分2 4 图3 7 电影信息概念格2 7 图3 8 概念格合并2 8 图4 1 概念特征分布图2 9 图4 2 动物分类图2 9 图4 3 饮料本体的简化概念格3 3 图4 4 倾向s o u z a & d a v i s 模型聚合性对比图一3 5 图4 5 倾向改进模型聚合性对比图3 6 图4 6 求解f a t h e ro fe 集合流程图3 7 图4 7 求解s o i lo fe 集合流程图3 7 图4 8 搜索候选1 项集和频繁1 项集4 4 图4 9 搜索候选2 项集和频繁2 项集4 4 图5 1 领域本体创建方法4 7 图5 2 从纯文本词汇分离结果提取信息4 8 图5 3 从h t m l 文档提取信息4 9 图5 4 笔记本电脑产品表5 l 图5 5 形式背景( 三) 5 l 图5 6 根据表5 7 形成的概念格。5 6 图5 7 根据表5 8 形成的概念格5 6 图5 8 领域专家参与本体概念的合并、修剪和添加5 8 表1 1 国外优秀本体学习工具4 v i 南京航空航天大学硕士学位论文 表2 1 本体的三元结构9 表2 2 典型本体分类。9 表2 3 表格化的形式背景1 4 表3 1 动植物形式背景18 表3 2 手机初始形式背景2 l 表3 3 手机形式背景2 1 表3 4 影片信息表2 2 表3 5 影片信息形式背景2 2 表4 1 模型一相似度值3 0 表4 2 模型二相似度值3 0 表4 3 饮料本体的形式化背景3 3 表4 4 形式概念特征表3 4 表4 5s o u z a & d a v i s 模型和改进模型的相似度值3 5 表4 6 交易数据库d 4 3 表4 7 关联规则的c o n f i d e n c e 值4 5 表5 1 形式背景( 一) 4 9 表5 2 多值形式的形式背景5 0 表5 3 形式背景( - - ) 5 0 表5 4 合并形式背景5 2 表5 5 独立形式背景( 一) 5 3 表5 6 独立形式背景( 二) 5 3 表5 7 由独立形式背景( 一) 得到的形式概念表5 3 表5 8 由独立形式背景( - - ) 得到的形式概念表5 5 表5 9 由独立形式背景得到的本体公理5 7 v i i 南京航空航天大学硕士学位论文 第一章绪论 1 1 选题背景、目的及意义 计算机与信息技术的发展,给人类社会带来了巨大的变化。信息愈来愈显示出其重要性和 支配力,它将人类社会由工业化时代推向信息化时代。随着人类活动范围的扩展,生活节奏的 加快,以及技术的进步,人们能以更快速更容易更廉价的方式获取和存储数据,这就使得数据 及其信息量以指数方式增长。正如美国未来学家奈斯比特在大趋势一书中指出的:“我们淹 没在信息中,但是却渴求知识”,“失去控制和无组织的信息不再是一种资源”。因为只有经过合 理、有效地组织的信息才能成为知识。但随着知识工程领域的发展,人们提出各种各样的知识 表示形式和推理方法,开发出各种不同的知识系统。当积累了一定数量的知识系统之后人们发 现,由于采用不同的表示和推理机制,这些系统之间的知识难以互相共享,系统之间难以进行 互操作。为了在不同的组织和系统之间进行交互,需要对知识共享和重用进行有效的研究,屏 蔽这种由于系统建造者不同而造成的在领域概念理解上的差异。 知识系统中知识异构体现为以下两个方面:( 1 ) 知识的表示形式存在着差异,如知识表示 形式有语义网、谓词及产生式等;( 2 ) 知识的语义存在着不同,如相同的知识在不同的知识系 统中存在不同的语义。为了解决以上问题,人 f j 弓l 入了本体的概念。本体提出的主要目标就是 减少或消除领域概念及术语间的混乱,成为系统间通信、共享、互操作的基础,解决知识共享 和重用的l n - j 题,避免重复开发,节省投资l l 】。o n t o l o g y 是一种描述概念及概念之间关系的概念 模型1 2 】,自被提出以来就引起了国内外众多科研人员的关注,并在计算机的许多领域得到了广 泛的应用,如知识工程、数字图书馆、软件复用、信息检索和w e b 上异构信息的处理、语义 w 曲等【3 1 1 4 1 熨。o n t o l o g y 是共享概念模型的形式化规范说明,通过概念之间的关系来描述概念的 语义1 2 1 。它是通用意义上的概念定义集,是关于种类和关系的词汇表。这种词汇表,是在各种 事务代理入之间交换意见时所用到的共同语言。这就为人与人之间或者组织与组织之间的通讯 提供了共同的词汇,实现了某种程度的知识共享和重用,同时为机器能自动理解语义提供最根 本的支持。本体的引入,为解决知识系统中知识共享与重用提供了一条新的思路。 1 2 国内外研究现状分析 近年来,国际上在本体学习方面的研究很活跃,并开发了一些相关的工具。国内在本体方 面的研究g j ) nm j 起步,并且研究重点主要集中在如何利用本体来解决语义问题,而专门针对本体 构建方面的研究成果比较少。 基于f c a 面向多数据源的领域本体创建方法研究 1 2 1 国外领域本体创建研究现状 国外人工智能领域对o n t o l o g y 的研究开始于2 0 世纪8 0 年代,1 9 8 4 年d b l e n a t 研究大规 模知识系统c y c l 7 1 ,采用o n t o l o g y 作为知识表示方法,后来涌现了很多的关于本体工程的实践。 下面给出一些比较典型的本体学习工具。 ( 1 ) h a s t i 系统 2 0 0 4 年,阿米尔卡比尔工业大学的s h a m s f a r d 等人【8 】提出了一种自动化本体建造方法,系 统从一个小的本体内核出发,通过文本理解来自动化建造本体。本体内核包含建立本体所需的 基本概念、关系和操作符,还包含了添加、移动、删除和更新本体元素的基本元知识。该系统 包括六个组件:自然语言处理器、工作内存管理器、知识抽取器、知识库管理器、词典管理器 以及本体管理器。其中,词典管理器负责管理词典中的知识,即可以添加新词,也可以更新和 检索已有的词。本体管理器可以根据知识抽取器的结果来更新本体。h a s t i 能够从波斯文本中学 习词汇和本体知识。它的本体包括概念,分类,非分类概念关系和定理,使用简化的k i f 编码。 h a s t i 的符号化本体学习方法是一种包含了逻辑、语言学、模板驱动和语义分析方法的混合本体 学习方法,系统还应用了启发式方法。逻辑方法是通过知识抽取器组件中的推理引擎来应用的, 它执行一些知识库上的逻辑推理来推导出新知识( 概念之间的新关系和新的定理) ,还可以通过 关系的某些属性如传递性,对称性等等发现相关的单词;语言学方法是通过自然语言处理模块 来应用的,它执行语素构造分析处理输入的文本并抽取案例角色,同时还使用了句法模板;模 板驱动方法应用为本体元素构造器中用于抽取概念性知识,模板均基于语句的语义,执行一些 语义分析来抽取所需要的知识;语义分析方法应用在系统的知识抽取器中又应用在系统的本体 管理器中。本体管理器放置本体元素,按照本体元素的语义相似度聚类,重组织并细化本体。 ( 2 ) o n t o l e 锄系统 o n t o l e a r n 9 】是罗马大学开发的一个基于文本的本体学的工具,它能够获取概念及其关系。 其主要特点是:将语义解释的方法应用到本体获取中,即首先使用基于语言学和统计的方法从 一组文本集中抽取出领域相关的术语,然后使用通用本体中的概念对这些术语进行语义解释, 从而确定术语之间的分类和其他语义系。o n t o l e a m 选择w o r d n e t l lo 】作为通用本体,使用 w o r d n e t 中的概念对获取的术语进行语义解释,从而使所构建的领域本体与w o r d n e t 具有明确 的关系,这样的好处是有利于不同领域本体之间的互操作和一致化。 ( 3 ) t e x t - t o o n t o 系统 由卡尔斯鲁厄大学a i f b ( i n s t i t u t eo f a p p l i e di n f o r m a t i c sa n df o r m a ld e s c r i p t i o nm e t h o d s ) i l l j 开发,它是一个一体化的本体学习环境。利用这个环境可以发现概念间的关系从而构建本体。 系统支持从一个初始的核心本体开始,运用机器学习和知识获取技术半自动地构建领域本体的 过程。值得一提的是t e x t t o o n t o 有一个学习算法库可以满足不同的需要。该算法采用一种多 2 数据( 关系数据库) 中获取本体( 包括概念及其关系) 的工具。对于这两种类型的数据源,均 采用基于映射规则的方法来获取本体。该系统利用一个已有的工具( h m a r f r a ) 0 4 】来实现从x m l s c h e m a 和d t d 中获取本体。h m a r f r a 能够实现从x m ls c h e m a 到本体的映射。同时,o n t o l i f t 本身包含一个从d t d 到x m ls c h e m a 映射的中间工具,将这两个工具合并起来,就实现了从 x m ls c h e m a 和d t d 中获取本体。从关系数据库中获取本体的部分是基于j a v aj d b c 标准提供 的接口,按照一定的命名规范将数据库中的表名和属性名等信息,按照映射规则转换为本体中 的元素。 一般来说本体学习工具之间的主要区别在于:( 1 ) 数据源:即本体学习工具的输入数据源 的种类,例如纯文本、w e b 页面、关系数据库等。这些数据原在本文中主要归为三类,即:结 构化数据源、非结构化数据源和半结构化数据源;( 2 ) 学习方法:即本体学习工具为了从数据 源中获取本体所采用的主要方法,例如:统计方法、机器学习方法和模式匹配等方法;( 3 ) 本 体学习对象:即本体学习工具从数据源中学习到的本体对象,主要包括概念、概念间关系和公 理。 根据上述三个方面,本文对目前国外主要的本体学习系统的进行了比较,如下表所示。 3 基于f c a 面向多数据源的领域本体创建方法研究 表1 1 国外优秀本体学习工具 功能( 提取能力)数据源自动化程度 工具名称开发单位学习方法结构非结半结半自全自 概念关系公理手工 化构化构化动化动化 斯坦福大 o n t o l i n g u a 学 英国开放 w | c b o n t o 大学 南加州大 o n t o s a u r u s 学 早期的本体工程实践主要用于本体的编辑和浏览 斯坦福大 19 9 5 2 0 0 0 p r o t 6 9 6 2 0 0 0 学 马德里科 w e b 0 d e 技大学 曼彻斯特 o i l e d 大学 阿米尔卡 逻辑方法 h a s t i比尔工业xxxxx 模版驱动 大学 语义解释 o n t o l e a m 罗马大学 x x xx 机器学习 统计方法 卡尔斯鲁 t e x t - t o - o n t o关联规则xxxxx 厄大学 概念聚类 密西西比统计方法 o n t o b u i l d exxxxx 大学模式匹配 卡尔斯鲁 o n t o l i f r映射规则xxxxx 厄大学 1 2 2 国内领域本体创建研究现状 国内对于本体研究起步比较晚,很多工作集中在基于领域本体之上的一些应用研究,很少 进行本体提取技术方面相关的研究,到目前为止还没有产生比较成熟的本体工程实践,能查到 4 南京航空航天大学硕士学位论文 相关本体方面的文献如下: ( 1 ) 在2 0 0 3 年的第7 届全国计算语言学联合学术会议上,东北大学的陈文亮等人【1 5 1 提出 利用b o o t s t r a p p i n g 的机器学习技术,从大规模无标注真实语料中自动获取领域词汇。 ( 2 ) 2 0 0 5 年,山西大学郑家恒等人f l6 】提出采用非线性函数与“成对比较法”相结合的方法, 综合考虑位置和词频两个因素,给出候选词的权重,实现了关键词的自动抽取。 ( 3 ) 2 0 0 5 年,上海交通大学的杜波等人【1 7 1 提出了一种将统计方法与规则方法相结合的专 业领域术语抽取算法。 ( 4 ) 2 0 0 6 年,哈尔滨工业大学的韩石的硕士学位论文基于关系数据库的本体构建方法 的研究中利用中间实体的办法实现了从关系数据库中提取本体。 ( 5 ) 2 0 0 7 年,中南大学贾秀灵的硕士论文面向文本的本体学习中概念的提取及关系提 取研究中,利用词汇句法模式法和关联规则方法实现了对文本中的概念和关系的提取。 1 3 本课题研究内容和方案 国外对本体的研究技术比较成熟,而且涌现了很多优秀的本体创建的工具,国内对本体的 研究虽然进展比较慢,但是越来越多的人对此方面进行了理论和实践上的研究。然而这些研究 普遍存在数据源的单一性问题,即对单一数据源利用特定的本体创建方法产生最终的本体,这 样做导致的结果是创建的本体往往比较轻型,实用价值不大。为了解决上述问题先前的处理方 法是针对不同数据源采用不同的本体创建方法创建一系列轻型本体,然后对这些本体进行合并 形成最终本体,如下图1 1 所示。 图1 1 先前的本体创建方案 由于上述方法产生的一系列本体很可能是同领域中的一些类似或者异构的本体,这就要求 进行较大工作量的本体合并工作。本体合并的方法【l s l 【l 叼很多,但无论采取哪种方法,都要求大 规模的概念相似度计算,而且要求领域专家进行较大工作量的本体整理工作,如此生成最终本 体的自动化程度很低,代价必然很大。所以寻找一种低成本,高质量的本体创建方法是本课题 需要解决的最重要问题之一。 为解决此问题,本文引进f c a ( f o r m a lc o n c e p ta n a l y s i s ) 相关理论,把本体合并的工作转移 到了形式背景的合并中,然后把形式背景划分成一些不相交的形式背景,从而形成不相交的子 5 基于f c a 面向多数据源的领域本体创建方法研究 概念格,合并这些子概念格即得最终本体。相比先前的本体合并要求进行大规模的跨本体的概 念相似度计算,本方案较大地提高了本体的创建效率。因为生成的子本体是不相交的,直接合 并即得最终本体。 概念关系的挖掘是本体创建另一重要内容,由于本文把本体组织成概念格形式,基于概念 格的概念间层次关系的挖掘相对较简单。对于非层次关系的挖掘必然要涉及概念相似度计算, 先前关于这方面的工作虽然集中在概念特征匹配和语义分析之上,但考虑的要素单一或考虑要 素的内容不够周全,所以其计算值具有较大的租糙性,不利于概念关系的深层挖掘。为了解决 此问题,本文提出一种改进的概念相似度计算模型,该模型充分完善概念的共性匹配,认为概 念间同时不具备的特征也是概念问共性的一部分;同时对在概念格中不同层次的语义特征进行 加权,实验数据表明了该模型具有较高的精度,更能表现概念间的非层次关系。 对于本体的公理的抽取,本文引入了数据挖掘中关联规则挖掘算法,利用该算法所挖掘的 关联规则经过领域专家的过滤后,即所要抽取的本体公理。 1 4 论文组织结构 本文主要研究了基于f c a 面向多数据源的领域本体创建,提出了一种改进的概念相似度计 算模型,并把挖掘关联规则的算法用于公理的抽取,全文组织结构如下: 第一章是论文的绪论部分,指出了所选课题背景、目的及意义,然后分析了国内外关于课 题相关的研究现状,紧接着阐述了课题所要进行研究的主要内容。 第二章对本体的基本知识进行了综述,主要介绍了本体的定义、组织方式、分类以及面向 不同的数据源本体的创建方法。本章另一重要内容就是对f c a 相关理论进行了介绍。 第三章主要针对不同的数据源采用不同的方法对形式背景进行提取,然后对抽取的形式背 景进行合并和拆分,形成不相交形式背景,从而得到独立的子本体,合并这些子本体即得最终 本体。本章是本文的最重要内容之一。 第四章讨论了如何挖掘本体中的概念关系和公理。对于概念间关系的挖掘,本文分为层次 概念关系和非层次关系的挖掘,前者基于概念格的基础之上进行,后者采用本文提出的改进的 相似度计算模型。对于公理的挖掘,本文引入了数据挖掘中关联规则挖掘算法。此章也是本文 重要的研究内容。 第五章主要根据第三、四两章的讨论,给出一个数码产品本体创建的实例,其中实现了创 建过程中用到的一些主要算法,最后进一步阐述本文的本体创建方法的优势。 第六章对本文的主要研究工作进行总结,并探讨和展望了在未来时间内可能需要进行的研 究。 6 念 主 供 领 域知识的对象分类、对象属性和对象间的关系,它为领域知识的描述提供标准术语【2 2 】 。此观 点也强调了本体的内容构成,和n e c h e s 的定义类似。斯坦福大学的n a t a l y af n o y 和d e b o r a h l m c g u i r m e s s ( 2 0 0 1 ) 认为“一个本体其实就是一套关于某一领域概念的规范而清晰的描述, 它包含类,每一个概念的属性描述了有关概念的各种特征和相关限制条件。一个完整的本体还 要包含一系列与某个类相关的实例,这些实例组成了一个知识库。事实上,在本体的终点和知 识库的起点之间,有一条非常明确的界限。类是本体结构的核心,它代表了某一领域的概念集 合1 2 3 】”。人工智能领域中关于本体的定义差别基本不大,都试图在本体的构成上揭示本体的定 义。 本体除了在人工智能领域中有非常重要的应用,在知识工程领域中也是如此。最著名被国 内外学者广泛引用的定义是由斯坦福大学知识系统实验室的g r u b e r ( 1 9 9 3 ) 给出:“a no n t o l o g y i sa l le x p l i c i ts p e c i f i c a t i o no f a c o n c e p t u a l i z a t i o n 【2 4 】,即“本体是概念体系的明确的规范说明”, 其后b o m tp i m 博士等( 1 9 9 7 ) 对g r u b e r 的定义作了部分修正【2 5 j ,两个定义合并以后,表达如 下:本体是一套得到大多数人认可的、关于概念体系的明确的、形式化的规范说明。g r u b e r 的 本体定义将本体作为某一领域中的术语及术语之间关系的规范说明,此定义对以后的研究者影 响很大,但也有其局限性,即过于宽泛,未能完全概括出本体的本质。1 9 9 8 年德国卡尔斯鲁厄 大学的s t u d e r 等学者对前人定义进行了深入研究后,提出本体是“共享概念模型的明确的形式 化规范说明”,包括4 个主要方面: ( 1 ) 概念化( c o n c e p t u a l i z a t i o n ) :客观世界的现象的抽象模型; 7 基于f c a 面向多数据源的领域本体创建方法研究 ( 2 ) 明确( - e x p l i c i t ) :概念及它们之间联系都被精确定义; ( 3 ) 形式化( f o r m a i ) :精确的数学描述; ( 4 ) 共享( s h a r e ) :本体中反映的知识是其使用者共同认可的。 此定义既涵盖了g r u b e r 的定义,又在其基础上强调了本体的形式化特性。s t u d e r 等对其概 念中各修饰词都作了精辟的说明,对本体进行了完整的论述,这个定义是被国内外学者引用最 广泛的本体定义。 2 1 2 本体的组织方式 在文献【6 】中,杜小勇、王珊等在总结国内外资料的基础上,认为本体的结构( o m o l o g y s t r u c t u r e ) 是一个五元组 c ,r ,皿,r e l ,4 ) ,这里的c 和r 是两个不相交的集合其中: c 中的元素称为概念( c o n c e p t ) ;r 中的元素称为关系( r e l a t i o n ) ) 皿表示概念层次,即概念间 的分类关系( t a x o n o m ym l a t i o n ) ;r e l 表示概念间的非分类关系( n o n - t a x o n o m yr e l a t i o n ) 。4 表 示本体公理( a x i o m ) 。 p e r e z l 2 6 】等人用分类法组织了本体,归纳出5 个基本的建模元语( m o d e l i n gp r i m i t i v e s ) ( 1 ) 类( c l a s s e s ) 或概念( c o n c e p t s ) 含义很广泛,指任何事务,如工作描述、功能、行为、策略和推理过程等等。从语义上讲, 它表示的是对象的集合,其定义一般采用框架( f r a m e ) 结构,包括概念的名称,与其它概念之 间的关系的集合,以及用自然语言对概念的描述。 ( 2 ) 关系( r e l a t i o n s ) 关系在本体中非常重要,正是由于本体中的概念之间存在复杂的语义关系,才将本体中的 概念组织起来,本体中的关系表示领域中概念之间的交互作用。 本体中的基本关系主要有四种:p a r t o f , i n s t a n c e o f , i s a 和a t t r i b u t e - o f p a r t - o f 表达概念 之间部分和整体的关系;i n s t a n c e o f 表达概念之间的实例关系;i s - a 表达概念之间的继承关系; a t t r i b u t e o f 表达某个概念是另一个概念的属性。 ( 3 ) 函数( f u n c t i o n s ) 一类特殊的关系。此类
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 1.2 化学实验与科学探究说课稿-2024-2025学年九年级化学人教版(2024)上册
- 6.2.1.排列教学设计-2023-2024学年高二下学期数学人教A版(2019)选择性必修第三册
- 灌区管理考试题目及答案
- 古代学子考试题目及答案
- 公司贷款考试题目及答案
- 工会干事考试题及答案
- 2025仓库抵押借款合同
- 高级火影考试题目及答案
- 社区智慧养老服务体系的优化与创新方向
- 居住区景观适老化元素的视觉感知与认知分析
- T/CHES 98-2023取水口设施标准化建设与管理技术规程
- 专项项目贡献证明书与业绩认可函(8篇)
- 2025年广东省广州市中考二模英语试题(含答案)
- 消防员心理测试题库及答案解析
- 贷后管理协议合同
- 罗才军《少年闰土》省公开课一等奖全国示范课微课金奖课件
- 放射科造影剂过敏反应应急处理预案
- 触电事故应急演练方案
- 2025年上海市高考英语热点复习:阅读理解说明文
- (完整版)八上新闻拟标题专项训练题
- 国家管网集团合同范本
评论
0/150
提交评论