已阅读5页,还剩56页未读, 继续免费阅读
(机械电子工程专业论文)基于本体的信息集成模式分析.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 在信息技术高速发展的今天,各个企业为了让自己在竞争中处于不败的位 置,纷纷采用了各种先进的应用系统来管理和协调生产,提高自己的生产能力。 但是,随着更多的应用系统的出现而带来的问题举不胜举,其中最为严重的就是 应用系统的集成问题。由于各个应用系统所采用的语言,结构等都不相同,系统 之间的集成就难以实现,出现了很多的信息孤岛。现在虽然有的企业在管理系统 之间建立接口,但是这样也只能暂时的解决部分的集成问题,随着应用系统的增 加,接口的数量呈几何倍数增加,这不仅要浪费更多的人力、物力,而且企业内 部的资源占用问题还是没有解决。如何更好地解决信息集成问题就是本文所研究 的中心内容。 本文讨论了当前的数据集成方法和存在的一些问题,介绍了本体的相关概 念并指出将本体应用于异构数据集成的优势,结合统一编码系统对信息分类和组 织的方法,提出一种本体构建的方法,并重点构建了基于本体的数据集成的框架, 为所有的数据源建立一个全局本体,再为每个数据源建立一个局部本体,同时定 义全局本体和局部本体、本体与数据源之间的映射,然后基于对本体的推理结果 进行全局查询的分解,生成针对不同数据源的查询语句以实现统一访问。 关键词:统一编码本体信息集成本体映射 i i a b s t r a c t a 1 0 n g 、) l ,i t l lt 1 1 er a p i dd e v e l o p m e n to f t h ee n t e 叩f i s ei 耐o r i i l a t i o i l ,e v e r ye n t e 中r i s e w a i l t st 0b e 砌e f e c t i b l ci nt h ec o m p e t i t i o n t b e ya d o p tm a n ya p ps y s t e m st om 柚a g e a i l dh a n i l o n yt l l e i rp r o d u c t i o n ,b u tt h em o r ea p ps y s t e m $ a d o p t e d ,t h em o r e p r o b l e m sa p p e a r t h ew o r s tp r o b l e mi s t l l ei n t e g r a t i o no fa 1 1a p ps y s t e m s a st h e 1 a i l g u a g ea n ds t n j c t u r eo fe a c ha p ps y s t e mi sd i f f 打e n t ,也ei n t e g r a t i o nb e t w 伽 s y s t e m sb e c o m e sd i 伍c u h , s om e r ea r el o t so fa l o n ei s l a i l do fm ei n f b 珊a t i o n a l t l l o u g ht h e yh a v es du ps e v e m li n t e r f :沁e sa i i l o n g 也em a n a g es y s t 锄s ,t l l i so n l yc a i l s e t t l ep a r t i a lp r o b l e m w i t hm en m n b e ro ft l l ea p ps y s t c m si n c r e a s i n 舀t h ei m e r f 如e s w i ub e c o m em o r cc o i l l p l e x i t 、 五l li l o to n l yw a s t em o r em a n p o w e ra n dm a t e r i a l r e s o u r c e s ,b u ta l s oc a n ts o l v et h ep r o b l 锄s oh o w t od e a l 晰t l lt l l ep r o b l e mo fm e i i l t e g r a t i o ni st h em a i nc o n l e n to f t l l i sp a p e r t h i sp a p e fd i s c u s s e dm ec u r t e n tt e c l l n o l o g i e so f d a t ai n t e g r a t i o n 卸dn l ee x i s “m t p r o b l 锄1 1 1 e ni n d u c e dt h ec o n e l a t i o nc o n c 印to fo n t o l o g ) ,a n dp o i n t e do u tm e a d v a n t a g co fa p p l y i i l go fo n t o l o g yt oi n t e g r a t i o n nb r o u 曲tf b r w a r dt h en l e a s u r eo f b u i l d i n go fo n t o l o 阱l i n k i n gt h em e a s u r eo fc l a s s i 旬a i l do 唱a n i z a t i o no fi 1 1 f b m l a t i o n i i lt h eu n i c o d es y s t e m nb u i l t 酉o b a lo n t o l o g yf o fa l ld a t 鹤o u r c e sa i l dal o c a lo m o l o g y f o re v e r yd a t a s o u r c e ,a n ds e tu pt h em a p p i n gb e t w e e no n t o l o g ya n dd a t a s o u r c e t h e n t h ep 印e rd e c o m p o s e dt h eg l o b a lq u e r ys t a t e m e n tb a s e do nt l l er e s u l to fr e a s o i l i n g o n t o l o 鼢p r o d u c i n gm eq u e r ) rs t a t e m e n t so fd i 仃e 删d a t a s o u r c e st or e a l i z et h eg o a l o f u n j f i e dv i s i t 1 ( e yw o r d :u n i t ec o d i n g ,o n t o i o 留,d a t ai n t e g r a t i o n o n t o l o 科m a p p i n g m 第一章锗论 第一章绪论 1 1 信息集成是实现企业信息热享的关键技术 l 。1 1 中国众娩信惠纯发震趋势 不久前,( 中国) 市场研究中心发布对工业企业1 0 0 0 强、民营企业5 0 0 强企业和部分知名三资企业调查结果表明:企业对接慰托豹投入蠢平均利润的 7 9 9 ,其中6 3 8 翡企、监蘩怠佬投入不越过j l 滤的8 ,3 6 2 静众娩趣逑8 。 4 7 7 个有效样本研究表明,2 0 0 5 年企业储息化投入将超过6 0 亿元,其中台式机 避9 万台,笔记本电脑2 万多台,服务器近6 0 0 0 台,打印机近1 4 万台,上述 瓣矮疆释采购众额运1 7 钇露。蠹乏努,将蠢避| l 亿元金额授彝瓣终产瑟泰场、事。2 亿元投向存储设备市场,6 亿元投向信息寝全产品市场,预计软件采购金额将逡 2 2 亿元人民币。这些数字昭示了我国企业信息化新的发展前景和越势。 企业市场化程受、全球织程度越离,越重视信息化带来的效应,信息诧豹带 动作用也越鞠驻。调查显示,民营企韭、巾,、企鲎的院萋有了较大增长,它们对 众业信息化管耀的意识也有所增强。可见,企业信息化难向普及化道路不断迈进。 企业信息化的实质就是借助计算机、艇联网等信息竽段将企业的经营及管理 漉程数字纯莠麴王残薪煞臻憨资源,提供绘各层次懿蘩壤者及嚣攀援凌态鼗务孛 的一切信息,以做出有利于嫩产要素组合优化的决策,使企业资源食理配置,从 而使企业能够通应瞬息万变的市场经济竞争环境,求得最大的经济效益。为了实 现缤惑纯,赡凝必要静硬穆设备和缎建掰络是最基本熟今巧节。综鼹我国近凡 馨的企监蓿患化历程,基本上已经度_ 蓬了大规模硬 串设备和组建网络的初级阶 段,今后的发腰将更加深入。 企业信息他的投资比重巾硬件所占比璧平均值为4 8 。9 7 ,软件投资比重均 魏为3 5 9 8 ,羧务授入篦羲掺篷茺s 0 1 、信患安全院耋筠篷尧7 8 2 。这个毅 入结构比例袭明,企业信息化投入越来越成熟,越来趟趋于合理。硬件采购比熏 从5 年前的平均8 0 ,减少了3 0 个百分点。在硬件投入方面更多的将是设备的 辩级与换捷,搜硬终平台不叛竞善。软终授入将是众救售息往豹鬟点,其孛以 e r p 系统为童,包括系统的新建、完善、推广或升级。同时,办公o a 系统的酱 殿率最高,其次是人力资源管理系统。 人力资源篱理系统( h r m s ) 正受到多数企业的脊昧,另有半数以上企业己 缀拜始实施瓷产管理系统( 魏m ) 、客户关系管理系统( c r m ) 、供应缝警联 ( s c m ) 、产晶数据管理( p d m ) 等。随蓿系统的增多,数据的处理就变得更加 第一章绪论 复杂,为了保障这些应用系统的顺利实施,信息安全建设也将是企业信息化过程 中备受关注的一个环节。 未来企业投入将集中在对企业管理理念和业务流程影响较大的技术上,尤其 是涉及系统整合、流程优化的新技术。当信息系统的数量到达一定程度的时候, 如何管理、控制和维护这些系统,并协调这些系统使它们“往一个方向使劲”是 一个关键问题。如果信息系统与业务流程和管理流程达不到完整统一、系统之间 数据传递的不一致,往往会形成众多的信息独立体,从而使信息系统无法实现一 个真正全面共享的有机体,这势必会阻碍企业信息化建设的整体过程。解决这一 问题的关键不仅仅是在软件的技术方面,更重要的是在企业的流程管理和相关技 术等方面。 1 1 2 信息集成是实现企业信息共享的关键技术 当今的信息社会里,企业为了在日趋激烈的竞争中立于不败之地,通过使用 计算机辅助工艺规程设计( c a p p ) ,产品数据管理( p d m ) 等i t 应用系统,实 现企业的信息化管理,提高运营效率和竞争力。 但是在实际的应用过程中,企业往往会面临这样的一个问题,那就是这些 应用系统的软件供应商不同,各系统之间没有统一的数据通信标准来支持相应的 数据交换。这就导致了这些企业花了很大的代价建立起来的应用系统之间的信息 无法交互,成为了一个个信息孤岛。 这样,各个应用系统必须重复地建立和维护企业的用户,物料,客户和供 应商等关键业务数据,增加了企业内部的冗余数据,而且也无法确保各应用系统 内这些信息的统一性和正确性,使企业的信息化管理效率大打折扣。另外有些企 业开发专门的软件来实现应用系统之间点对点的数据交换。但是,由于企业为了 适应瞬息变换的市场竞争,其业务流程会经常改变,这样每次应用系统的结构或 者业务流程发生变化,都需要重新修改程序,而且随着企业内部应用系统种类的 增加,程序开发量也会大大增加。可见,这种解决方案非常麻烦,通用性差,开 发费用也很昂贵。 1 1 3 当前信息集成模式存在的问题 1 信息共享程度低。企业内的信息都以不同的语言和结构存储在不同的数据库 或系统中,就算是集成也是开发接口程序,实现的也只是小部分信息资源的共 享。 2 各工程应用系统往往是针对各自特定环境和要求设计的,可重用性差,造成 软件重复开发、数据重复和冗余以及计算机资源的严重浪费等。重用是信息集 2 第一章绪论 成中的重要部分之一,如果应用系统针对各自的要求设计,那么就无法与其它 信息进行集成、重用。这样做只能浪费企业的资源,因为,降低生产投入,才 能很好的得到市场回馈的利润。所以这样无法满足现阶段企业生产的要求。 3 业务管理落后,设计方式陈旧。很多企业在集成的过程中,使用的还是单独 建立接口的方式,这样的方式已经显得很陈旧,因为现在是信息技术高速发展 的时代,而进行应用集成的时候应在最短的时间内集成最多的信息,相对于现 阶段比较新颖的集成方式,过去的接口方式就显得非常的浪费时间,而且在相 同的集成中,投入也比较大。 1 2 选题意义 随着人类社会由工业社会发展到信息社会,数字化信息正在迅速增长,看 似已超出企业可以对其进行掌控和羽用的能力。根据加卅i 大学伯克利分校信息管 理和系统学院的行业分析家的统计,2 0 0 卜2 0 0 3 年间产生的数据将比记录历史的 全部数据的总和还要多。伯克利的研究员发现,全球每年产生的不重复信息量在 卜2 0 p b 之间也就是说,地球上每个男人、女人和小孩人均要产生约2 5 0 m b 的数 据。 在信息膨胀和信息源多样性的共同作用下,对有用信息的检索更趋复杂。 各企业不但要访问企业内外的关系数据库等传统应用数据源,还必须能够访问可 扩展置标语言( 讧l ) 文档、文本文件、扫描图象、视频剪辑、新闻供给、网 络内容、电子邮件、分析多维表和专用存储器等资源。由于组织结构和运营方面 的限制,异构且分散的数据源中的信息通常不适合进行全盘复制或在一个数据库 中进行合并。但如果在信息之间建立关联,就可以显示隐藏的信息,更轻易地识 别并抓住机遇,进而为客户提供更好的服务。g i g ai n f o 硼a t i o ng r o u p 预计至少 有3 0 的新电子应用程序面临需要集成多个数据源的问题。 对大多数企业来说,进行多个异构数据源集成的过程,提供对异类数据的 一致透明的访问能力是一个重大的障碍。这其中固然有技术解决方案存在局限性 的因素,但还存在一个潜在的困难,即企业内部对各类信息进行分类,形成企业 信息的统一数据模型,并对企业内的信息标准达成共识【2 2 】。 统一编码系统是由某高校机电学院研究的针对企业内信息集成的一种编码 系统。该系统已经实现了系统重要信息的提取和分段编码,满足了企业对信息的 集成,但是无法实现多种数据源信息的查询。所以本论文引入本体的概念,利用 本体的特殊属性,基于统一编码系统的信息分类方法和结构,建立局部本体和全 局本体,在屏蔽异构的同时,实现数据源信息的查询处理。 第一章绪论 1 3 本文研究的主要内容 本次研究的主要内容是两个系统中的材料类问题。两个系统的数据库存在异 构问题,文章引用了本体的概念,本体就是用来描述某个领域( 领域本体) 甚至 更广范围( 通用本体) 内的概念以及概念之间的联系,使得这些概念和联系在共 享的范围内有着明确唯一的定义,达成一种共识,这样人和机器之间就可以进行 交流。 虽然不同研究者对本体有不同的描述,但是从内涵上来看,他们对本体的认 识是一致的,都是把本体当作某个领域内( 可以是特定领域的,也可以是更广的 范围) 不同主体( 人、代理、机器等) 之间进行交流( 对话、互操作、共享等) 的一种语义基础,即由本体提供明确定义的词汇表,描述概念和概念之间的关系, 作为使用者之间达成的共识。因此,本体的用途包括交流、共享、互操作、重用 等等。 利用本体建立本体层,应用系统可以与本体层之间通过客户端查询系统进 行查询。如图1 1 所示: 映射关系 数据源层 图卜1 应用系统与本体库之间的查询 本文的主要研究内容有:在了解了当前信息集成中的问题之后,首先重点了 解本体的概念及应用,并说明了本体在集成中的重要作用。在阐述了本体构建的 方法、语言和工具之后,着重介绍了如何利用统一编码系统建立本体,提出了一 种信息集成模式,其中涉及到全局本体、局部本体和数据源。针对各个部分,介 4 第一章绪论 绍了映射过程。最后,利用已有的查询处理系统,进行查询处理,验证了集成过 程。 1 4 章节安排 结合作者所做的工作,内容安排如下: 第一章:绪论,研究现阶段企业内信息集成的问题,提出适合的解决方案; 第二章:本体相关理论及主要技术,重点介绍现阶段主流的本体描述语言、 构建方法和构建工具; 第三章:基于本体的信息集成模式分析,提出一种系统框架,包括数据源、 局部本体和全局本体三部分。 第四章:基于本体的信息集成模式实现,在系统框架的基础上详细介绍数 据模式提取、局部本体建立、全局本体建立和各层之间的映射; 第五章:查询处理,利用已经存在的查询过程和查询系统,验证本次信息 集成的可行性; 第六章:结论,对本次研究所做工作作出总结,分析成果和不足,提出下一 步工作的方向。 第二章本体相关理论及主要技术 第二章本体相关理论及主要技术 2 1 本体相关理论 2 1 1 本体的定义 本体,英文称为0 n t o l o g ) ,最初是一个哲学范畴,后来随着人工智能的发 展,被人工智能界赋予了新的定义。而在w 曲飞速发展的今天,本体的发展已 由哲学、人工智能领域延伸到了图书馆学、情报学等其他各个领域,并受到专家 和学者的关注【2 j 。 本体在不同的领域有不同的定义,关注的焦点也不同: 哲学领域:本体是对世界上客观存在事物的系统的描述,即存在论, 也就是最形而上的知识【3 】。形而上学不是指孤立、静止之类的意思, 而是指超越具体形态的抽象意思,是关于物质世界最普遍的、最一 般的、最不具体的规律的学问。比如什么是物质,物质世界的图景、 物质与意识的关系,等等。 人工智能领域:认为本体是一种知识的人工引擎。但本体究竟是什 么仍是争论中的一个话题。美国s t a i l f b r d 大学的知识系统实验室 ( k m o w l e d g es y s t e ml a b o r a t o r y ) 的学者t o mg n l b e r 在1 9 9 3 年提出 了第个被广泛接受的定义:本体是概念化的显式的表示。之后 s t u d e r 在g n l b e r 的基础上于1 9 9 8 年扩展了本体的概念,即本体是共 享概念模型的明确形式化规范说明。显然后一个定义更能够说明什 么是本体。 这个定义的具体含义包括概念化、明确、形式化和共享四个方面内容: 1 ) 概念化:将客观世界中的一些现象抽象出来得到的模型。它是客观世 界的抽象和简化。 2 ) 明确:即显式地定义所使用的概念以及概念的约束。 3 ) 形式化:即精确的数学表述,能够为计算机读取。 4 ) 共享:本体描述的概念应该是某个领域公认的概念集。 李景在本体理论在文献检索系统中的应用研究中总结了国内外学者的观 点,给出了一个较为全面的本体的定义。本体是一个关于某些主题的、层次清晰 的规范说明。它是一个已经得到公认的形式化的知识表示主体,它包含此表、词 表中的术语全是与某一专业领域相关的,词表中的逻辑声明全部是用来描述那些 术语的含义和术语间关系的。即它们是是怎样和其他术语相关联的。因此本体提 供了一个用来表达和交流某些主题知识的词表和一个关系集,关系集是词表中术 6 第二章本体相关理论及主要技术 语间关系的集合,本体作为知识组织的重要手段应该具有以下六个要素: 1 ) 声明( s t a 钯m e n t ) 用来说明本体所表示的知识范围、主体,以及它的主 要用途和目的。 2 ) 公理( a x i o m ) 是无需再进行证明的逻辑永真式,通常都是一阶谓词逻 辑的表达式。 3 ) 概念( c o n c 印t ) 或类( c l a s s ) 是相似术语所表达的概念的集合体。 4 ) 属性( p r o p e r 吼s l o t ) 用来描述类中的概念,具有限制类中的概念和实 例的功能,是区分类的标准,具有继承性。一个属性必须具有相应的属 性值。 5 ) 函数( f l l i l c t i o n ) 是关系( i k l a i i o n ) 的特定表达形式。函数中表达的映 射关系,使得推理从一个概念指向另一个概念。 6 ) 实例( i n s t a n c e ) 也称个体,是本体中最小的对象,它不可再分。实例可 以代入函数中去进行运算,而函数的运算结果一定是另外的一些实例或 类。 2 1 2 本体的类型 本体可被看作是构造知识库的一种途径,或为知识库的重要组成部分,或视 为平台间进行互操作处理的关键技术。根据已有文献,按照应用领域本体可被分 为三类:人或族之间通信、系统问的互操作、系统工程领域( 规范、可靠性、可 重用的组件与知识获取) 。 g u a r i n o 提出了从详细程度与领域依赖度两个方面对本体进行划分。详细程 度是一个相对的、比较模糊的概念,指描述或刻画建模对象的程度。详细程度高 的称作参考( r e f e r e n c e ) 本体,详细程度低的称为共享( s h a r e ) 本体。 依照领域依赖程度,可以细分为顶层本体、领域本体、任务本体和应用本体 四类。 顶层本体描述的是最普遍的概念及概念之间的关系,如空间、时间、事 件、行为等等,与具体的应用无关,其他种类的o m o l o g i e s 都是该类本 体的特例; 领域本体描述的是某个特定领域( 如医药、地理等) 中的概念及概念之 间的关系: 任务本体描述的是特定任务或行为中的概念及概念之间的关系; 应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。 7 第二章本体相关理论及主要技术 2 1 3 本体的用途 本体是共享概念的显示表述。它关注概念之间的内在的语义联系,一般具 有交流、互用性、软件工程等三类用途。由于本体提供通信双方的公共理解,类 似于网络协议在通信双方的地位,只不过本体是从人工智能角度出发构造的软 件。交流是指人与人、组织与组织、以及人与组织之间的沟通。本体可以提供一 组共同的词汇和概念,从而实现交流。在交流活动中,本体是一个标准化模型, 任何大规模集成软件系统内,各种各样、背景不同的人必须对系统及其目标有一 种共同的认识,因此必须建立起标准化模型,否则无法进行沟通;本体对软件系 统中所用的术语所提供的明确定义,对于同一个事物在系统中有完全一致的认 识,而且这种认识也是确定的;通过本体可以集成不同用户的不同观点,以形成 更加全面完整的看法。 互用性是指系统间协同工作的能力。本体可以在完全不同的建模方法、范例、 语言及软件工具之间进行翻译和转换,从而实现不同系统之间的相互操作和集 成。 本体在软件工程方面的作用是从软件系统的设计和开发方面进行考虑的。 本体可以在可重用性、可靠性、规格说明等方面在软件工程中发挥作用。 从本体的这些用途来看,本体可用于许多领域,如电子工程、化学、远程 教育、电子商务等。这些应用包括自然语言的理解和生成、语意数据库的集成、一 致性检查、数据挖掘、语意信息的获取、限于本体的仿真、用户建模和知识兵 享、人工智能、知识工程、知识管理、语义检索、信息检索和提取、企业集成、 自然语言翻译等各种信息系统。目前在上述领域中,对本体的应用探索开展得如 火如荼。正由于此,国外研究本体异常活跃,国内则处于刚起步的阶段。 ( 1 ) 多a g e n t 系统的自动设计:为了保持代理的独立性,我们坚持代理 不和其他代理发生直接的数据交换和共享,那么多代理系统能有效地完成一项复 杂任务,需要一组中介代理,本体专门负责沟通代理和环境之间的信息交流。 ( 2 ) 电子商务b 2 b :不同的企业使用的开发平台和软件系统不一定完全 相同,那么b 2 b 的通信需要通信的中介,即使在虚拟企业网络模型中,可以充 当此工作。 ( 3 ) c s c w ( 计算机支持的协同工作) :多个参与者通过用户界面,如因 特网浏览器访问到协同层的对象层,通过活动层完成各自的活动,如果没有本体 模型的翻译会认为对方的活动是未知的而导致协同工作失败。 ( 4 ) 数据挖掘:由于本体有高层次的抽象概念组成,基于本体的数据挖 掘可在高层次进行,产生高层次或多层次的规则,甚至在具有语义意义的规则上 产生挖掘结果。 8 第二章本体相关理论及主要技术 2 1 4 本体的优点 本体论已被广泛应用于信息科学和计算机领域,并已作为当今信息科学研 究前沿的一个热点,备受世界众多国家的重视。前些年,国内外相继召开了一系列 相关的专题研讨会。 本体论通常以工程技术领域作为处理对象。工程技术以处理明确的实体闻 名,它往往是非常具体的工程技术领域中的基本概念及其关系,以及在此基础上 建构起来的理论内核( 元理论) 。 l 、适合用计算机处理是本体论的优点。一旦用程序设计语言将形式本体论 编制成软件界面,就可以通过该软件界面将全世界所有与该领域相关的信息资 源、知识资源或研究资源联络起来,构筑成具有特定功能的系统。 2 、从本体论层次上考察事物的运动状态及其状态的改变方式,能对信息赋 予更具体的内涵。因此,在信息科学中,本体论是对概念化对象的一种表示和描述, 在计算机领域是指定义元数据及其相关关系的“规范”。本体论依赖于所采用的 语言,按照表示和描述的形式化程度不同,可以分为完全非形式化的、半形式化的 和严格形式化。 3 、本体论形式化程度越高,越有利于计算机进行自动处理。一般而言,一 个本体由以下几个方面构成该领域对象类的层次体系、对象类的属性及属性的 取值范围、对象之间除层次关系之外其他的语义关系、一定的推理规则即公理。 在2 0 世纪9 0 年代,本体论研究在计算机技术领域的应用日趋流行,在知识工程、数 据库设计和集成、信息检索和提取、知识管理、软件需求分析、面向对象技术和 基于a g e n t 的系统设计中扮演着越来越重要的角色。其中,最为突出的应用是智能 信息检索。 4 、基于o n t o l o g y 的智能检索信息系统由于能提供查询和资源描述所必需 的元语,并通过领域语义模型为信息源提供语义标注信息,从而使系统内的所 a g e n t 对领域内的概念、概念之间的联系及领域内的基本公理知识有一个统一的 认识,进一步提高了系统的联想能力和精确性,为用户提供有价值的信息和一个 全面的共同视图。 5 、本体具有良好的概念层次结构和支持知识的推理,本体论则成为构建语 义网的核心内容。在语义网中,所有信息都将是有明确语义的信息,从而自动对网 络上的资源进行处理,使网络信息得到更充分的利用。 用当代通用工具计算机处理形式本体论的一般构造方法可以设计成 三段法: ( 1 ) 概念化:就是确定某一领域的元概念。概念之间的关系可以包括同义关 系、反义关系、属种关系、交叉( 相交) 关系、全异( 相离) 关系等。 第二章本体相关理论及主要技术 ( 2 ) 模型化:就是用图示法将某领域的元概念之间的元关系表示出来,构筑 成形式本体论的元关系模型。 ( 3 ) 软件化:就是用适当软件工具将上述模型转化为能在计算机上运行的软 件。同时,形式本体论可以是一个动态系统,其概念、关系和软件均可根据发展的 需要而随时更新、扩张甚或重构。这是本体论相异于分类法、主题表等的特征之 2 2 本体主要技术 2 2 1 本体描述语言 值得注意的是,机器并不能像人类一样理解蕴含在自然语言中的语义,计 算机最终把所有的信息都当作o 、1 串进行处理。而本体的目的是使信息成为机器 可理解的,因此,在计算机领域讨论本体,首先就面临着本体究竟是如何描述的, 也就是概念的形式化问题。对应的研究内容就是本体的描述语言。本体描述谮。 言使得用户为领域模型编写清晰的、形式化的概念描述,因此它应该满足以下要 求:p 1 良好定义的语法( aw e l l 一d e f i n e ds y n t a x ) 良好定义的语义( aw e l l d e f i n e ds e m a n t i c s ) 有效的推理支持( e f f i c i e n tr e a s o n i n gs u p p o r t ) 充分的表达能力( s u f f i c i e n te x p r e s s i v ep o w e r ) 表达的方便性( c o n v e n i e n c eo fe x p r e s s i o n ) 自上个世纪9 0 年代以来,一些基于a i 的本体实现语言陆续被提出,如k i f 、 0 1 1 t o l i n g u a 、c y c l 、l o o m ,o c m l ,f l o g i c 。后来,随着w e b 的发展,又出现了一 系列基于w e b 的本体语言,也叫做本体标记语言,如s h o e 、x 0 l 、r d f 、r d f s 、 o i l 、d a m l 、d a m l + o i l 、o 既。在这里我们主要讨论的是基于w e b 的本体描述语 言。 图2 1 嘲中给出了基于w e b 的本体描述语言的发展历程和相互关系。 l o 第二章本体相关理论及主要技术 图2 1 基于w e b 的本体描述语言的发展 常见的本体描述语言列表如下: 表2 1 本体描述语言列表 种类名称全称开发者特征 s h o e s i m p l e h t m l马里兰大学 它是基于框架和规则的。它 m o n t 0 1 o g y使用不同于h t m l 的一些标 e x t e n s i o n s 记,使得可以在h t m l 文档中 1 插入本体。当x m l 产生并成 为w e b 上交换信息的标准后, s h o e 的语法被修改为基于 x m l 。 x o l l 8 l o n t o l o g y s r i 它是一种简单通用的定义本 e x c h a n g e 工n t e r n a t i o n体的方法。其目的是在不同 2 l a n g u a g ea 1 的人工智的数据库、本体开发工具、 能中心 或者其他应用程序之间交换 ( a i c )本体。 r d f,r e s o u r c ew 3 c是w 3 c 在x m l 的基础上推荐 r d f s d e s c r i p t i o n的一种标准,用于表示任何 3 隅,9 】 f r a m e w o r k ,( r d f 的资源信息。r d f 提出了一个 s c h e m a )简单的模型用来表示任意类 型的数据。 o il 1 1 0 1 0 n t 0 1 0 9 y 在欧洲的i s t0 i l 以r d fs c h e m a 为起点, 4 i n f e r e n c e 项目用更为丰富的0 n t 0 1 0 9 y 建模 第二章本体相关理论及主要技术 l a y e r ( ) n t o l o g y o n t o k n o w l原语对r d fs c h e m a 进行扩 i n t e r c h a n g ee d g e 中开发充。o i l 将框架系统、描述逻 l a n g u a g e 的辑和w e b 标准( ) ( l l 和r d f ) 这三个不同领域的优点结合 起来,提供了一种通用的语 义w e b 的标记语言。 d a 儿d a r p a a g e n td a r p a 计划第d a m l 扩展了r d f ,增加了更 【1 1 1 m a r k u p一阶段所创 多更复杂的类、属性等定义。 5 l a n g u a g e建的一种语它一度很流行,成为网上很 多本体的描述语言。 o w lw e b o n t 0 1 0 9 yw 3 c 推荐的本0 w l 是在d a m l + o i l 的基础上 f l t1 2 】 l a n g u a g e体描述语言发展起来的,作为r d f ( s ) 的 6的标准扩展,目的是提供更多的元 。 语以支持更加丰富的语义表 达,并更好的支持推理。 针对不同的需求,0 w l 有三个子语言:o w ll i t e 、o w ld l 和o w lf u l l 。描述 列表如表2 2 : 表2 20 w l 子语言描述 子语言 描述 0 w ll i t e用于提供给那些只需要一个分类层次和简单属性约 束的用户 0 w ld l支持那些需要在推理系统上进行最大程度表达的用 户,这里的推理系统能保证计算机的完全性和决定 性,包括o w l 语言的所有约束,但是可以被仅仅置于 特定的约束下 o w lf u l l支持那些需要在没有计算保证的语法自由的r d f 上 进行最大程度的表达用户。它允许一个本体在预定 义的词汇表上增加词汇,所以所有的推理软件都不 支持o w lf u l l 的所有特征。 1 2 第二章本体相关理论及主要技术 2 2 2 本体主要构建方法 2 2 2 1 本体构建方法分类 图2 2w 3 c 的本体语言栈 ( 1 ) 自顶向下生成本体的方法,其表现形式可以是: a 由领域本体构建应用本体,其中应用本体为针对特定对象而生成本体:其 思想是,事先构建领域本体。领域本体并不是很大,只是对领域知识的一个比较 粗的框架而已,其中只包含领域的概念和关系,而并不包括这些概念的实例。应 用本体是领域本体针对特定网站生成的本体,其中包含的概念和关系就比较具 体。利用应用本体,再对特定网站进行数据的提取,这其中便有了特定的抽取规 则。这些规则可以预先定义,也可以不断的自学习生成。在抽取实例的过程中, 应用本体和领域本体都不断扩展,不断完善。 b 本体数据的实例化,即以本体为数据组织的框架,对本体中的概念进行 实例填充:国外很多的p a p e r 的命名都含有”本体的自动( 或半自动) 抽取”字样, 发现他们事先都承认本体框架的存在,利用本体框架,对w e b 进行数据的自动或 半自动抽取,使本体实例化。这应该是本体数据的抽取过程,但是细细一想,本 体数据的实例化,也可以算是本体的生成;这就如同人可以由简单的骨络框架逐 步肉体化,其也算是人体的生长过程。 两法都是在拥有了本体框架的情况下,扩展本体实例,所以是一种自顶向 下的本体生成方法。 ( 2 ) 自底向上生成本体的方法,其表现形式为: 本体的m e r g e ,多个小型本体合成大型本体:本体有s i n g l eo n t o l o g y ,也有 m u l t i o n t 0 1 0 9 y ,还有h y b r i do n t 0 1 0 9 y 。而且本体具有领域性的限制,同时, 不同的应用程序,可能建立了不同的o n t 0 1 0 9 y 。因此,本体之间存在m e r g e 的过 程,这个过程其实就是m a p p i n g 过程。此法有小本体生成大本体,其实差不多就 第二章本体相关理论及主要技术 是由多个局部本体互相m e r g e ,最终有一个g l o b a lo n t 0 1 0 9 y 的过程,所以是自底 向上的方法。 ( 3 ) m i “l e o u t 方法,其表现形式为: 由具有本体雏形的一组核心入手,不断扩展本体。此法是本体自动( 或半自 动) 构建唯一的突破点。由于自然语言的复杂性、难处理性,在没有任何基础下 完全自动的生成本体是非常难的事情。况且本体还具有领域性的限制。因此由核 心种子,即本体的雏形入手,自我学习,自我完善,不断扩展本体的概念属性 关系实例,这应该是一种可行的方法。此法由核心种子入手( 即雏形本体入手) , 因为其已有了一部分预先的工作,是从预先工作中入手开始本体的自动生成过 程,因此是m i d d l e o u t 方法。 对于构建一个真正的本体来说,实现方法不存在唯一性。对于任何专业学 科领域,都不存在某种唯一适合的途径或模式,可能是几种方法都可行,最佳的 方法依赖于本体构建者所采用的构建工具以及可预见的扩展功能。而且本体的开 发和进一步的完善是一个反复迭加的过程,不可能一次成功。 本文将结合以上几种构建方法,并且结合统一编码系统的信息分类方法,提出一 种本体构建方法。具体方法在第三章中做具体介绍。 2 2 2 2 本体几种主要构建方法 常见本体主要构建方法如表2 3 所示: 表2 3 本体主要构建方法列表 名称 全称特征建立步骤 这种方法开l 、应用的说明: 发本体由应2 、相关本体论范 用开发控制。畴的初步设计: b e r n e r a se ta 1 方所以每一个3 、步设计:搜索 b e r n e r a s e t a l 法应用都有相已存在的 应的表示该o n t 0 1 0 9 i e s ,进 应用所需的行提炼、扩充。 o n t 0 1 0 9 y 。 在企业本体l 、确定目的和范 基础之上,是围 骨架法 s k e l e t a lm e t h o d 0 1 0 9 y相关商业企2 、建设本体 业问术语和a ) 本体捕获。 定义的集合, b ) 本体编码。 1 4 第二章本体相关理论及主要技术 该方法只提c ) 本体集成。 供开发本体3 、评价 的指导方针 4 、文档化 5 、每阶段的指导 方针:清楚、一致、 可扩展性、最小本 体承诺、最小编码 偏差。 它的目标是l 、激发场景 建立一套为2 、非形式化的能 商业和公共力问题 , 企业建模的3 、术语的规范化 企业建模法【”】“评价法”t o v e集成本体,并4 、形式化的能力 且已经建成问题 了相关本体5 、形式化公理 6 、完备性定理 如图2 3 该方法是在l 、规格说明书: 结合了骨架2 、知识获取: 匝t h o n t o l o g y 是法和3 、概念化: 马德里大学在开发人工 g o m e z p e r e z 4 、集成: 本体方法 智能图书馆时使用的方方法后,提出5 、实现: 法。的一种更为 6 、评价: 通用的本体7 、文档化: 建设方法。 用于自然语l 、定义“叶子” 言程序,由术语( 和s e n s u s 无 i s i ( 信息科关) 学研究所) 自2 、把叶子术语手 感觉法 s e n s u s然语言组企工地和s e n s u s 术 图为机器翻语相连 译提供广泛3 、找出叶子节点 的概念结构。到s e n s u s 根的 “路”: 第二章本体相关理论及主要技术 4 、增加和域相关 并且没有出现的概 念; 5 、用启发式思维 找出全部的特定的 域的术语: t o v e 本体设计与评价过程如下图所示: 图2 3t 0 v e 本体设计与评价过程 2 2 2 3 本体几种主要构建方法比较分析 上述五种构建方法和i e e e l 0 7 4 1 9 9 5 的比较分析如表2 4 所示: 表2 4 五种主要构建方法的比较分析 开需 工程管理阶 发求设执 方法名称 开发后期统一阶段 段前分计行 期析 没 没 不全,没有训练 骨架法没有 有有没有和环境学习和 有有 配置管理 评价法没 不全,没有训练 ( t o v e ) 没有有 有有没有和环境学习和 有 配置管理 1 6 第二章本体相关理论及主要技术 b e r n a r a s 没 没有有有有没有没有 e ta l i a 有 不全,没有 不全、没有安 m e t h o n t 0 1 没装、操作、支 不全,没有训练 建立工程环有有 有 o g y 有持、维护、训和环境学习 境阶段 练阶段 没没 s e n s u s 没有有有没有没有 有有 五种方法与i e e e 标准的一致性情况比较如表2 5 所示。 表2 5 五种主要构建方法与i e e e 标准的一致性情况比较 与i e e e 标 方法名称生命周期准的一致相关技术 o n t 0 1 0 9 y 方法的细 性 的应用 节 不完全一 骨架法没有不确定1 个域很少 致 不是真正 不完全一 不确定1 个域少评价法 的生命周 致 期 不完全一 b e r n a r a se ta 1 i a 没有不确定】个域 很少 致 不完全一 m e t h o n t 0 1 有有,不全 多个域 详细 致 不完全一 s e n s u s 没有不确定多个域一般 致 从上两表中可以看出: 和i e e e 标准相比较没有一种方法是完全成熟的,五中方法的成熟性排序 为: m e t h o n t o l o g y 、t o v e ( 评价法) 、s k e l e t a lm e t h o d 0 1 0 9 y ( 骨架法) 、s e n s u s 、 b e r n a r a se ta l i a s e n s u s 和别的方法完全不一样; 允许系统间的互操作; 1 7 第二章本体相关理论及主要技术 不管何种方法,都依据两个原则:提供共享和翻译工具。 2 2 3 本体构建工具 到目前为止,已经出现了许多本体建设工具。根据这些工具所支持的本体 描述语言,大致可以分为两类。 第一类包括o n t 0 1 i n g u a ,o n t o s a u r u s ,w e b o n t o 等。这三个工具的共同点是, 都基于某种特定的语言( 0 n t 0 1 i n g u a 基于o n t 0 1 i n g u a 语言,0 n t o s a u r u s 基于l o o m 语言,w e b o n t o 基于o c 虬语言) ,并在一定程度上支持多种基于a i 的本体描述语 言。 第二类包括p r o t 6 9 6 系列、w e b o d e 、0 n t o e d i t 、o i l e d 等。这些工具最大的 特点是独立于特定的语言,可以导入导出多种基于w e b 的本体描述语言格式( 如 】( m l 、r d f ( s ) 、d 川l + 0 i l 等) 。其中,除了o i l e d 是一个单独的本体编辑工具外, 其他都是一个整合的本体开发环境或一组工具。它们支持本体开发生命周期中的 大多数活动,并且因为都是基于组件的结构,很容易通过添加新的模块来提供更 多的功能,具有良好的可扩展性。 下面将简单介绍并比较几种主要的基于w e b 的本体建设工具。 2 2 3 1 p r o t 6 9 6 2 0 0 0 p r o t 6 9 6 2 0 0 0 是由斯坦福大学的s t a n f o r dm e d i c a li n f o r m a t i c s 开发的一 个开放源码的本体编辑器,它是用j a v a 编写的。p r o t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高温环境下中枢药物代谢特点分析
- 幼儿园家长数字素养对家园共育质量影响-基于2024年素养测评与共育质量评估关联
- 江西省2026届高三高考适应性考试(二)语文试题(解析版)
- 建设工程质量检测实务操作指南
- 小学体育课教学方法与实践案例
- 2025年高考数学理试题分类汇编:统计与概率
- PowerPoint2010界面与功能应用教程
- 土木工程力学习题及考点解析
- 电磁流量计维护与故障排除指南
- 小学生暑期安全知识竞赛题
- 《配电设施防洪涝设计规程》
- 从“智人”到“数字人”
- DB11T 3032-2022 水利工程建设质量检测管理规范
- 媒体创意经济:玩转互联网时代学习通超星期末考试答案章节答案2024年
- 工程造价咨询服务投标方案(技术方案)
- GB/T 44299-2024探测器探测范围的测量方法和声明用于大和小运动探测的被动式红外探测器
- 《交通监控系统》课件
- GSTGM9000图形显示装置软件用户手册
- 明管结构计算书(Excel)
- 2023年同等学力申硕经济学综合历年真题及答案
- 《社会工作实务》初级社会工作师
评论
0/150
提交评论