HEUT硕士学位论文中期报告.doc_第1页
HEUT硕士学位论文中期报告.doc_第2页
HEUT硕士学位论文中期报告.doc_第3页
HEUT硕士学位论文中期报告.doc_第4页
HEUT硕士学位论文中期报告.doc_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

硕士学位论文中期报告粗逻辑在本体语义知识推理体系中的应用研究王坚学 号: 2009100113 学科专业: 应用数学 研究方向: 信息处理数学模型及应用 指导教师: 阎红灿 教授 理学院年 月 日Research on Application of Rough Logic in Ontology Semantic Knowledge ReasoningCandidate:Wang JianSupervisor:Proj. Yan HongcanMajor:Applied MathematicsSchool of College of scienceHebei Polytechnic University46 West Xinhua Road, Tangshan 063009,P.R.CHINA河北理工大学硕士研究生论文阶段中期考核情况表学生姓名导师姓名时间地点论文题目:考核小组成员:论文进展情况:导师对学生政治思想、身体健康状况以及业务能力的评价导师签字:考核小组意见(是否适合继续培养):考核小组组长签字: 备注:河北理工大学硕士研究生中期考核的要求根据河北理工大学授予硕士学位工作条例和河北理工大学攻读硕士学位培养工作规定,我校硕士研究生中期考核的有关事项如下:1. 硕士生以书面(8000-10000字)和讲述方式,对其论文作中期进展报告。中期进展报告应说明课题的理论分析、实验方法、数据、设计方案、初步结论、遇到的问题及进一步工作计划。2. 中期进展报告考核小组至少由5名具有副教授以上职称或博士学位获得者组成,对此报告进行考核,就课题的理论分析、实验方法、数据、结果的可靠性、设计方案的可行性及初步结论的正确性等进行评审,对存在的问题和进一步的研究方向提出指导性建议。考核结束后,考核小组要形成决议并填写河北理工大学硕士研究生论文阶段中期考核情况表。3. 考核结果符合继续攻读硕士学位条件者,可继续硕士学位论文工作;不符合继续攻读硕士学位条件者,限期改正或终止学习按肄业处理。4. 研究生及其导师必须参加中期考核,如因个人或学院有特殊情况,无法在规定时间内完成,应提前出具证明材料,经研究生学院审核通过后可择期另行。5. 若中期报告中题目与选题报告不一致(即论文题目、内容有所变动),须在中期考核情况表的备注中加以说明。6. 论文中期考核报告按照“模板”结构编写,模板和考核表文件在研究生学院网站下载,考核结束后,研究生将修改后的中期报告(正文部分正反面打印)打印、上交研究生学院培养办备案。目 次目次引言11 理论分析21.1 本体的概述21.1.1 语义网简介21.1.2 本体的基本概念31.1.3 本体的分类31.2 本体的构建41.2.1 本体构建的现状41.2.2 本体构建基本原则52 研究方案82.1 研究目标82.2 研究内容82.3 关键问题82.4 目标创新点83 课题进展93.1 形式概念分析93.2 从形式概念到OWL本体103.2.1 OWL简介103.3.2 形式概念与OWL DL的结合113.3.3 概念相似度的计算133.4 实验仿真154 课题存在的问题及解决办法194.1 课题存在问题195 今后工作计划20参考文献21I引 言引言语义网(Semantic Web)的提出是为了解决当前互联网中存在信息结构混乱,检索手段单一的问题,而且这个问题随着信息爆炸越发显得突出。语义网的本质是通过一定的技术手段式计算机能够理解自然语言所包含的语义,并且能够通过语义使互联网中的信息组成一个信息的网,使其能够智能化的检索,而不是在当今互联网中占主流地位的关键词匹配检索。本体是下一代互联网语义网的关键环节。本体一词来源于哲学范畴,但又与哲学范畴的本体有一定的区别。在计算机领域中,本体是概念化的明确的部分的说明一种逻辑语言的模型,即本体是从从海量信息中中抽取的概念与概念的关系结构图,使其能够把松散的信息变成一个有机体,能够使用相应的检索工具查找用户所需要的相关内容。本文所研究的语义网层次结构中的逻辑层面,但是这个层面是无法独立存在的,它必须依附在本体层面。因此研究语义网中的逻辑层面必须在一个已建立的本体中进行,本文的前期工作旨在建立一个领域本体,这就是领域本体的构建问题。本体的构建目前尚没有一个统一的标准,这也是阻碍语义网发展的一个难题。目前世界上被认可的本体构建方法主要包括有骨架法、企业建模法、Methontology、KACTUS、循环获取法、IDEF-5、七步法等本体构建方法。但是这些方法仅仅提供了一些指导原则,缺少具体的操作步骤。形式概念(FCA)用于概念的发现、排序和显示。这和本体的原则是不谋而合的,因此可以利用形式概念来指导本体的构建,但是两者必竟是从两个不同的领域发展而来,因此两者之间的融合问题是有很大的研究空间的。-23-河北理工大学硕士学位论文中期报告1 理论分析1.1 本体的概述1.1.1 语义网简介语义网是由WWW的缔造者Tim Berners-Lee在2000年12月在XML2000会议上提出的,旨在解决当年互联网在信息表达和检索方面的缺陷,即没有提供计算机可读的语义信息,这样的互联网限制了计算机在信息检索的自动分析处理以及进一步智能化信息处理能力。语义网的目标是,为现今互联网上的信息提供计算机可以理解的语义,从而满足智能主题(Agent)对WWW上异构、分布信息的有效检索和访问,实现网上信息资源在语义层面上的全方位互联,并在此基础上,实现更高层得、基于知识的智能应用。Tim Berners-Lee提出的语义网层次结构如图1所示。该结构从底层到顶层依次为Unicode(统一字符编码)和URI(Universal Resource Indicator,统一资源定位符)、XML、RDF和RDF Schema(简称RDFS)、本体(Ontology)、逻辑(Logic)、证明(Proof)和信任(Trust)。在语义网七层结构中的XML、RDF、和本体三层主要用于表示Web信息的语义,因而是系统的核心的关键所在。 图1 语义网体系结构Fig.1 Structure of semantic web system1.1.2 本体的基本概念本体一词来源于哲学范畴,但是计算机领域借用这个词汇用来表示在计算机领域,本体定义的明确经历了一个过程。1993年,Gruber给出了本体的一个最为流行的定义,即“本体是概念的模型的明确的规范说明1”。后来,Borst对此加以修改,指出“本体是共享概念模型的形式化规范说明”2。Studer等对上述两个定义进行深入研究3,认为本体是共享概念模型的形式化说明。这个定义包含4层含义:概念化(Conceptualization)、明确性(Explicit)、形式化(Formal)和共享(Share)。“概念化”指通过抽象出客观世界中一些现象的相关概念而构成的概念模型,即概念系统梭巡韩的语义结构,是对某一事物结构的一组非正式的限制规则,可以理解和/表达的为一组概念(如实体、属性、过程)、定义和关系。“明确”指所有的概念及使用的这些概念的约束都有明确的定义。“形式化”指本体是计算机可读的(可被计算机处理)。“共享”指本题中体现的是共同认可的知识,反映的是相关知识领域中公认的概念集,即本体针对的是社会范畴而非个体之间的公识。除上述定义以外,不少文献从不同的问题域和研究角度出发,给出了本体的各种各样的定义。对于本体的种种不同的定义,都是从不同的出发点给出相应的解释这些定义是相互补充的,别且不断扩展本体的应用范围。他们有一个共同点,即都包含Gruber定义中所指出的试试:“本体是反映客观存在的概念模型,是对概念模型的明确描述”4。总而言之,本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定改良与内共同认可的词汇,并从不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义。一般来讲,本体具有两个特性:静态性和动态性静态性指的是他反应的是概念模型,没有涉及动态的行为:动态性质的是它的被容和服务对象是不断变化的,针对不同的领域可以定义和构造不同的本体。1.1.3 本体的分类本体的研究和开发工作是在不同层次上进行的。根据本体的研究层次可将其划分为5:(1)顶层本体:主要研究通用的概念,如空间、时间、事物、行为等,它们完全独立于特定的问题或者领域。因此可以说顶层本体可以在一个很大的范围内共享。(2)领域本体:研究一个特定领域相关的属于或词汇,如医学、企业模拟等。(3)任务本体:定义通用任务或推理活动,如诊断等。它们都可以应用顶层本体中定义的词汇来描述自己的词汇。任务本体和领域本体处于同一个研究和开发层次。(4)应用本体:描述特定的应用,它既可以应用特定的领域本体中的概念,有可以引用出现在任务本体中的概念。本文所涉及的本体是领域本体,本体的分类图如图2所示。领域本体任务本体本体和表达语言顶级本体应用本体 图2 本体分类图 (黑剪头表示特例关系) Fig.2 The classification figure of ontology(the black haircut signs the relationship of exception)1.2 本体的构建1.2.1 本体构建的现状虽然本体工程(Ontology Engineering)工具的研制水平已经得到一定的提高,但是本体的构建依然是一项繁琐艰巨的任务,这样最终导致知识获取瓶颈,严重影响了语义网的发展。本体构建的方法学还没有成熟完备的理论作为指导,而当前的本体构建方法基本上是针对具体的项目提出的。因为本体的构建目前还没有一套统一的理论作为指导,这样就难以在不同的本体的建设中保持一致,也不利于本体的规模化和规范化建设。因此对本体购建方法的研究对于本体的应用具有相当重要的作用。1.2.2 本体构建基本原则虽然当前对于构建本体方法的基本原则和性能评估标准没有一个统一的认识,仅仅是对于本体的构建需要领域专家的参与达成了统一的共识。但是很多研究人员提出一些有意与构造本体的原则,其中最有影响的是Gruber于1995年提出的5条规则6:(1)清晰(Clarity):本体必须有效的说明所定义的术语的含义;(2)一致(Coherence):本体应该是前后一致的,即必须支持与其定义相一致的推理;(3)可扩展性(Extendibility):本体的可扩展性是指本体可以提供一个共享的词汇,这个共享可以为可预料到的任务提供相应的概念基础;(4)编码偏好程度最小(Minimal Encoding Bias):本体应该处于知识的层次,与特定的符号及编码无关;(5)本体约定最小(Minimal Ontological Commitment):本体约定应该最小,只要能够满足特定的知识共享即可。此外西班牙马德里理工大学的J.Arpirez等人提出了自己的本体构建准则,他们认为本体的设计应该有如下的注意事项:(1)尽可能使用标准术语;(2)同层次概念保持最小的语义距离;(3)可以使用多种概念层次,采用多重继承机制增强表达能力。上述提到的本体构建的基本原则对于具体构建本体的活动来说想得十分抽象,没有可以操作的语义。在研究人员提出的所有原则中甚至存在有些原则之间不一致的情况。因此在实际的本体构建过程中,需要根据实际情况在不一致的原则中间进行权衡,根据实际的需要灵活掌握。以本体构建原则为基础,国内外学者提出了一种构建本体的实际操作方法,总的来看可以归纳为两种模式:(1)利用现有文献和领域专家使用手工的方式创建概念关联(2)将已有的叙词表改造成本体,或者采用学习机制,进行自动或自动化的本体构建。目前国际上被认可的本体手工构建方法主要包括有骨架法7、企业建模法8、Methontology9、KACTUS、循环获取法4、IDEF-510、七步法11等本体构建方法。以下简要介绍一下七步法、Methontology和IDEF-5。七步法(Seven-step Method)Stanford大学医学院开发的本体构建七步法即本体构建的7个步骤:(1)确定本体的专业领域与范畴;(2)考查复用现有本体的可能性;(3)列出本体中的重要术语;(4)定义类和类的等级关系; (5)定义类的属性;(6)定义属性的分面(Facets);(7)创建实例。七步法相对成熟,囊括了领域分析、本体的合并与概念添加等多个方面。Methontology专用于构建化学本体(有关化学元素周期表的本体),该方法已被西班牙的马德里大学理工分校人工智能图书馆采用。它的流程包括:(1)管理阶段:这一阶段的系统规划包括任务的进展情况、需要的资源、如何保证质量等问题;(2)开发阶段:分为规范说明、概念化、形式化、执行以及维护五个步骤;(3)维护阶段:包括知识获取、系统集成、评价、文档说明、配置管理5个步骤。3.3.3 IDEF-5IDEF(ICAM Definition Languages)是20世纪70年代由美国空军发明,最早用于描述企业内部运作的一套建模方法。IDEF一5提出的本体建设方法包括以下5个步骤:(1)组织和范围:确定本体建设项目的目标、观点和语境,并为组员分配角色;(2)数据收集:收集本体建设需要的原始数据;(3)数据分析:分析数据,为抽取本体做准备:(4)初始化的本体建立:从收集的数据当中建立一个初步的本体:(5)本体的精炼与确认:完成本体建设过程。IDEF-5通过两种语言形式(即图表语言和细化说明语言)来获取某个领域的本体。这两种语言是互为补充的,IDEF-5的图表语言在表达能力的某些方面是很有限的,但是这种绘图方式又使得它很直观容易被理解;而IDEF一5的细化说明语言是一种具有很强的表达能力的文本语言,它可以把隐藏在图表语言内的深层次的信息描述清楚从而弥补图表语言的不足。对于半自动方法构建本体是本轮将要讨论的重点。未来本体构建的目标当然完全自动完成本体构建,所以半自动本体构建方法是未来本体工程的初级阶段。半自动本体构建可以从一定程度上降低手工构建本体得工作量,提升本体的质量。Alexander Maedche和Steffen Staab根据本体学习的知识源不同,对采用自学习的方法半自动地构建本体的方法做了如下分类:(1)从词典进行本体学习。将构建本体建立在已有的机器可读的词典的基础上,从中抽取相关的概念和概念间的关系;(2)从知识库中进行学习。通过从已有知识库中的学习来构建本体;(3)从关系数据库中抽取本体。(4)从半结构化的数据学习。从类似于XML Schema这样的半结构化的数据源提取概念和概念之间的关系,以构建本体。(5)从文本中学习。构建方法有:基于模板的提取方法;关联规则;概念聚类;形式概念分析。本文正是遵循七步法的原则,引入了形式概念来参与本体的构建,并着力使形式概念方法生成的结果与领域本体本身的逻辑结构相融合,最终使用本体描述语言OWL以及本体编辑工具protege来完成本体的实现。2 研究方案2.1 研究目标1) 将粗逻辑应用于语义网体系的推理层,构建新的描述逻辑系统的语义、语法及推理规则;2) 设计新的描述逻辑系统的推理算法;3) 构建语义本体。2.2 研究内容1) 研究描述逻辑系统中粗逻辑的表示;2) 定义粗糙描述逻辑系统的推理规则并设计推理算法;3) 分析基于概念信息容量法和基于概念距离法的语义相似度计算方法,构造一种基于粗逻辑的高精度的概念相似度计算方法。2.3 关键问题1) 如何完成形式概念分析与OWL本体逻辑组件的融合;2) 基于形式背景反馈机制的概念近似度计算方法;3)如何在建成的本体中应用粗逻辑,对已有的相似度计算方法进行扩展。2.4 目标创新点1) 构建粗糙描述逻辑系统的语义、语法及推理规则;2) 定义基于粗糙描述逻辑的高精度的概念近似度计算方法。3 课题进展3.1 形式概念分析形式概念分析(FCA)是由德国教授Wille提出来的12,用于概念的发现、排序和显示。在形式概念分析中,概念的外延被定义为属于这个概念的所有对象的集合,而内涵被认为是所有这些对象共同拥有的特征(或属性)集,着就实现了对概念的形式化,搜有概念连同他们之间的泛化和例化关系构成了一个概念格。概念格模型是形式概念分析理论中的核心数据结构,它是根据二元关系建立起来的的概念层次结构,并且反映对象和属性之间的联系以及概念之间的泛化与例化关系,这样很容易在概念层次结构上建立数据之间的依赖或因果关系模型。在介绍概念格之前首先要介绍形式背景,在形式概念分析中,数据集是以形式背景的形式给出的。定义1 一个形式背景是有三元组构成,其中是对象,是属性集,是和之间的二元关系,表示为且。对于,若对象具有属性,则说与是有关的,记为,或。一个简单的形式背景如表1所示。表1 形式背景K=(Object=O1,O2,O3,O4,Attribute=A1,A2,R)Tab.1 Formal background K=(Object=O1,O2,O3,O4,Attribute=A1,A2,R)RA(Attributer)a1a2O(Object)O1O2O3O4 定义2 形式概念(Concept):序偶是形式背景的一个形式概念(简称概念),当且仅当,则称为概念的外延(Extent),而为概念的内涵(Intent)。设和是格中的两个概念,其中偏序关系“”定义为。此时称是的子概念(Sub-concept),是的超概念(Super-concept)根据偏序关系可以生成概念格的Hasse图,如果有概念,并且不存在另一个概念使得,则从到就存在一条边,即是的直接子概念,反之是 的直接超概念,满足直接子概念超概念关系的所有概念节点的集合是一个完全格,每个概念节点都是完全对,使得且,其中这个性质使对于同一个形式背景而言,概念格的构造不受数据或属性排序的影响,是唯一的,因此保证了算法设计的可行性。由表1成成的Hasse图如图1所示: 图3 概念格的Hasse图Fig.3 The Hasse figure of concept lattice3.2 从形式概念到OWL本体3.2.1 OWL简介OWL(Ontology Web Language)是W3C(万维网联盟)推荐的本体描述语言的标准。OWL是针对个方面需求设计而成的,它既能保持对以往的本体描述语言(DAML-ONT、OIL、RDFS)的兼容性,又具有更强大的语义表达能力,同时还能保证描述逻辑的可判定标准等。OWL的基本元素有类、属性和实例13:(1)Class(类):类定义了一组共享某些属性的个体所组成的集合。使用rdfs:subClass(子类)可以将不同的类组织成为特定的层次结构。(2)Property(属性):属性可以作用于说明个体之间或个体到数值间的关系。属性可以有子属性。属性的rdfs:domain(域)先顶了可以应用该属性的个体的类。属性的rdfs:range(范围)在另一个方向上限定个体的取值。(3)Individual(个体):个体是类得实例。他可以使用属性将一个个体与另一个个体关联起来。3.3.2 形式概念与OWL DL的结合文献14给出了概念格与OWL本体的逻辑结构的等价关系并给出了由概念格生成本体的算法,定义了概念格与OWL中的rdfs:subClass、rdfs:domain、rdfs:type的对应关系,如表2所示表2 文献14给出的形式概念与OWL本体的逻辑构件等价关系Tab.2 The equivalence relation of FCA and OWL logic components which is given by docu.14 FCA 元素DLOWLConcept C and直接超概念supC概念C的内涵 概念C的外延 文献14初步解决了概念格到本体的基本构架问题,但是实际应用中有很多概念关系超出了这个范围,本文通过OWL DL中的描述逻辑的基本构件与形式概念的融合,用形式概念如何体现这些逻辑构件:(1)sameAs关系,由于中国地域辽阔,同一事物在不同地区有着不同的名称,例如,双子叶植物纲龙胆门萝藦科的“徐长卿”又被叫做“一枝香”,若仅仅通过字符串来辨别两者完全不同,但是它们却是指向同一事物。(2)differentFrom关系。“徐长卿”和“马利筋”两个个体如果构造形式背景仅以“直立草本”、“叶对生”、“夏季开花”等属性来区别会造成错判,因此需要建立形式背景的反馈机制,计算如何恰当的增减属性来达到区分这些概念的目的(考虑到系统的运行速度,属性不能无限增加)。sameAs和differentFrom两个逻辑组件在本体后期的语义检索应用中起关键的作用直接影响检索结果的构成,因此本文首先要研究形式概念分析和这两个逻辑组件的对应关系。为了解决上述问题,采用逆向思维先利用已知事物具有上述两种关系来反推其形式背景。形式背景就是在已知“马利筋”和“徐长卿”并不是同一事物的前提下建立的,可见仅仅通过“直立草本”、“叶对生”“夏季开花”三个属性是无法区别的,如表3所示:表3 未能有效区分个体的形式背景Tab.3 The formal backgroundthat can not classify individualsR直立草本叶对生夏季开花马利筋徐长卿一枝香若添加两种植物的要用性便可加以区别,即添加“祛风湿”、“ 全株有毒”如下表4 表4 添加属性后能够有效区分个体的形式背景R直立草本叶对生夏季开花祛风湿全株有毒马利筋徐长卿一枝香 这样在文献14的基础上,加入形式背景反馈机制,可以使对象能够被有效的区分与归类。就植物学而言上述例子中两种植物效能上差距很大,所以只需要添加一对属性即可区分,但是要在亚种层面区别两种动物可能要添加很多属性,因此需要领域专家与知识工程学者在建立本体之前对本的应用范围做出探讨,例如植物学的研究就有很多方面,植物学有植物生态学、植物地理学等分支,在不同的分支背景下同一种动物(或者说其代表在本体中的概念都会被被归为不同的概念的子集,或者于不同的概念相融合)可归属于不同的类。因此知识领域学者可根据领域专家的对本体的需求方向来确定属性集的构成,从备用的属性集中选出一部分构成待检验的形式背景。3.3.3 概念相似度的计算在计算机实际检索的过程中,sameAs和differentFrom两个逻辑组件如何被确定是一个问题。因此才本体的构建过程中需要引入概念相似度计算的问题。其实概念相似度的计算贯穿本体的构建与应用,在本体构建完成实现检索的过程也是一个根据概念相似度计算得到的阕值来获得检索结果。文献15计算属性相似度时,不仅计算了相同属性的相似度,不同属性的相似度也假定可能具有某种程度的相似。这种假定在一个统一的知识背景中是不恰当的。文献16对其进行改进得到了由个体与属性共同决定的概念相似度公式。文献16给出的概念相似度公式仅仅针对于静态的形式背景,如何在形式背景变化的情况下构建一个概念相似度的公式是本文要解决的问题是如何建立一个反映形式背景反馈的概念相似度公式。(1)个体之间的sameAs和differentFrom两个关系可参照公式(1)中的相似度计算方法,即通过个体所对应的属性集通过公式(2)来获得个体两两相似度矩阵。定义4 个性相似度在一个形式背景 下,两个个体,的相似度定义如下 (1) 其中,是个体,对应的属性集,为领域专家从提前预设定的属性集中加入到待定形式背景的元素的个数。若领域本体中的个体数有个,则所有的个体可构成一个阶两两相似度的矩阵。领域专家可根据自己掌握的领域知识来判断在当前的属性集下个体间的相似度认定是否合理,是否有领域内不相关个体反而相似度过大的问题,然后在预设定的属性集中选取备用属性来添加到原形式背景,建立形式背景,来重新计算个体间的相似度并构建两两相似度矩阵直到相似度结果获得领域专家的认可。(2)被领域专家认定的的形式背景下可以通过算法17来构建概念格,可以通过概念节点的个体集来确定概念之间的相似度通过第一步得到的个体两两相似度的矩阵来找到对应的相似度并进行加权处理来得到最终的概念相似度结果作为领域本体中概念之间的数据关系。定义5 (概念相似度新公式)概念格中两个概念节点,其中,则两概念节点的相似度公式可结合公式(2)表示为 (2)上述公式利用个体的相似度来计算概念之间的相似度,在计算出概念的相似度之后可以设定阕值来划定概念之间的sameAs和differentFrom关系。3.3.4 基于形式概念的的本体构建本文提出了一个改进的基于形式概念的本体框架体系,如图4所示,这个本体构建体系是半自动化的,在本体构建的第一个阶段需要领域专家的全程参与,(1)本体的手工阶段本体第一阶段的流程如下:1)确定本体应用范围;2)确定所涉及的个体和属性,建立个体集和备用属性集;3)在备用属性集中选定一部分属性构成与个体集构成待验形式背景;4)待验形式背景通过公式(3)获得相似度矩阵;5)领域专家对个体的相似度进行评判,若未获得领域专家通过,返回步骤2)添加属性重构形式背景;反之向下进行。(2)本体自动化阶段1)从形式背景到概念格概念格的构造问题是形式概念分析应用的前提。因此有关概念格的生成问题一直是形式概念分析应用研究的一个重点。国内外的学者和研究人员对此进行了深入的研究,提出了一些有效的算法来生成概念格,这些算法可以被分两类:批生成算法(Batch A1gorithm)和渐进式生成算法(Incremental A1gorithm)。批处理算法包括Ganter算法18、Chein算法19, Bordat算法20。渐进式构造算法典型的是Godin算法12,这个算法是概念格生成应用中最为常用的算法,本文的重点在于本体构建,所这里不再赘述。2)从概念格到OWL本体面熟语言文献13提出了一个从如何将概念格转换为OWL本体面熟语言的算法,在确定确定两个概念节点(即本体中的类)的sameAs和differentFrom关系时应用公式(2)计算得来的概念节点相似度通过给定阈值的来进行判断。选定领域选定个体集和属性集形式背景个体相似度矩阵概念格本体OWL本体专家未通过补充属性导导入protege软件存入MYSQL专家通过确定该形式背景Godin算法 图4 本体构建流程图Fig.4 The flowchart of ontology constructing3.4 实验仿真在上一节所举的简单例子的基础上可以构建萝藦科植物药用性的本体。最终的形式背景如表5所示表5 被确认的形式背景Tab.5 The ensured formal background R草本灌木藤本叶对生毒性止咳祛风湿聚伞花序圆锥花絮总状花序伞形花序杠柳合掌消牛皮消飞来鹤白薇白前徐长卿一枝香马利筋萝藦芄兰夜来香对这个形式背景中的元素应用公式(1)可以计算得到其对应的两两个体相似矩阵,如表6所示:经过领域专家对形式背景中的个体相似度获得认可之后可以确定这个形式背景为最终的形式背景,通过Godin算法可通过表6的形式背景来建立概念格,通过文献13介绍的方法可以用使用Protg软件的插件来绘制概念格,如图5所示。由于Protg软件中对类名的有特殊要求,即不能在类名指那个出现除了“-”、“_”的符号,因此对概念格中节点采用特殊的符号来表示,以免造成混淆。本文中表述的原则如下:(1)用数字1-12来分别代替表5中的12个个体,用1-11来分别代替表5中的11个属性(2)若代表个体的数字是连续用“-”来表示,比如“2,3,4”可表示为“2-4”;若出现的数字不连续用字母“x”来隔开数字,例如“4,7,9”在概念节点中表示为“4x7x9”。(3)用“_”来作为个体集合与属性集合的分解例如一个概念节点为E,I=1,2,3,6,4,5在图3所示的概念格中表示为class_1-3x6_4x5。表6 形式背景对应的两两个体相似度矩阵Tab.6 The relative similarity matrix of two individuals of formal backgroundS杠柳合掌消牛皮消飞来鹤白薇白前徐长卿一枝香马利筋萝藦芄兰夜来香杠柳1.000合掌消0.6001.000牛皮消0.6670.6671.000飞来鹤0.6670.6671.0001.000白薇0.6670.6000.6670.6671.000白前0.6000.6670.7500.7500.6671.000徐长卿0.8890.6670.6670.6670.6000.4441.000一枝香0.4000.4000.6670.6670.6000.4441.0001.000马利筋0.4440.4000.5000.5000.6000.2220.5000.4441.000萝藦0.2500.4440.5700.5700.4440.2850.5000.5000.5701.000芄兰0.2500.4440.5700.5700.4441.2850.5000.5000.5701.0001.000夜来香0.4440.4440.5000.5000.2220.5000.2220.2220.5000.2850.2851.000图5 未修改节点名称概念格的Hasse图Fig.5 The Hasse figure of non-mended names of concept nodes于在本体中由概念节点转化成的类名并没有实际意义,因此需要根据领域知识对其标注经过修改的萝藦科植物药用性本体如图6所示图6 修改节点名称之后概念格的Hasse图Fig.6 he Hasse figure of mended names of concept nodes通过本体所示的概念之间的信息“徐长卿”与“合掌消”两种植物的在“祛风湿”的属性控制下有一个共同的父类,而且两个概念节点之间的相似度为0.667在阕值为0.5的条件可以判定两者相似在信息检索过程中可以认为两者时语义相关的,可以作为结果显示出来。4 课题存在的问题及解决办法4.1 课题存在问题1 形式概念分析与OWL本体逻辑组件的完全融合问题。2 粗逻辑在建成本体的应用问题。3 本体以及基于本体的检索系统的程序实现问题。4.2 解决方法 1 深入研究相关文献,找到形式概念分析与OWL组件的切合点,完成两只中间的融合。 2 研究粗逻辑相关文献,与现有的概念相似度公式相结合形成新的概念相似度公式。 3 熟练掌握Jena,JSP等基于Java的应用语言。5 今后工作计划2010.7-2010.8 :继续研究形式概念与OWL本体逻辑组件的融合;2010.8-2010.9 :深入研究粗逻辑在新建本体的应用;2010.9-2010.10 :语义本体的具体实现;2010.10-2010.11:总体上修改论文,完成初稿。参考文献1 Cf. T. R. Gruber. A translation approach to portable ontologies. Knowledge Acquisition, 1993,5(2):199- 220,.2 Borst W N.Construction of Engineering Ontology for Knowledge Sharing and ReuseJ.PhD thesis, University of Twente, Enschede,1997.3 Studer R, Benjamins, V R, Fensel D.Knowledge Engineering, Principles and Methods. Data and Knowledege Engineering, 1998,25(1-2):L161-197.4 Gruber T R.Towards Pinciples for the Design of Ontologies used for Knowledge Sharing.International Journal of Human-Computer Studies,1995(43):907-928.5 Studer R,Benjamins V R,Fensel D.Knowledge Engineering,Principles and Methods.Data and Knowledge Engineering,1998,25(1-2):161-197.6 Gruder T R.A Translation Approach to Portable Ontology Specifications.Knowledge Acquisition,1993(5):199-200.7 黄伟.本体构建与语义集成研究D. 东南大学计算机应用专业,南京,2005.8 Lenat D.CYC:A Large Scale Inveatment in Knowledge Infrastructure.Communications of ACM,1995,43(5-6):669-686.9 魏东辉;运用methontology为学习技术系统体系结构建立本体D;太原理工大 学;200410 陈禹IDEF建模分析与设计方法M北京:清华大学出版社,1999.11 Noy N F, Mcguinness DL. Ontology Development: a Guide to Creating Your First Ontology EB/OL, http:/protege/S/publicatiolls/onto1.ogy-development/ontologyl01.pdf, 2002.12 Formica A. Ontology based concept similarity in Formal Concept Analysis. Information ScienceJ , 2006, (176):,2624-2641.13 Hu He Liu Da-you,Wang Sheng-sheng.Web Ontology Languange J. Computer Engineering, 2004( 6):343-347.14 蔡容延从文本自动构建OWL本体研究J.人工智能与识别技术,2010(2):39-41.15 ZHI Hui-lai, ZHI Dong-jie, L IU Zong-tian. Concept Similarity Based on Concept LatticeJ. Computer Science.2008, 9,PP156-157.16 Ganter B ,Wille R. Formal Concept Analysis: Mathematical FoundationM. New York. Springer2Verlag ,l999.17 FarquharA, FikesR, Rice J,The ontolingua server:atolfor collaborative ontology construction.Intemational Journal of Human-ComputerStudies,1997.46(6):707-728.18 B.Ganter, R.Wille,Formal Concept Analysis:Mathematical Foundations, Springer, Heidelberg. 1999.19 Chein.M. A1gorithme de recherche des sous matrices premieres Dune matrice,Bull.Math.R.S. (13):21-25.20 刘红阁,郑丽萍,张少方本体论的研究和应用现状信息技术快报,2005,3(1):1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论