




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
西安建筑科技大学硕士论文 本体学习中关系获取的研究 专 业: 计算机软件与理论 硕 士 生: 胡云飞 指导教师: 董丽丽 教授 摘 要 本体是一种能够在语义层次和知识层次上对信息进行描述的概念模型,主要是用来描述概念以及概念之间关系。自从本体的概念提出了就引起了国内外很多科研工作者的关注,而且在计算机等许多其他领域得到了广泛的应用,例如知识管理、电子商务、信息检索、语义 然目前已经有很多本体构建的编辑环境,而且可以满足构建本体基本需求,但完全依靠人工来获取概念以及概念之间的关系来构建本体,依然是一项费时费力的工作。为了使用知识获取技术来降低本体构建的开销,进而采用了本体学习 (术。本体学习结合了本体工程、机器学习和统计等方法自动或者半自动的构建本体。近些年来,本体学习成为了研究的热点问题。 本体学习的任务主要包括概念获取、关系 获取、公理获取。这三个方面构成了本体学习中从易到难的层次。本文主要 研究本体学习中关系的获取方法,包括分类关系和非分类关系,主要的研究工作如下: 1) 提出了本体原型系统的总体框架,对 原型系统的需求和关键技术做了详细的分析。 2) 分别通过基于模式匹配和聚类的方法 实现对概念间分类关系的获取,其中对于聚类的实现,提出了改进的 法获取分类关系,并对两种方法的实现做了比较和分析。 3) 对于概念间的非分类关系,首先使用 了基于扩展规则的方法和基于启发式方法,最后提出了基于 对数似然比的方法获取非分类关系,最后对三种方法进行了分析与对比。 4) 最后结合以上的研究方法,实现了一 个本体学习的原型系统,对其中的关系获取做出了实现。 西安建筑科技大学硕士论文 关键词:本体;关系获取;分类关系;非分类关系 西安建筑科技大学硕士论文 u is a in is to is in in as of of on of to is a to to to of of or to a in to of of is as 1) of a on of of 2) on to of of to a 安建筑科技大学硕士论文 on 3) As to of of E, F*to at of 4) we a to of 安建筑科技大学硕士论文 目 录 1 绪论 . 1 论文的研究背景 . 2 本体是当前热点研究领域 . 2 概念之间的关系获取是本体构建的重要部分 . 3 非分类关系是关系获取的难点 . 3 研究目的和意义 . 4 提出了一套建立本体概念间关系方法体系 . 4 解决了快速构建本体的关键问题 . 5 促进了本体在各领域的广泛应用 . 5 国内外研究现状 . 6 关系获取在国外的发展现状 . 6 关系获取在国内的发展现状 . 7 论文的研究内容和组织结构 . 8 2 原型系统的总体框架 . 11 需求分析 . 11 系统框架 . 13 关键技术 . 14 语料获取及预处理 . 14 概念获取模块 . 14 关系获取模块 . 14 本体生成模块 . 16 本章小结 . 16 3 概念之间分类关系的研究 . 17 基于模式匹配的概念间分类关系的抽获取 . 17 雪球模型 . 17 模式的构造以及模式的扩充 . 21 基于模式匹配的分类关系获取模型及算法描述 . 21 基于改进的K- . 22 概念向量空间模型的建立和相似度矩阵 . 概念间相似度计算 . 使用改进的K- . 构建概念之间的分类关系 .实验结果与分析 . 基于模式匹配方法的实验分析 . 基于聚类方法的实验分析 .本章小结 . 概念之间非分类关系的研究 .基于扩展的关联规则方法的概念间非分类关系的抽获取 . 基本思想 . 算法描述 . 动词过滤 .基于启发式概念间非分类关系的抽获取 . 基本思想 . 算法描述 .基于法和对数似然比的概念间非分类关系的抽获取 . 非分类关系的获取框架 . . 对数似然比 . 三元组 . 算法描述 .实验结果与分析 . 基于扩展关联规则方法的实验分析 . 基于启发式法实验分析 . 基于对数似然比方法的实验分析 .本章小结 . 系统的设计与实现 .项目背景 .开发环境 .系统结构 .I 西安建筑科技大学硕士论文 系统实施流程 . 57 系统的主要功能实现 . 58 本章小结 . 63 6 总结与展望 . 65 工作总结 . 65 研究展望 . 65 致 谢 . 67 参考文献 . 69 在校期间发表的学术论文及研究成果 . 73 攻读硕士期间发表的学术论文 . 73 攻读硕士期间参与的科研项目 . 73 西安建筑科技大学硕士论文 1 绪论 近些年来,随着计算机应用需求的不断增强,使得网络信息的持续高速增长和信息日益丰富。然而,在这种信息快速 发展的同时,也面临着许多的困难。主要的困难包括:信息的组织、知识的表示 、软件的复用等。特别是随着网络的快速发展,使得海量信息的组织、管理和维 护以及如何为用户提供有效的服务成为了一项重要而且迫切的研究课题1。 为了能够适应这些需求,本体作为一种能在知识层次以及语义层次对信息系统进行描述的概念模型建模工具,自从提 出来以后就引起了国内外的许多科研人员的关注与研究,并且在计算机的众多领域得到了广泛的应用 1,比如知识工程、软件复用、数字图书馆2、 息检索以及语义 本体定义为“ 构成特定领域中词汇的基本术语和关系,并且利用这些术语和关系构了概念与概传递性,概念可以依据分类关系组成层次状的概念分类体系(加了非分类关系之后,中大多集中于分类关系的研究,而非分类关系由于其多样性和复成的规定这些词汇外延的规则的定义 ”3。随着本体在知识描述和表达等方面的不断深入,本体的研究与发展在计算机 科学技术领域中日趋流行,利用本体中所描述的知识,可以进行基于语义的自然语言处理,信息检索和信息集成,在识管理系统和电子商务平台中本体扮演着越来越重要的角色4。 本体用概念来表示构成相关领域词汇的基本术语。本体中的关系描述念之间或者属性与属性之间的关系。 本体中概念之间的关系可以分为两类:分类(系和非分类(关系5。分类关系表示概念与概念之间的父类、子类等上下位的层次关系。非 分类关系则表示除了上下位层次关系以外的其它关系6。 分类关系满足利用概念分类体系,可以进行有关概念的推理:判定概念的可满足性和包含性。 非分类关本体就从概念分类体系上升为词典(、概念模型(和逻辑理论(7。因此,对本体中非分类关系的理论体系进行研究有着重要的理论意义。 目前已有的研究杂性等特点,研究较少。本文不仅对 分类关系作出了研究,而且对非分类关1西安建筑科技大学硕士论文 系也做出了实现,因为非分类关系是本体 中最常用的关系之一,若能对本体中非分类关系的理论体系进行系统的研究,会 分辨出哪些非分类关系满足传递性,哪些不能。这种理论体系会帮助在本体上的 推理、本体之间的相似度计算和基于本体的查询扩展等实际应用,因此本研究有着重要的理论意义和应用价值。 论文的研究背景 本体是当前热点研究领域 统的解释或者说明,反应了客观本体最早起源于哲学领域,是对客观存在一个系世界的抽象本质。以后逐渐的应用到 计算机的研究领域,比如知识工程、数据库设计与集成、软件工程、自然语言处 理、信息检索和获取等许多方面。不同的领域对本体的定义不同,截止目前为止对本体还没有一个统一的概念。 1993 年最早提出了本体的定义8,然后士在 1997 年对而形成了本体的最初概念,即本体是得到大多数人认同的、关于概念体系的明确的、形式化的一套规范说明9。随着互联网的迅速发展和网络信息的几何式增长,网络信息的结构已逐渐向自动化和智能化的方向发展,而本体作为概念模型和概念之间关系的规 范化说明,已经在增强网络信息的语义联系和自动化组织方面具有了很强大的优 势。近些年来,本体的发展十分迅猛,已经成为了信息科学领域最热门的词汇之 一,它的提出主要就是为了减少或者消除概念和术语之间的混乱,成为了系统之 间通信、共享、互操作的基础,从而解决了知识的共享和重用问题,避免了重复开发,节省了投资10。本体是通用意义上概念的定义集,是关于概念和关系的词 汇表。这个词汇表是人与人之间或组织与组织之间进行通讯所使用的共同的词汇 ,在某种程度上实现了知识的共享与重用,同时也为机器能够自动的理解语义提 供了最根本的支持,进而被广泛的应用在了知识工程、信息抽取、人工智能、万 维网、信息检索、语义网、系统建模、异构信息集成等许多领域。而且本体作为 一种能够在语义层次和知识层次描述信息系统概念模型的建模工具,在知识工程 、知识系统、知识表示等许多领域和下一代语义网的作用表现的尤为突出。尤其 是本体在语义网中的应用造就了语义网的出现,这样就有望去解决网络信息共享 时的语义问题,从而实现了世界范围内的知识级信息的共享和集成。因此可以说 对于本体的研究已经成为一个热点的研究领域。 2 西安建筑科技大学硕士论文 概念之间的关系获取是本体构建的重要部分 本体主要包含了概念( 类) 、属性、实例和公理等基本的元素,本体构建中关系的获取主要是指概念之间的关系、属性之 间的关系与实例之间的关系,以及这三者间关系的组合。其中概念之间关系的获 取是本体构建中的基础和框架,因此对概念之间关系的研究是对本体研究的最重 要的部分。但是目前本体的构建是一项巨大的工程,不但需要大量的领域专家参与,而且经常是手工完成,构建周期长。对于现在这样一个信息迅速增长的时代, 显然仅仅依靠领域专家用手工来构建本体已经不能满足现实的需求。并且因为新 概念的层出不穷,概念之间的关系也会发生着各种各样的变化,这样就会使得经 过很多年时间所建立起来的本体远远落后于学科现状。 本体中概念间关系的获取主要分为两种类型:分类关系11和非分类关系12。分类关系主要研究如何获取概念间的分类 层次结构,即提取概念问的继承关系,非分类关系主要研究如何获取概念之间分 类关系以外的关系,即提取概念间的整体- 部分关系和相关关系。 本体中关系的分类体系 非分类关系是关系获取的难点 目前,不管是国际还是国内对概念之间的分类关系的研究都较多,但对非分类关系的研究并不多,而对于中文领域本 体的概念间的非分类关系的研究就更少了,并且大部分的研究都只停留在判断两 个概念之间是否存在联系,至于存在什么样的具体联系就不得而知了,得到的都 是概念之间的“匿名”关系,本体构建中获取的非分类关系大多是由本体工程师 标记而来。因为可能存在着统一概念的实例间存在着不同关系的情况。所以有时 候本体工程师很难确定两个概念间的关系,因此非分类关系的获取是非常困难的 ,是因为很难知道某个特定的本体概念中到底有多少种非分类关系以及哪些关系是我们所感兴趣的。 3西安建筑科技大学硕士论文 研究目的和意义 本体是概念的、形式化的规范说明,自从提出了就得到了国内外学者的关注,他们对本体的概念之间的关系做了许多深 入的研究,本体的构建与应用是本体研究的重点内容,但是大多数的国内外学者 只是对本体构建进行理论的研究,对于实践的研究却甚少,因此未能把本体广泛 的应用于各个领域中。目前本体构建中研究的难点是如何能够迅速的获得概念之 间的关系。如果按照传统的人工构建叙词表等一些结构化的词表的方法去构建本 体已不太现实,因为那样需要大量的人力、物力以及时间。在信息化的时代我们 可以借助计算机技术来迅速的建立概念之间的关系,尤其是对非分类关系的获取 ,因为有了非分类关系就能够增加本体中知识表达的复杂性和完备性。增加了非 分类关系以后,本体就从概念分类的体系上升为了词典、概念模型以及逻辑理论(,再去结合领域专家对概念之间关系的认定和丰富,就能最终完成 本体的迅速构建,从而就能够解决本体构建中的瓶颈问题,这也就是本文研究的 意义所在,也能更进一步的促进本体在各个领域的广泛应用。 但是目前,领域本体的构建大多数情况还是人工方式,这显然已经不能满足本体应用的需求。主要表现为以下几个方面: l) 手工构建本体需要花费大量的人力、财力和物力; 2) 需要大量领域专家的参与,但是领域专家却是很少的; 3) 即使相同领域的专家对知识模型的认 知和理解也不一定相同,因此本体构建的一致性难以保证; 4) 手工方式进行本体的维护和更新很困难。 因此本体学习也即自动或者半自动构建就成为了本体研究领域中的一个热点问题。自动的构建本体目前还基本不能实 现,所以半自动的构建成为了主流,所谓半自动也就是指在本体构建中的某个环 节到达自动,比如本体构建中最重要的任务关系获取,如果关系获取能达到自动 ,将大大的减少本体构建的成本,因此具有着十分重要的意义,并且能够为手工构建高质量的领域本体打下良好的基础。 而且近些年来,信息获取、机器学习以及 自然语言处理等许多相关技术的发展,也为本体的半自动构建奠定了良好的技术基础。 提出了一套建立本体概念间关系方法体系 现有的大多数结构化的语义词表都是经过了专家做出了大量的工作所编制而4 西安建筑科技大学硕士论文 成的,其中包括了较大规模的词间关系, 继承了已有结构化词表里所存在的词间关系,由领域专家构建本体概念间关系的 规则,对继承所来的词间关系进行进一步的审核和确认,除去一些不符合本体构 建规则的词之间的关系,从而保证了所建立的关系是否符合本体构建中概念之间 关系的规则,进而能达到快速构建本体中概念之间关系的目的,同时,能从已有 的结构词表中总结出构建本体中概念之间关系的多种不同的方法。在网络环境中 ,从继承利用了已有结构化词表中词之间的关系的基础上,借助计算机并利用多 种技术来建立概念之间的关系,基于词汇共现的来建立概念之间的关系,基于用 户检索的痕迹方法来建立概念之间的关系,基于图书内容的层级体系来建立概念 之间的关系,基于术语的标准层级体系来建立来概念之间的关系以及基于百科全 书的来建立概念之间的关系等,还有其他的针对特定领域中概念之间的方法。最 后,总结出多种获取已有的结构化词表的概念之间关系的方法和基于计算机的多 种建立概念之间关系的方法,并且对两大类建立概念之间关系的方法进行了梳理 和分析,最终形成了一套建立本体概念之间关系的方法体系。 解决了快速构建本体的关键问题 自从把本体概念应用到信息科学、 人工智能以及图书馆情报等很多领域以来,国内外的许多学者对本体的研究就主要集 中在理论方面,而涉及到具体的领域的本体构建的研究和实践却相对较少,主要 原因是因为构建领域本体是一件巨大的系统工程,如果按照传统的人工构建叙词 表以及结构化词表的方法去构建领域本体已不太现实,因为那样需要大量的人力 、物力和时间,如何才能迅速的构建领域本体已经成为了本体研究人员的难题, 而本论文就是研究如如何迅速的构建领域本体中概念之间的关系,去解决本体构建的关键问题。也希望通过本文的研究,能够提出一套迅速的构建本体中概念之间 关系的方法体系,进而达到节省构建本体的人力、物力和时间,和加快本体构建的进度,最终实现本体的快速构建。 促进了本体在各领域的广泛应用 本体的应用范围非常广泛,不但在信息科学、人工智能和图书情报等领域得到了应用,而且本体的最新研究成果也被 企业的信息管理、电子商务、医学领域以及机械领域所应用。随着本体构建中的 许多关键问题的解决,本体迅速的构建目标的实现,许多领域都可以根据其实际 的应用需求,迅速准确的构建出所需要的领域本体, 从而达到省时省力的目的,最终促进本体在各个领域中的广泛应用,5西安建筑科技大学硕士论文 本文研究的目的就是要解决本体构建中的 关键问题,而利用本文的研究成果,能解决本体构建中的关键问题,最终实现本 体的广泛应用的目标,也正是本文的研究目的和意义所在。总而言之,本文希望通过研究本体中构建的各种关键的问题,来实现准确快速的构建本体的目标,来促进本体在各个领域中的广泛应用。 国内外研究现状 随着各个领域的学者对本体研究的不断深入,本体已经从理论研究向着实践应用的方向发展。许多国内外的研究机构 已经开始构建各种本体,以满足不同的应用需求。但是本体的构建是一件巨大的 系统工程,若构建领域本体依然使用人工的方法来完成本体的构建,这样不仅需 要大量的人力、物力以及时间,而且这种方法既不科学也不现实,因此现阶段的 本体构建应该以机器的自动构建为主,以人工的方法为辅,从而实现迅速自动构 建本体的目标。本体的自动构建主要在于概念和关系的获取,其中关系的获取是 本体构建的重中之重,目前国内外的许多研究学者对关系的获取也做出了很多的 研究,主要包括机器学习、自然语言处理、统计学方法等,并取得了不少的研究成果。 关系获取在国外的发展现状 国外的学者对概念之间关系的获取做出了大量的研究,对于分类关系, 3; 4; 5; 16;掘文本中概念之间的关系17;日本静岗山大学研发的系统够对已知的领域中概念之间的分类关系进行抽取,但是没有对概念之间的非分类关系进行抽取;新加坡的学者医学领域的本体进行研究,已经能够识别概念之间的关系,主 要目的是用来构建医学领域中的数字图书馆知识门户;够从网络中半自动的抽取语义关系来构建本体,来表示用户模型;别利用词汇语法模式(来获取概念之间的层次关系; 据语言的规则来推断分类关系,并且还开发了名为 安建筑科技大学硕士论文 附加一些统计信息来推导概念的分类关系; 辞典看作是本体,它主要是 由分类关系组成,输出的则是由新概念之间的关系所扩充的分类关系;学所提出的统以则以用不确定性的理论来抽取概念之间的关系; 对于非分类关系, 8;出了一种形式概念分析) 和然语言处理) 的的方法来从文本中自动的获取概念之间的关系; 9;出了 下文期望) 的方法来获取概念之间的关系 20 ; 的方法来获取非分类关系; 用浅层语义分析和关联规则的方法对概念之间的关系进行了讨论;用文本挖掘和语义分析对术语之间的关系进行了研究; d 然概念之间的关系获取对于整个本体构建非常重要,但是都需 要人工标注,而这并不方便,也不能保证其正确性,因为相同概念的实例之间可 能存在着各种不同的关系;早期的工作比如究了动词和名词的搭配框架,用了描述动词与名词之间的搭配关系,词方法是基于 学者提出了一种扩展的关联规则来挖掘本体中概念的非分类 关系并赋以语义标签,但此方法仅考虑了词频,却没有考虑其他的因素,结果不太理想。 关系获取在国内的发展现状 国内在关系获取的研究较少,对于分类关系的获取主要有基于模式的方法、基于聚类的方法以及它们之间的相结合的 方法。贾秀玲使用自然语言处理技术和模式匹配的方法来获取概念之间的分类关系21;张玉芳等学者利用了基于上下文的方法对概念之间的关系进行获取22;裴炳镇等学者提出了一种概念之间分类关系获取的新算法,使用分级模型来获取分类关系23;温春等学者使用了基于层次聚类和基于方法来获取概念层次关系,并从纵向和横向两方面对比了两种方法的差异性24;谭力等学者使用了基于数据挖掘的方法对本体中概念之间的关系进行了获取25;刘亚军等学者对比了基于规则和基于广义后缀树的方法,并实7西安建筑科技大学硕士论文 验证明了基于广义后缀树的方法具有较好的效果26;朱海平提出了一种基于链接分析的方法获取领域文本概念间的关系27。 对于非分类关系,国内的研究就相对更少了,主要有基于词汇于关联规则的方法。李林等学者利用词汇 用英文语料对其进行了实验28;方卫东等学者使用关联规则对非分类关系进行获取29;温春等学者运用一种改进的扩展的关联规则获取非分类关系,并且对其进行了标注30;王岁花等学者使用 动词作为中心点来获取概念之间的关系31;杨丽鹏提出了基于关联规则和自然语言处 理相结合的方法,关联规则主要用于抽取概念对,自然语言处理用于抽取动词;乔建忠提出了一种基于主题爬虫的方法,能自动的从返回的网页中进行概念之间非分类关系学习的框架及方法32;连莉对本体中的非分类关系理论体系进行了研究,主要是针对系33。 论文的研究内容和组织结构 本体学习技术34依据所选取的数据源的不同而采用不同的技术,依据数据源结构化程度的不同可以将数据源分为结构 化数据、非结构化数据以及半结构化数据。本文主要是针对非结构化 数据而言的, 非结构化数据是指没有固定结构的数据, 其中纯文本是 大量存在的一类非结构化数据, 也是最重要的一类。本文主要研究了非结构化数据源领域本体构 建中关系获取的研究。各章节的研究内容和组织结构如下: 第1章:“绪论”,介绍了本体的研究背景,阐述了本体构建中关系获取是研究的重点与难点,由此引出了研究的目的和意义,最后概述了国内外的研究现状,总结了论文的主要研究内容和组织结构。 第 2章:“原型系统的总体框架”,详细 说明了原型系统的需求分析,给出了系统实现的总体框架,对系统实现所要应用的各种关键技术做出了详细的分析。 第 3章:“概念之间分类关系的研究”,对比了 基于模式匹配和基于改进的过实验说明了基于改进的获取概念间的分类关系具有较高的效率。 第4章:“概念之间非分类关系的研究“,对比了基于扩展的关联规则方法和基于启发式方法以及本文所涉及的基于对数似然比三种方法获取概念之间非分类关系, 通过实验说明了基于 安建筑科技大学硕士论文 9的效率。 第5章:“系统的设计与实现“,介绍了本体原型系统的设计与实现。 第6章:“总结与展望“,总结了论文所做出了主要工作,以及需要改进之处,对下一步的工作做出了展望。 10西安建筑科技大学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 广西北海市普通高中2025年物理高一第二学期期末调研试题含解析
- 山东省青岛市第一中学2025届高二物理第二学期期末预测试题含解析
- 2025版儿童节目编剧聘用合同模板
- 2025年度虚拟现实(VR)内容制作合同范本
- 2025版智能安防系统施工与运营管理合同
- 2025版宾馆房间租赁合同及文化体验活动合作合同
- 二零二五年度财务顾问与财务数据分析合同样本
- 二零二五年茶叶品牌战略规划与执行合同
- 二零二五年度智慧城市建设项目施工合同补充协议
- 2025版酒店厨房及公共区域清洁服务聘用合同
- 2025届内蒙古乌海市八年级物理第二学期期末监测试题含解析
- 2025年云南省正规劳动合同范本
- 《脑干出血》课件
- 2025保定市蠡县南庄镇社区工作者考试真题
- 回购股权投资协议书
- 神经网络技术在船舶辐射噪声预报中的应用与研究
- GB/T 45418-2025配电网通用技术导则
- 中职生:高职单招数学各章节专项练习试卷及答案
- 高职单招英语词汇表
- 医院食品安全自查报告范文
- 汽车涂装工艺知识大全
评论
0/150
提交评论