【毕业学位论文】(Word原稿)基于主题词间语义关联规则挖掘的文献推荐研究报告-软件工程_第1页
【毕业学位论文】(Word原稿)基于主题词间语义关联规则挖掘的文献推荐研究报告-软件工程_第2页
【毕业学位论文】(Word原稿)基于主题词间语义关联规则挖掘的文献推荐研究报告-软件工程_第3页
【毕业学位论文】(Word原稿)基于主题词间语义关联规则挖掘的文献推荐研究报告-软件工程_第4页
【毕业学位论文】(Word原稿)基于主题词间语义关联规则挖掘的文献推荐研究报告-软件工程_第5页
已阅读5页,还剩41页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 基于主题词间语义关联规则挖掘的文献推荐研究报告 中 国 科 学 院 国 家科 学图书馆兰 州分 馆 信息系 统 部 科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 版本 日期 作者 内容 013巍 初始版本。 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 目 录 版本更新历史 . I 1. 引言 . 1 研究背景及意义 . 1 国内外研究现状 . 2 研究目标和内容 . 3 研究目的 . 3 研究内容 . 3 2. 语义 词表与本体 . 5 语义 述 . 5 语义 . 5 语义 . 6 叙词表概述 . 10 叙词语言与叙词表 . 10 叙词表的结构 . 11 本体概述 . 11 本体的定义及分类 . 12 本体的建模元语 . 13 本体的描述语言 . 14 3. 关联规则挖掘算法 . 18 关联规则挖掘概念 . 18 关 联规则的种类 . 19 经典关联规则挖掘算法 . 20 法的挖掘步骤 . 20 法性质 . 21 法 . 21 4. 基于主题词间语义关联的文献检索、推荐功能设计及实现 . 23 系统框架 . 23 功能的主要模块 . 23 开发环境及使用的关键技术 . 24 功能的开发环境 . 24 关键技术 . 24 结合转化 . 27 构建本体框架 . 27 通过转化 . 28 通过关联规则挖掘补充本体关联属性 . 30 基于本体实现检索、推荐 . 32 本体维护策略 . 38 5. 用户测试及反馈意见 . 39 6. 结语 . 40 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 11. 引言 研究背景及意义 语义 当前 用 的 主要 发展方向 之一 ,本体是语义 系结构中用于 描述概念及概念之间的语义关系的核心层。目前国内外对本体的研究很多,各领域都在各自专家的参与下构建自己的领域本体。在领域本体的构建过程中存在一些问题:第一,质量难以保证。本体的建设需要花费大量的人力物力来搜集领域内各种概念术语及概念之间的关系,由于人为的因素容易出现领域概念搜集的不完全,概念关系定义的不准确等情况,影响本体建设的 质量;第二,概念关系描述的不一致。目前对于领域本体的建设没有一个统一的知识组织体系,本体中对于概念关系的描述使用不同的标签,导致本体之间语义互通性降低,也降低了本体重用性。 传统的知识组织体系,如:分类法、标题词表、叙词表等,在传统的知识组织中已经发挥了巨大的作用,并在多年应用实践中不断发展成熟。其中,叙词表是用来表达知识关系模式的一种知识组织工具,形成于上世纪 50年代末, 是在标题词语言和元词语言的基础上借鉴了分面组配的原理形成的一种基于概念分面组配的知识组织工具。叙词 (以概念为基础 ,经过规范化 的可以用作标引的词汇。非叙词 (叙词的同义词或准同义词, 不能用于标引或检索,只能起指引作用的词。叙词表中有大量的叙词和非叙词,基本涵盖了领域内的概念术语,一般用于专业领域内知识的组织,这与领域本体的结构和建设目的基本相同。目前叙词表在很多数字图书馆、数字分类系统中都在发挥着重要的作用。 随着社会的发展,新的词汇不断出现,现有概念分支也需要重新结构化;在语义 义关系的描述要求更加精确,不同学科不同类型的资源 需要统一的知识组织体系框架进行整合,通过知识组织体 系 (概念术语、约束、 关系、公理的表达 )的参照、映射或其他方法,理解多个领域的知识表达,从 而实现语义 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 2 语义 丰富的表达能力,因此怎样利用传统的叙词表选择一种通用的知识组织体系来构建本体成为目前普遍关注的问题。因此本文选择这个问题作为切入点,研究语义 国内外研究现状 目前国际上比较有影响力的智能推荐系统包括: J, L 和 提出了一个利用神经 网络和遗传 种挖掘技术如关联规则挖掘、聚类挖掘等被应用于 志的分析中,以提高推荐系统的精确度。 学数字图书馆项目组开发的基于内容过滤和协同过滤的推荐系统,用于推荐 特点是综合了基于内容过滤的推荐和协同过滤推荐的优点,同时支持两种类型的推荐服务。 目前国内已出现了一些个性化推荐原型系统,如: 清华大学面向 出了一个基于 提供了一个开放性的信息组织环境,使用向量空间法和社会过滤两种信息过滤方式帮助用户获取有用信息。 中国人民大学开发了数字图书馆个性化信息服务系统 系统是一个集合资源推荐、咨询服务和信息检索为一体的服务平台,可根据用户的专业特征和研究兴趣,向用户提供和推荐教学科研资料和信息。 目前国内外研究的一些推荐模型,主要是基于协同过滤技术或协同过滤与数据挖掘混合的方式;但是,协同过滤技术需要用户相当程度的参与(如用户对检索到的项目进行评分等方式)或者对用户行为进行挖掘才能实现。 因此,考虑到科研文献的检索使用目的与一般的图书,多媒体或电子商业等不同,不能要求用户过多的参与到检索结果的评价体系中来,所以,本系统希望从主题词或文献的主题词入手,利用 将相关领域的叙词表转化为领域主题词本体,然后结合知识资源集合中资源间的主题词间的关系通过关联规则算法来计算主题词间的关联度并将关联关系补充进本体;当用户发 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 3 生检索行为时将检索结果带入领域主题词本体,通过匹配和推理的方法获取具有上位、下位、关联等属性的主题词并通过将发现的主题词映射文献的方式发现语义相 关的文献,向用户进行推荐。 研究目标和内容 研究目的 本研究申请的目的旨在利用叙词表对文献系统或知识库平台中知识资源集合的主题词进行语义规范和标引并将相关领域叙词表转化为领域知识本体,然后对知识资源集合进行规范主题词的关联规则挖掘并将关联规则补充进本体中,最终利用生成的本体为文献系统或知识库平台提供语义化文献检索和推荐服务支持应用接口。本项目的应用目标是希望用户进行检索时除了为用户提供检索结果外还为用户提供合理的关联文献,提高当前文献系统或知识库对用户的吸引力和用户的忠诚度。本项目的研究目标是希望在脱离推荐 系统领域传统的协同过滤技术的应用背景下通过转化叙词表和关联规则的方式构建领域知识本体,并利用本体为用户提供检索和推荐等服务,同时,通过改进关联规则算法实现本体中相关关联属性的动态更新并构建人工维护本体流程保证本体的时效性和准确性。 研究内容 围绕以上研究目标,需要研究以下内容: ( 1) 数据准备模块 将借鉴已有的研究成果,主要通过国科图开发建立的开放知识组织引擎选取 成的相关叙词表 , 对知识资源集中的 资源进行主题词标引 。 ( 2) 本体转换 探索在传统的知识组织体系叙词表的基础上,依据 准 和实际应用需要 构建基于 叙词表的领域本体的实践方法。 将用于标引的叙词表,根据检索、推荐应用的需要 和叙词表的组织结构,将叙词表转化 成为 专门应用于 知识资源集 检索、推荐 的领域本体 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 4 ( 3) 通过数据挖掘 方法 补充本体 将数据挖掘的方法应用于本体构建的过程,利用关联规则挖掘算法 作为本体中类概念间的属性补充到本体中。 同时定义传递推理规则,在检索时可通过概念关联的传递推理获得更多的关联主题词。 ( 4) 利用本体实现检索 、 推荐功能 通过输入检索词的方式,实现对检索词 的规范化,然后利用规范概念检索标引后的知识资源集合获取规范检索、上位检索、下位检索、关联检索的检索结果。 在打开某条目的详细信息时,利用该条目的主题词检索本体获得与该条目主题相似、相关、上位主题、下位主题的主题推荐结果,以及该条目作者获取的合著作者列表。 ( 5) 本体的更新和维护 利用 收录的叙词表灵活的用机器的方式转化为领域本体。 通过站点界面实现在线的本体编辑和维护。 每当知识资源集有新资源进入时,可自动增量补充本体中概念间的关联实例。 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 5 2. 语义 词表与本体 语义 述 始人 发展分为两个阶段;在第一个阶段,建立起硬件上的互联网络,实现 的资源共享和协作, 展的最初 十年基本上实现了这个目标:通过 页的方式向人们提供了大量的信 息;第二个阶段在第一阶段的基础上,利用新的技术把资源的共享和协作延伸到机器,实现机器的理解和信息的自动处理。 语义 起源 语义 未来 展的一个蓝图。然而到目前为止什么是语义 的定义, 语义 了如下的描述 1:语义 不是一个孤立的 是对当前 扩展,语义 的信息 定义良好的含义,使得计算机之间以及人类能够更好地彼此合作。根据上面的描述,人们可以给语义 出这样的定义:语义 机器可以理解信息 含义的下一代 实现这一目标的难点在于传统的 言本身的固有缺陷,这种标记 语言的标签集只提供对信息内容的显示格式进行标记,信息的显示格式和信息内容糅合在一起,缺乏单独针对信息内容 语义的标签 2。 言的这种特 点决定了 的信息内容很难被机器所理解,从而制约了一些需要对 的海量信息进行自动化处理应用的开发。实现 海量的信息能够以一 种能够理解信息语义的方式进行交换和管理,当前基于 术已 经远远不能满足要求 3。 近年来出现的 可扩展标记语言 (其相关的技术的出现,使传统 的信息内容从面向人浏览到 同时面向计算机的自动处理迈出了非常重要的一步 。 现了 义标 记和格式显示的分离,使 的信息标记包含相应的语义,为语义 建立奠定了良好的基础。 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 6 语义 过扩展现有互联网,在信息中加入表示其含义的内容,使计 算机可以分辨和识别这些语义信息,并对其进行自动解释、交换和处理,自动与人协同工作。也就是说,语义 的各种资源不再只是各种相连的信息, 还包括其信息的真正含义,从而提高计算机处理信息的自动化和智能化。而计算机并不具有真正的智能,语义 建立需要研究者们对信息进行有效的 表示,并制定统一的标准,使计 算机可以对信息进行有效的自动处理。 从语义 发展起源来看,语义 人工智能领域和 术相互结合的产物。人工智能领域中的知识工程研究从孤立的知识库系统逐渐发展到基于 信息系统集成,最后扩展到整个 这个研究 过程中,逐渐加深了对知识表示和推理的认识,并总结出了一些新的描述和推理方法。另一方面, 过十几年的发展,积累了海量信息,需要一种新 的、机器可以自动完成的方式来处理和管理。因此,当两个领域的积累都比较成熟,就必然会走向结 合 5。 语义 立的基础是知识的概念化和形式化以及相应的推理。许多分 析都需要从人工智能领域的角度来考察。但是由于两者的应用环境不同,还存在着一些差异。传统的人工智能系统是一种集中、孤立 (专有 )的系统。语义 的知识,是一系列对资源的建模及描述。资源,是一个非常广泛的概 念,它可以是网站、网页、甚至网页的某一个部分的内容。这种描述采用某种形式的符号和表达式对 的与该资源相关的其它资源,以及这些资源之 间的关系进行刻画。和传统的人工智能系统不同,语义 知识表示的特 殊性在于,它本 身要符合 分散性和通用性的特点,要求能够被各种各 样的应用实现共同理解,并且在一定的逻辑规则的指导下进行推理。所以语义 的知识具有创建上的分散性,同时又具有应用上的通用性。这是语义 传统的人工智能系统的一个非常重要的区别。 语义 体系结构 为了实现语义 各种智能化服务,研究者们开发了许多新技术并提 出了一系列的技术标准。 直致力于语义 术的研究, 并一直关注语义 术的发展,在综合了语义 究领域的最新成果的 基础 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 7 上 ,提出了语义 型。这一模型得到了语义 究者的认同。 会上提出的语义 系结构如图 1 所示: 图 义 体系结构图 ( ) 从中可以看出他所建议的语义 层: 第一层: (编码层 ) 语义 用统一资源标识符 (标识 资源及其属性, 是整个语义 基础 ; 一编码 )给每个字符提供了一个唯一的数字标识,使任何平台、任何程序、任 何语言都能够处理资源的编码。 第二层: 法层 ) 在 上,是 相关技术层。 许用户根据需 要自定义一些“有意义的”标签对发布的内容进行标记。并使用文档类型定义 约束这些标签的结构。由于 签由用户根据 自己的需要来定制,这样不可避免地会造成标签同名的情况,为了避免这样的冲突, 用 制 6。对 格的定义是: 用 以区别的,在 件的元素和属性中出现的所有名 称的集合。有了 户就可以保证在他的文件中使用的名称是独一 无二的。 科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 8 层的数据交换格式,它只是解决了文档内容的次序、结构 的问题,并没有解决文档内容的语义、联系的问题。标签的具体含义的定义和互操作要交给上一层去解决。 第三层: 数据层 )78 资源描述框架 (称 是 荐的一种标准,专 门用于表达关于 源的元数据,比如 面的标题、作者和修改时间, 档的版权和许可信息,某个被共享资源的可用计划 表等。 基础思想是用 识符 (称作统一资源标识符, 标识事物,用简单的属性 (属性值来描述资源。 出了一个简单的模型用来表示任意类型的数据。这个数据类型由节点和节点之间带有标记的连接弧所组成。节点用来表示 的资源,弧用来 表示这些资源的属性。因此,这个数 据模型可以方便的描述对象 (或者资源 )以 及它们之间关系。 数据模型实质上是一种二元关系的表达,由于任何 复杂的关系都可以分解为多个简单的二元关系,因此 数据模型可以作 为其他任何复杂关系模型的基础模型。也可以用三元组的形式表示, 个陈述都可以写成一个依次为主体,谓词,客体的三元组。每一个三元组均对应于图中的一条弧,且这个弧的起始节点和终止节点分别是陈述中的主体和客体。 要用于应用程序对信息的处理而不是仅仅作为信息的显示。 为它的句法,提供了一种用于表达信息、并 使其能在应用程序间交 换而不丧失语义的通用框架。利用这个通用框架,应用程序设计者可以利用已有的通用及通用的处理工具来处理在不同应用程序 间交换的信息,这种特性也可以使非创建者的其他的用户可以通过应用程序利用这些信息。 是,在某些情 况下,用户希望能够根据需要自定义一些词汇,然后用这些词汇来描述资源。 些类和特性被称 为 们需要通过 汇描述语言 定义 910。 供基本的资源类型和属性,并允许用户定 义自己的资源类型与属性。 个核心属性: 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 9 四个核心约束: 述资源的总类, 别描述属性和 类, 述资源的类型, 别表示资 源的类和子类、属性和子属性之间的关系, 出与主体相关的资 源, 义主体资源是 定主体和客体的取值范围,这种限定 具有继承关系,类和属性 的定义域和值域可以向下继承。 提供了描述相关资源集合以及资 源关系的机制。 具有的这些能力本身也是 些 汇是一组带有特殊含义的、预定义的 源。这些资源的 前缀 #。 汇描述(是合法的 。因此,即使一个软件不是专为处理新 加的 它仍然可以将 释为一个包含了各 种资源和特性的合法 是这个软件并不能 “ 理解 ” 新添加的 语的内在含义。为了理解新加术语的含义, 种扩展语言。这种扩展语言不仅仅包含 缀的词汇,而且还包含了 缀的词汇,以及这些词汇的内在含义。 第四层: 体词汇层 ) 以定义类、子类、超类,并且可以定义属性和子属性, 以及它们的约束,如:域 (范围 (,因此,在某 种意义上说 身就是一种简单的本体语言。但是 )对特定应用领域的 词汇的描述能力比较弱,需要进行扩展,这个 )之上的扩展层称为 (这一层在 行基本的类、属性描述之后,更进一步 地描述了术语和它们之间的联系,并可以利用一些本体语言,来对领域知识进行建模,定义一些面向领域的共享词汇。 第五、六、七层: 辑层 ) 基于语义 理。逻辑层的目 标就是提供一种方法来描述规则。基于描述逻辑的形式化知识嵌 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 10 入到被描述的文档之中。 个成熟的说法。但是语义 的来说,语义 过 应用逻辑推理,得出某种结论。这个推理的过程,就是一种证明,推理最后得出的结论也应该是可以信任的。 逻辑层提供了规则,从而便于进行推理。而证据层则在此基础上使代理可以交换推理的结果。为了检查这些结果,需要将各代理的内部推理机制转化为一种通 用的证据表示语言。从 有对资源的描述都贯穿数字签 名技术。数字签名技术就是对资源描述者的身份进行认证的关键性技术,是建立可信任网页的基石。 叙词表概述 叙词语言与叙词表 叙词语言形成于上世纪 50年代末,在标题词语言和元词语言的基础上借鉴了分面组配的原理形成的一种基于概念分面组配的主题语言。叙词是一种主题词,它是在文献标引与检索中用以表达文献的主题而规范化的词。根据语叙词表编制规则定义:叙词表是将文献、标引人员或用 户的自然语言转换成规范语言的一种术语控制工具;它是概括各门 或某一学科领域并由语义相关、族性相关的术语组成的可以不断补充的规范化的词表。 叙词表中除了包含了领域中的叙词还包括了一部分非叙词。非叙词是叙词的同义词或准同义词,在叙词表中规定不能用于标引和检索,只起指引作用的词。 叙词之间、叙词与非叙词之间通过各种关系联结起来。叙词表凭借其简单的结构,以及灵活性、可扩展性 (分面组配 )和集成性 (分类主题一体化 ),成为 主题词表的发展主流。 叙词表适合于学科和专业性质较强的文献组织,因此许多典型的叙词表都是面向某个学科或专业的。各学科领域基本都有本专业的叙词表,从 1959年美 国杜邦公司编制的第一部叙词表到 2002年,叙词表已超过 2000种,如美国国 会标题表 (医学标题表 (艺术和建筑叙词表 (及汉 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 11 语主题词表等。在这些叙词表的基础上目前已经建立了很多的手工检索工具,并进一步发展成数据库检索系统,如三大索引以及各种专业的数据库等。 叙词表的结构 从宏观上说,叙词表一般由多个部分组成,提供多种查词途径,标引选词时应根据具体情况,选用最方便、最有效的查词捷径。其中,字顺表适用于查检书面形式比较明确、肯定的词,并可从一个叙词出发对它周围的直接关联 词“鸟瞰全貌”;范畴索引适用于查检书面形式不明确但其学科、专业范围比较明确的叙词;词族索引适用于查检已明确泛指词而未明确专指词的叙词;英汉对照索引适用于查检已知英语词而不能确定其汉语形式的叙词 11。 从微观上说,叙词表中包含两种词。一种是“标引检索用词”,这种词可正式用于标引文献和直接检索文献,可称为正式叙词 (简称叙词 )。另一种是 “ 非标引检索用词” (亦称入口词 ),入口词是词表收录、但只能作为查词入口以 引向正式词而不能直接用于标引和检索的词。所以,入口词称为非标引 词。入口词与正式词是等同的或可 以认为是等同的,因此,它们之间以用代关系处理,即“入口词用正式词”、“正式词代入口词”。 叙词的微观词款目进行了准确而简明定义。在关系方面,定义了被称为“用、代、属、分、参”等 5 种标准关系,在词的释义方面 则有“范围注释、语种对照词汇”等。 从叙词表的宏观结构来看,大多数叙词表的主表基本按照拼音顺序进行排列,而在辅助表中按照词族、语种等再进行排序。因此可以说,叙词表在微观结构上是紧密的,而在宏观结构上则较为松散。这种宏观结构在印刷本时代有助于叙词表的工具书化 (工具书的 排列一般采用音序 ),但是在网络环境下就显 得过于线性而单调。从形式上印刷版的叙词表是简单的“树”结构,节点间的顺序是预先确定的。 本体概述 本体作为一种能在语义层次上描述信息的概念模型建模工具,自被提出以来就引起了国内外众多科研人员的关注,并在计算机的许多领域得到了广泛的应 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 12 用,如知识表示和管理、信息系统建模、信息集成、面向对象分析、软件复用、信息检索和 义 。 本体的定义及分类 本体最早是一个哲学上的概念,从哲学的范畴来说,本体是客观存在的一个系统的解释或说明,是关于客观世界的一 个特定分类体系,关心的是客观现实的抽象本质。后来随着人工智能的发展,被引入到人工智能界并给予了新的定义。在人工智能界,最早给出本体定义的是 人,他们将本体定义 为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义” 121314。 1993年, 出了本体的一个最为流行的定义,即 “ 本体是概念模型的明确的规范说明”。后来, 此基础上,给出了本体的另外一种定义 “ 本体是共享概念模型的形式化规范说明”。 1998年 对上述两个定义进行了深入的研究,给出本体的定义,是“共享概念模型的明确的形式化规范说明”。目前,此定义被大多数人认可。定义包含 4 层含义: ( 1) 概念模型 (通过抽象出客观世界中一些现象 (相关概念而得到的模型, 其表示的含义独立于具体的环境状态。 ( 2) 明确 (所使用的概念及使用这些概念的约束都有明确的定义。 ( 3) 形式化 (本体是计算机可读的。 ( 4) 共享 (本体中体现的是共同认可的知识,反映的是相关领域中公认的概念集,它所针对 的是团体而不是个体。 本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇 (术语 )和词汇间相互关系的明确定义。 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 13 对本体的分类, 划分的基础。详细程度是指描述或刻画建模对象的程度,是一个相对的、较模糊的一个概念。依据详细程度可以划分为参考本体 (共 享本体 ( 依照领域依赖程度,可以细分为顶级 ( 体 、领域 (体 、任务 (体和应用 (体 15。其中: 顶级本体描述的是最普通的概念及概念之间的关系,如空间、时间、事件、行为等等,与具体的应用无关,其他种类的 是该类 特例。 领域本体描述的是特定领域 (医药、汽车等 ) 中的概念及概念之间的关系。 任务本体描述的是特定任务或行为中的概念及概念之间的关系。 应用本体描述的是依赖于特定领域和任务的概念及概念之间的关系。 1999年, 分析和研究了各种本体分类法的基础上,归纳出 10 种本体:知识表示本体、普通本体、顶级本体、元 (核心 )本体、领 域本体、语言本体、任务本体、领域 法本体和应用本体。这种 分类法是对 出的分类方法的扩充和细化,但是这 10 种本体之间有 交叉,层次不够清晰。 本体的建模元语 人用分类法组织了本体,归纳出 5 个基本的建模元语 (16: ( 1) 类 (概念 (指任何事务,如工作描述、功能、行为、策略和推理 过程。从语义上讲,它表示的是对象的集合,其定义一般采用框架 (构,包括概念的名 称,与其他概念之间的关系的集合,以及用自然语言对概念的描述。 ( 2) 关系 (在领域中概念之间的交互作用,形式上定义为 R:2 子类关系 (在语义上关系对应于对象元组 的集合。 ( 3) 函数 ( 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 14 一类特殊的关系。该关系的前 式化的定义为 F: 是一 个函数, x,y)表示 y是 ( 4) 公理 (代表永真断言,如概念乙属于概念甲的范围。 ( 5) 实例 (代表元素。从语义上讲实例表示的就是对象。 另外,从语义上讲,概念的基本的关系有 4 种: 表 1 概念的基本语义关系 16 关系 描述 达概念之间的 被包含 关系。 达概念之间的继承关系。 达概念的实例与概念之间的关系。 达某个概念是另一个概念的属性。 在实际建模过程 中,概念之间的关系不限于上面列出的 4 种基本关系,可以根据领域的具体情况定义相应的关系。 本体的描述语言 本体描述语言是用来描述本体的语言,起源于人工智能领域对知识表示的研究,因此本体的描述语言不仅仅需要具有良好定义的语法和语义,充分的表达能力,更需要有效的推理支持。用户可以选择不同的描述语言为领域模型编写清晰、形式化的概念描述。目前,经常被使用的本体表示语言大都以框架模型或谓词演算或两者相结合为基础,最具有代表性的有 有另外一种本体的表示方法就是用概念 图来表示本体,一个典型 例子是外还有一些适合于 )、 本体的描述方式是多种多样的,若系统不需要太强的推理能力时,本体可用概念图的形式表示并存储,此时数据可以保存在一般的关系数据库中,采用图的匹配技术来完成信息检索。若系统要求比较强的推理能力时,本体一般要用一种 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 15 描述语言 (如: 行表示,此时数据保存在知 识库中,采用描述语言的逻辑推理能力来完成信息检索。 ( 1) 基于人工智能 (称 本体描述语言 1317 1) ,提供统一的 规范格式来构建本体的语言。 构造和维护本体提供了统一的、计 算机可读的方式。由 推理系统,使得对本体的维护与具体使用它的目标表示系统分离开来。可以把 目标语言。目前, 由斯坦福 (学知识系统实验室建立的全球第一个本体论服务器就是 采用 为它的本体表示语言。 2) 国的 984年起开始建立常识性本体 前己形成了规模非常庞大的本体库。 是一种体系庞大而非常灵活的知识描述语言。该语言在一阶谓词演算的基础上,扩充了等价推理、缺省推理等功能,而且具备一些二阶谓词演 算的能力。在该语言的环境中配有功能很强的可进行逻辑推理的推理机。 3) 一种基于一阶谓词逻辑的知识表示语言,由美国南加洲大学信息 科学学院设计并实现,属于描述逻辑 (系。它能够提供表达能力强、声明性的规范;提供强大的演绎推理能力以及提供多种编程风格和知识库服务。该语言后来发展成为 它是基于逻辑的,具备很强表达能力的描述语言,采用前后链规则 (为其 推理机制。 4) 由英国的 验室开发的。 模 语言通过几种具体的构件 (支持知识模型的建模架构。该语言使得对函数、关系、类、实例 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 16 和规则的形式化操作成为可能。它还包括定义本体及问题解决方法的机制。 5) 卡尔斯鲁厄大学开发的 言,是基于框 架逻辑和一阶逻辑的。它可以表示概念,概念分类,二元关系,函数,实例,公理和规则。与前面的几种语言相比,它是唯一没有采用类似 法的语言。其推 理引擎 以用来进行约束检查和演绎新知识。 ( 2) 基于 本体描述语言 随着 现了一系列基于 本体表示语言 24,如 )、 本体在语义 注入了活力。后推荐了 ), 1) 15 马里兰大学计算机系提出。 它是简单的 一种与 得 网页编辑者可以对他们的互联网文档进行标注。 它扩展了一些标记,使得在 可以增加任意的语义数据。它的标记有两 类,一类用于创建本体,一类用于注解文档。 2) ) )是资源描述框架 供了一个简单的模型表示任意类型数据,通过带有标 记的弧连接任意两个资源节点。 供基本的资 源类型和属性,并允许用户定义自己的资源类型与属性。 象及),是语义 在已有的许多语言,如 是对 )的扩展。 3) 在 为 )的扩展,是在 基础上发展起来的,目的是提供更多的原语以支持更加丰富的语义表达,并支持推理。 国科图兰州分馆信息系统部 基于主题词间语义关联规则挖掘的文献推荐研究报告 17 中, 于提供给那些只需要一个分类层次和简单属性约束的用户,适合于简单 的不需要很强表达和推理的系统。 L 支持那些需要最强表达能力的推 理系统的用户,且这个推理系统能够保证计算的完全性和可判定性,它的目的是支持具有良好计算性质的推理系统。 持那些需要在没有计算保 证的语法自由的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论