基于本体的自动问答系统优秀毕业论文.pdf_第1页
基于本体的自动问答系统优秀毕业论文.pdf_第2页
基于本体的自动问答系统优秀毕业论文.pdf_第3页
基于本体的自动问答系统优秀毕业论文.pdf_第4页
基于本体的自动问答系统优秀毕业论文.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

学校代码 10289 分类号 tp391 密 级 公开 学 号 092070026 江苏科技大学江苏科技大学 硕硕 士士 学学 位位 论论 文文 基于本体的自动问答系统 研 究 生 姓 名 周永梅 导 师 姓 名 张再跃教授张再跃教授 申请学位类别 工 学 硕 士 学位授予单位 江江 苏苏 科科 技技 大大 学学 学 科 专 业 计算机软件与理论 论文提交日期 20122012 年年 3 3 月月 1010 日日 研 究 方 向 智能信息处理智能信息处理 论文答辩日期 20122012 年年 3 3 月月 1717 日日 答辩委员会主席 高尚高尚 评 阅 人 2012 年 3 月 15 日 基 于 本 体 的 自 动 问 答 系 统 周 永 梅 江 苏 科 技 大 学 分类号 tp391 密 级 公开 学 号 092070026 工学 硕士学位论文 基于本体的自动问答系统 学生姓名 周永梅 指导教师 张再跃教授 江苏科技大学 二 0 一二年三月 a thesis submitted in fulfillment of the requirements for the degree of master of engineering research on automatic question answering system based on ontology submitted by zhou yongmei supervised by professor zhang zaiyue jiangsu university of science and technology march 2012 摘要 i 江苏科技大学学位论文原创性声明江苏科技大学学位论文原创性声明 本人郑重声明 所呈交的学位论文 是本人在导师的指导下 独立进 行研究工作所取得的成果 除文中已经注明引用的内容外 本论文不包含 任何其他个人或集体已经发表或撰写过的作品成果 对本文的研究做出重 要贡献的个人和集体 均已在文中以明确方式标明 本人完全意识到本声 明的法律结果由本人承担 学位论文作者签名 年 月 日 摘要 ii 江苏科技大学学位论文版权使用授权书江苏科技大学学位论文版权使用授权书 本学位论文作者完全了解学校有关保留 使用学位论文的规定 同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版 允许论文 被查阅和借阅 本人授权江苏科技大学可以将本学位论文的全部或部分内 容编入有关数据库进行检索 可以采用影印 缩印或扫描等复制手段保存 和汇编本学位论文 本学位论文属于 1 保密 在 年解密后适用本授权书 2 不保密 学位论文作者签名 指导教师签名 年 月 日 年 月 日 摘要 iii 摘 要 随着互联网的普及 网络教学正在成为人们学习的有效方式 但是由于网络教学 本身的一些限制比如时间 环境 地域等等 使得自动问答系统成为它的有效补充 自动问答系统 又称为自动答疑系统 可以作为网络教学中的学生答疑系统 自动问 答系统是自然语言处理领域中的一个热点问题 随着人工智能的发展 不同实现方式 的自动问答系统不断涌现 本体 ontology 具有良好的概念层次结构和对逻辑推理的支持 具有通过概念 之间的关系来表达语义的能力 随着对本体的理论和应用方面研究的深入 越来越多 的研究机构和学者都尝试把本体应用到信息检索以及自动问答系统中 因此基于本体 的自动问答系统作为上述研究的一个具体应用 为越来越多的研究者所关注 本文在前人研究成果的基础上进一步研究 首先概述了自动问答系统的发展状况 然后介绍了本体的相关本概念 重点讲述了本体的构建方法和本体在自动问答系统中 的应用 接下来介绍了自动问答中的关键技术 分词 停用词处理和相似度计算 其中相似度计算主要包括词语相似度计算和句子相似度计算 然后针对现有的自动问 答系统存在的不足 提出了改进后的自动问答系统的模型 本文的自动问答系统主要 改进有以下三个方面 分词算法 词语相似度计算的算法和句子相似度计算的算法 最后本文以 数据结构 课程为例构建课程本体 并通过实验与现有的问答系统进行 对比 验证了本文的自动问答系统的答疑性能 从实验结果可以看出的本文的自动问 答系统在一定程度上提高了自动问答系统的查全率和查准率 关键词 关键词 本体 分词 语义相似度 句子相似度 faq 常见问题集 abstract iv abstract v abstract with the popularization of the internet education through networks is becoming increasing popular network teaching gradually becomes an effective way for people s studying because of its own limitations of network teaching such as time environment and geographical the question answering system becomes a useful complement automatic question answering system also known as auto answering system can be used as students answering system of network teaching automatic question answering system is a hot research issue in the field of natural language processing with the development of artificial intelligence different modes of implementation have emerged for automatic question answering system ontology has a good concept hierarchical structure and the support of logical reasoning with the ability to express semantics through the relationship among the concepts with the deep research on the theory and application of ontology an increasing number of research institutes and academics try to apply ontology to information retrieval and automatic question answering system ontology based automatic question answering system as a specific application of the study has attracted more and more researchers attention this paper will go for a further research base on the results of previous studies the main contents of paper includes this paper first provides an overview of the development status of automatic question answering system and then introduce the basic concepts of ontology focus on the ontology application in automatic question answering system next elaborate the key technologies of natural language processing in automatic question answering system such as segment stop words processing and similarity calculating including word similarity calculating and sentence similarity calculating as for existing shortcomings of the existing automatic question answering systems this paper proposes some improvements such as the segmentation algorithm words similarity calculating algorithms and sentences similarity calculating algorithm finally take data structure curriculum ontology for example compare to the existing question answering systems through experiments to verify the performance of the automatic question answering system proposed this paper we can learn from the experimental results of this article automatic question answering system in this paper can improve recall rate and precision rate of automatic question answering system to some extent abstract vi keywords ontology segmentation semantic similarity sentence similarity faq frequently asked questions 目录 vii 目 录 摘摘 要要 i abstract iii 第一章 绪 论 1 1 1 课题研究背景 现状和意义 1 1 1 1 研究背景 1 1 1 2 研究现状 2 1 1 3 研究意义 4 1 2 研究内容和创新点 5 1 2 1 研究内容 5 1 2 2 本文的创新点 5 1 3 本文的组织结构 6 1 4 本章小结 6 第二章 本体的概述 7 2 1 本体的基本概念 7 2 1 1 本体的定义 7 2 1 2 本体的分类 8 2 1 3 本体的作用 9 2 2 本体的构建 9 2 2 1 本体的构造准则 9 2 2 2 本体的建模元语 10 2 2 3 本体的构造方法 10 2 3 本体的实现 11 2 3 1 本体的描述语言 11 2 3 2 本体的开发工具 12 2 4 本体在自动问答系统中的应用 12 2 5 本章小结 13 第三章 自动问答系统预处理 15 3 1 分词概述 15 3 1 1 分词的关键问题 15 3 1 2 现有的分词算法 16 3 1 3 典型的分词工具 17 3 2 本文的分词算法 18 3 2 1 本文问句的特点 18 3 2 2 本文改进的分词算法 19 3 3 删除停用词 20 目录 viii 3 4 本章小结 20 第四章 相似度计算 21 4 1 基于 知网 的语义相似度 21 4 1 1 知网 简介 21 4 1 2 基于 知网 的相似度计算 24 4 2 基于领域本体的相似度计算 26 4 2 1 概念语义相似度的考虑因素 26 4 2 2 基于领域本体的概念相似度计算 29 4 3 本文改进的词语相似度计算 29 4 4 句子相似度的基本概念 29 4 4 1 句子相似度的定义 29 4 4 2 汉语句子相似度计算的难点 30 4 3 3 句子相似度计算的分类 31 4 5 常见的句子相似度算法 31 4 5 1 tfidf 法 31 4 5 2 语义词典法 32 4 5 3 语句结构法 33 4 5 4 本文改进的句子相似度算法 36 4 6 本章小结 39 第五章 基于本体的自动问答系统的设计与实现 41 5 1 aqas 的设计思想 框架结构和流程图 41 5 1 1 aqas 的设计思想 41 5 1 2 自动问答系统的框架结构 41 5 1 3 aqas 的设计步骤和流程图 43 5 2 aqas 系统各模块的实现 44 5 2 1 课程本体的构建 44 5 2 2 分词的实现 46 5 2 3 词语相似度计算 49 5 2 4 句子相似度计算 50 5 2 5 基于 faq 库的自动问答系统 52 5 3 实验结果 54 5 4 本章小结 56 第六章 总结与展望 57 参考文献 59 攻读硕士学位期间发表的论文 63 致 谢 64 contents ix contents abstract chinese i abstract english iii chapter 1 introduction 1 1 1 background status and significance 1 1 1 1 background of the issue 1 1 1 2 research status of the issue 2 1 1 3 significance of the issue 4 1 2 contents and innovative 5 1 2 1 study of this paper 5 1 2 2 innovation in this paper 5 1 3 organization of this paper 6 1 4 brief summary of this chapter 6 chapter 2 review of the ontology 7 2 1 basic concepts of ontology 7 2 1 1 definition of the ontology 7 2 1 2 classification of the ontology 8 2 1 3 effect of the ontology 9 2 2 construction of the ontology 9 2 2 1 construction criterion of the ontology 9 2 2 2 modeling meta of the ontology 10 2 2 3 construction method of the ontology 10 2 3 implementation of the ontology 11 2 3 1 description language of the ontology 11 2 3 2 exploitation tools of the ontology 12 2 4 ontology s application in automatic question answering system 12 2 5 brief summary of this chapter 13 chapter 3 pretreament process of of automatic question answering 15 3 1 summary of segment 15 3 1 1 key issues of segment 15 3 1 2 existing algorithm of segment 16 3 1 3 common tools of segment 17 3 2 segment in this paper 18 3 2 1 characteristic of questions in this paper 18 3 2 2 improved method of segment in this paper 19 3 3 delete stopping word 20 contents x 3 4 brief summary of this chapter 20 chapter 4 similarity calculating 21 4 1 semantic similarity calculating based on hownet 21 4 1 1 brief introduction of hownet 21 4 1 2 words semantic similarity calculating based on hownet 24 4 2 words semantic similarity calculating based on area ontology 26 4 2 1 considerations of concept semantic similarity calculating 26 4 2 2 words semantic similarity calculating based on the area ontology 29 4 3 improved method of words similarity calculating in this paper 29 4 4 basic concept of the sentences similarity 29 4 4 1 definition of sentences similarity 29 4 4 2 difficulty in chinese sentences similarity calculating 30 4 3 3 classification of sentences similarity calculating 31 4 5 common methods of sentences similarity calculating 31 4 5 1 tfidf method 31 4 5 2 the method based on semantic dictionary 32 4 5 3 the method based on sentence structure 33 4 5 4 improved method of sentences similarity calculating in this paper 36 4 6 brief summary of this chapter 39 chapter 5 designation and implementation aqas based on ontology 41 5 1 the design idea frame structure and flow chart of aqas 41 5 1 1 the design idea of aqas 41 5 1 2 the frame structure of aqas 41 5 1 3 the design steps and flow chart of aqas 43 5 2 the implementation of each modular in aqas 44 5 2 1 the construction of curriculum ontology 44 5 2 2 the implementation of segment 46 5 2 3 words similarity calculating 49 5 2 4 sentences similarity calculating 50 5 2 5 automatic questions answering system based on faq 52 5 3 results of experiment 54 5 4 brief summary of this chapter 56 chapter 6 summary and prospect 57 references 59 published thesis during the master 63 acknowledgement 64 第一章 绪论 1 第一章 绪 论 研究一个课题 首先要了解该课题的研究背景 研究现状 研究意义 本章 将从这几个方面展进行详细阐述 1 1 课题研究背景 现状和意义 1 1 1 研究背景 在网络教学中 由于教师与学生分离 学生与教师不能面对面的交流 因此 学生在自主学习过程中碰到的各种难题无法得到及时地解决 虽然目前有许多著 名搜索引擎 百度 搜狐 雅虎等等 学生可以通过搜索引擎进行搜索答案 但 是传统的搜索引擎还是存在一些不足 有时侯并不能有效地解决问题 主要反映 在以下三个方面 1 1 无法充分地反映用户的查询目的 在传统搜索引擎中 用户往往是输 入一个或多个关键词的组合 随着搜索引擎的普及化和互联网的迅速发展 用户 的检索需求也越来越复杂化 关键词以及关键词的简单组合并不能充分的反映用 户的查询目地 2 无法让用户直接准确地获取自己所需要的内容 因为传统的搜索引擎 返回的是与用户的查询需求相关的一系列网页和相应的链接 用户只有打开这些 链接后才能看到自己所需要的信息 而不是直接把相关的信息直接返回给用户 除此之外 这些网页链接还可能有些是重复的链接或者是无效的链接 3 无法对用户的检索需求进行语义方面的理解 传统的搜索引擎采用的 是基于关键词匹配技术 只是涉及到语言处理的表层含义 并没有涉及到语义方 面 所以难以提高检索的效率 而自动问答系统就能够解决以上几点缺陷 2 相比传统的搜索引擎 自动 问答系统能够更好地满足用户的检索需求 并能够直接地返回用户所需要的答 案 因此有许多学者把问答系统称为是新型的搜索引擎 在自动问答系统中 用户无需把问题分解为关键词 也无需进行关键词的组合 而是把问题直接提 交给问答系统 自动问答系统接收到用户提交的问题后则会利用自然语言处理 的技术 通过对问题进行分析与理解 然后抽取答案 最终把答案返回给用户 问答系统可以快速而又准确地回答用户所提问的绝大部分问题 比如用户提问 一个问题 数据结构的英文简写是什么 自动问答系统经过处理后将会直 第一章 绪论 2 接给出答案 数据结构的英文简写是 ds 与传统的搜索引擎相比 自动问答 系统则更方便 更快捷 更高效 自动问答系统的优势主要有以下三点 3 1 信息检索的方便性 由于自动问答系统具有分词的功能 因而使用户的检索显得更加简单 操作 也很方便 只需将问题输入到提示框中就可以检索到答案 但是传统的搜索引擎 则需要遵循一定的规则 才能检索到所需要的内容 因此在检索的方便性方面自 动问答系统显然比传统的搜索引擎更具有优势 2 信息检索的准确性 由于自动问答系统主要利用自然语言处理技术 所以检索的结果定位就会更 加准确 同时也减少了无效的和重复的信息 3 信息检索的智能性 由于自动问答系统以知识库为背景 并结合自然语言处理技术 使得信息检 索更具有智能性 同时还可以帮助解决检索中不同用户表达差异的困难 表达差 异就是指不同的用户会使用不同的词来表示相同的意思 例如知识库中定义的同 义词可以解决这种表达差异 1 1 2 研究现状 目前国内外已有许多不同专业领域或开放域的自动问答系统 大致可以分为 以下几种 1 1 聊天机器人 采用自然语言的方式回答用户提问的问题 原理是在对 话库中搜集各种句型和模板 然后提取用户的问题中的关键词 然后检索对话库 主要通过模式匹配的技术来检索问题最佳答案 2 基于知识库的自动问答系统 采用自然语言理解技术对用户提问的问 题在知识库进行检索问题的答案 由于此类型的问答系统利用了自然理解技术 并且是基于知识库的检索 因此它在一定程度上能够实现智能回答 但是 由于 该类型的自动问答系统依赖于知识库 所提问的问题必须限定在知识库的范围 内 一旦在知识库的范围外 系统的答疑性能就会很低 甚至为 0 此类自动问 答系统经常会出现知识库瓶颈的情况 3 问答式检索系统 用户采用自然语言的方式提交问题进行检索查询 此类系统是从系统的文档集合或者互联网中检索出相关的文本或者相关的网页 并将这些文本或者网页返回给用户 目前典型的问答式检索系统有麻省理工学院 开发的start问答系统 密歇根大学开发的answerbus问答系统 美国askjeeves公 司的askjeeves检索系统等等 此类系统虽然允许用户以自然语言的方式进行提 问 但是返回的结果只是相关的网页 并没有以自然语言方式把答案返回给用户 第一章 绪论 3 4 基于文本的自动问答系统 此类系统是基于文档或者网页进行检索 并不需要建立知识库 将检索出来的相关文档或网页作为答案抽取的信息来源 最后经过语法分析从中抽取相应的内容作为最终答案 华盛顿大学开发的 mdlder系统是国内外第一个以网络资源为知识库的自动问答系统 由于此类 自动问答系统不需要建立大规模的知识库 并且还能够返回具体的答案给用户 因此一直是研究者们研究的热点和重点 基于文本的自动问答系统 特别是基于 web 的开放领域的自动问答系统 标志着自动问答系统发展的新方向 也是自动 问答系统研究的新方向 从上面国内外自动问答系统的研究现状 可以发现自动问答系统的不足 4 1 国内的自动问答系统与国外的自动问答系统相比 起步晚 发展慢 技术不成熟 目前国外的系统虽然比较成熟 并在特定领域已经发挥了相应的作 用 但是这些系统大都是以英语为背景进行研究 不可以直接移植到国内的汉语 自动问答系统中来 因为汉语的处理要比英语的处理复杂 首先在汉语分词方面 英语直接采用空格作为分割符 而汉语则需要借助词典和分词算法 另外在词义 理解方面 英语只需要通过词形 时态等变化就能帮助理解意思 而汉语没有词 形和时态的变化 只能通过字 词的意思来帮助理解意思 2 基于全文检索的自动问答系统可以扩展自动答疑的范围 同时也可以 增强自动答疑的能力 由于该系统完全基于信息检索技术 因此系统的答疑速度 不快 用户常问的一些相同的问题每次都是重复地进行检索文档库 浪费大量的 时间 影响系统的性能 3 基于知识库的自动问答系统有两种方法 一种是运用简单的基于关键 词的匹配技术的方法 由于只是简单地考虑了句子的关键词 因此给出的答案并 不精确 另一种是采用基于 知网 的句子相似度的方法 该方法虽然已经考虑 句子中词语的语义方面 但是并没有考虑词语的权值对句子相似度的影响 也没 有考虑专业词汇的词语相似度计算 综上所述 现有的问答系统主要有以下几点欠缺 1 在分词方面采用基于词典的分词算法或者借助于现有的分词工具如中 科院的 ictclas 前者是能够准确划分专业词汇以及组合词汇 但是经常会出 现某些词在词典中没有找到 有的学者把这种词叫做未登录词 导致不能正确的 分词 而后者即借助于现有的分词工具不能准确划分专业词汇以及组合词汇 2 在计算词语相似度方面采用基于 知网 的语义相似度 或者采用基 于领域本体的概念相似度 而这两种计算词语相似度方法各有优缺点 前者对于 专业词汇之间的语义相似度 特别是专业组合词汇的语义相似度不能准确的计 算 因为 知网 没有搜集专业组合词汇 同样后者对于常用词汇的相似度的计 第一章 绪论 4 算也有不足 3 在计算句子相似度方面并没有考虑词语的权值对句子相似度的影响 在自然语言中 关键词在句子中担当的成分不同 对句子相似度影响也不同 1 1 3 研究意义 本文的自动问答系统是作为远程教育系统中的学生答疑子系统 是针对课程 领域的相关问题进行自动问答 自动问答系统是远程教学中的一个不可缺少的部 分 学生可以通过它进行提问 系统进行答疑 解决同学在学习过程中遇到的问 题 进而提高学习的效率 自动问答系统是老师将本课程的问题和相应的答案组 合在一起保存在 faq 库中 利用自然语言处理中的语义理解技术进行问题分析 并匹配学生提问的问题 自动地给出问题答案的系统 它是一个知识库系统 综 合运用了网络通信原理 人工智能技术 信息检索技术和自然语言处理等知识 具有智能性 准确性 开放性 方便性等优点 5 自动问答系统比传统的 email 答疑和 bbs 答疑具有以下几点优势 1 有利于提高教学的质量 自动问答系统可以突破时间和空间的限制 学生可以随时随地的获取问题的答案 从而加深理解和把握 提高学习效率 老 师通过获取在学生提问普遍的问题并及时调整教学策略 帮助大部分学生理解并 掌握相关的重点和难点 这样就能提高教学的质量 2 有利于帮助学生快速准确地解决问题 同时也减轻老师的工作量 许 多代表性的问题 涉及学科的重点和难点 往往许多学生都会提出来 老师只需 详尽地回答一次 然后添加到 faq 库中 即可同时解决许多学生的问题 这样 既能帮助学生解决问题 同时也减轻了老师的工作量 3 有利于提高学生学习的积极性和效率 学生在学习过程中遇到疑惑时 可以快速地通过自动问答系统进行检索答案 如果自动问答系统检索不到满意的 答案 可以通过帮助将问题发给管理员或相应课程的老师 问题则会及时得到解 答 这样就有利于提高学生学习的积极性和效率 4 有利于培养和提高学生的处理问题和自学的能力 学生在使用自动问 答系统解答问题的过程中 逐渐培养出处理能力 即提出问题 分析问题 解决 问题的能力 这样就有利于培养并提高学生处理问题的能力 提高自学能力 为 以后的学习和教育打下坚实的基础 第一章 绪论 5 1 2 研究内容和创新点 1 2 1 研究内容 为了对现有的自动问答系统进行改进 本文以课程领域本体作为语义理解的 信息基础 如何建立领域本体以及如何进行语义理解是本文的研究的重点 因 此本文主要致力于以下几个方面内容的研究 1 自动问答系统的领域本体的构建方法研究 这是自动系统的基础部分 领域本体构建的好坏将直接影响自动问答系统的 性能 因此在建立的过程中 要从领域本体所涉及的范围 应用领域本体的目的 和问答系统的特点等方面来进行考虑 开发一个本体的过程一般包括定义本体中 的概念以及概念与概念之间的关系 然后定义概念的属性并描述其属性的值 这 样才可以形成一个较完整的知识库 2 自动问答系统的问题预处理研究 这是自动问答系统的关键部分 主要包括分词和停用词处理 主要研究了分 词的基本概念 分词算法和分词工具 最后提出本文改进的分词算法 3 自动问答系统的词语相似度计算研究 词语相似度计算是句子相似度计算的基础 主要研究了两种典型的词语相似 度计算方法 分析各自的优缺点 最后提出本文改进的词语相似度计算方法 4 自动问答系统的句子相似度计算研究 这是自动问答系统的核心部分 主要研究了几种典型的句子相似度计算方 法 分析各自的优缺点 引入了词语的权值改进这些算法 并考虑了同义词对句 子相似度的影响 最后提出了本文改进的句子相似度计算方法 最后根据本文的研究目标 建立并实现了基于本体的自动问答系统 aqas automatic question answering system based on ontology 通过实验对比发现 本文的系统在查准率和查全率上都有了一定的提高 1 2 2 本文的创新点 本文针对目前自动问答系统存在的不足 主要做了以下几点改进 1 分词方面 在基于的词典分词方法上 标注了词语的词性 并引进了 权值 对于问句中的未登记词结合现有的分词工具进行分词 并把未登记词添加 到词典中 来完善本文的词典 从而提高下一次分词的准确性和效率 2 计算词语相似度方面 如果都是专业词语 则相似度采用基于领域本 体的概念相似度方法进行计算 否则采取基于 知网 的语义相似度的计算方法 第一章 绪论 6 进行计算 3 计算句子相似度方面 研究了几种典型的句子相似度算法 基于统计 tfidf的算法 语义相似度算法 问句结构相似度算法 考虑到权值对句子相似 度的影响 引进了分词后的权值对这些算法进行改进 并将这几种经典的算法结 合起来成为改进后的句子相似度计算方法 1 3 本文的组织结构 本文在对自动问答系统中用户的问题从语义层面上进行理解 提出改进后的 句子相似度计算方法 并通过实验进行验证 本文的大致结构如下 第一章 绪论 介绍了论文的研究背景 研究现状 研究意义 研究内容 本文的创新点以及论文结构 第二章 本体的概述 介绍了本体的基本概念 定义 分类 作用 构造准 则和构造方法 以及开发工具 第三章 自动问答系统预处理 阐述了分词中的关键技术 难点 分词算法 以及目前主流的分词工具 最终提出了本文的分词方法 分词后并进行停用词处 理 即删除停用词 第四章 相似度计算 介绍了词语相似度计算算法和句子相似度计算算法 分析现有的算法的优缺点 最终提出了本文改进的相似度计算算法 第五章 自动问答系统的设计与实现 对自动问答系统实现过程中的关键技 术进行详细的阐述 并且通过实验进行测试 从而验证本文提出的技术和算法的 有效性 第六章 总结与展望 对全文进行总结 并对本文中需要进一步研究的地方 进行阐述 1 4 本章小结 本章主要引入本文研究的课题 主要介绍了课题的研究背景以及研究现状 阐述了课题的研究意义 最后介绍了本文主要研究的内容 本文的创新点 并给 出了论文的组织结构 第二章 本体的概述 7 第二章 本体的概述 本课题是基于本体的自动问答系统 首先要研究本体相关的概念 包括定义 作用 描述语言 以及本体的构建 本章节将着重介绍本体的相关概念 2 1 本体的基本概念本体的基本概念 2 1 1 本体的定义 本体的概念最早出现在哲学领域 可以追溯到公元前古希腊哲学家亚里士多 德 本体在哲学中的定义为 对世界上客观存在物的系统的描述 即存在论 是客观存在的一个系统的解释或说明 关心的是客观现实的抽象本质 在计算机领域中 最早引入本体的概念的是人工智能领域 它使用本体来描 述知识 人们己经从不同的角度和方面为本体论概念进行了定义 本体定义的演 变和发展过程如表 2 1 所示 表 2 1 本体定义 table 2 l definition of ontology 作者 提出时间 本体的定义 neches 1991 给出构成相关领域词汇的基本术语和关系以及利 用这些术语和关系构成的规定这些词汇外延的规 则的定义 gruber 1993 概念模型的明确的规范说明 borst 1997 共享概念模型的形式化规范说明 studer 1998 共享概念模型的明确的形式化规范说明 uarinogn 1998 用来说明一个形式化词汇表内在含义的逻辑理论 fipa 1998 一个特定领域结构的显示说明 这个领域结构包 括一个描述领域的词汇表 以及一些用来约束领 域词汇关系的一组逻辑声明 dfensel 2000 特定领域中重要概念的共享的形式化的描述 lzunigag 2001 本体是用来描述一个特定领域中的知识的形式化 语言 muschold 2003 关于共享的概念模型的协议 neches等人是最早给出本体的定义 6 他们将本体定义为 给出构成相关领 域词汇的基本术语和关系 以及利用这些术语和关系构成的规定这些词汇外延的 规则的定义 gruber又给出了本体的另一个较为流行的定义 7 即 本体是概 念模型的明确的规范说明 后来 borst又提出了本体的另一个定义 7 本体 是共享概念模型的形式化规范说明 studer等人进行深入的研究 认为 本体 第二章 本体的概述 8 是共享概念模型的明确的形式化规范说明 这包含 4 层含义 8 概念模型 conceptualization 明确 explicit 形式化 formal 和共享 share 具体 定义如下 1 概念化 指通过抽象出客观世界中一些现象 phenomenon 的相关概 念而得到的模型 概念模型所表现的含义独立于具体的环境状态 2 明确 指所使用的概念及使用这些概念的约束都应有明确的定义 3 形式化 指本体能够被计算机所处理 即是计算机可读的 4 共享 指本体中体现的知识是共同认可的 反映的是在相应的领域中 公认的概念的集合 也就是说本体针对的并不是个体 而是团体的共识 2 1 2 本体的分类 依据本体的层次和领域依赖度两个因素考虑 guarino将本体分为四类 9 1 顶层本体 研究通用的概念以及概念与概念之间的关系 如空间 时 间 事件 事物 对象 行为等 与具体的应用无关 完全独立于限定的领域或 者特定的问题 因此可以在较大的范围内进行共享 2 领域本体 研究的是特定领域中的概念与概念间的相互关系 比如政 治 生物 医学 历史 地理等 可以引用顶层本体中定义的词语来描述自己的 词语 3 任务本体 定义一些通用任务或者相关的推理活动 如诊断 设计 影像解译等 可以引用顶层本体中定义的词语来描述自己的词语 领域本体和任 务本体处于同一个开发和研究的层次 4 应用本体 用来描述一些特定的应用 它既可以引用涉及领域本体中 特定的概念 又可以引用任务本体中出现的概念 这四类本体的分类图如图 2 1 所示 顶层本体 应用本体 任务本体领域本体 图 2 1 本体的分类 fig 2 1 classification of ontology 第二章 本体的概述 9 2 1 3 本体的作用 总的来说 构造本体的目的都是为了实现某种程度的知识的共享和重用 认 为本体的作用主要有以下两方面 1 本体使统一的术语和概念以及知识共享成为可能 2 本体分析领域知识的结构 从而为知识表示打下了基础 本体可以重 用 从而避免了领域知识的重复分析 本体的具体作用 10 包括 交流 communication 互操作 inter operability 和系统工程 systems engineering 1 交流 主要为组织和组织之间或者人和人之间的交流提供共同的词语 2 互操作 在不同的建模语言 方法 范式和不同的软件工具之间进行 映射和翻译 以实现不同的系统间的集成和互操作 3 系统工程 本体分析能够为系统工程提供四个方面的支持 具体来说 1 重用 本体是领域内的重要实体 过程 属性以及相互关系的形式化描 述的基础 这种形式化描述可以成为软件系统中可共享和重用的组件 2 知识获取 当开发基于知识库的系统 现有的本体可以用来作为基础和 起点指导知识获取 可以提高软件系统的可靠性和速度 3 可靠性 形式化的表达能够使自动的一致性检查成为可能 进而提高了 软件系统的可靠性 4 规范描述 本体分析有助于确定 it 软件系统 知识库 的需求和规范 2 2 本体的构建本体的构建 2 2 1 本体的构造准则 1995 年gruberrt 提出本体构造的 5 个准则 11 即 1 客观性和明确性 本体应该采用自然语言的方法对所定义的术语给出 客观的 明确的定义 即必须有效地说明所定义的术语的意思 而且当用逻辑公 理来表达定义时 应该是形式化的 2 完全性 本体所给出的定义是完整的 完全能表达所描述术语的含义 3 一致性 由术语得出的推论与术语本身的含义是相容的 即支持与其 相一致的推理 不会产生矛盾 所定义的公理及采用自然语言说明的文档应一致 4 最大单调的可扩展性 向本体中添加专用或者通用的术语时 并不需 要已有的概念定义 内容进行修改 即支持在现有的概念基础之上定义新的术语 5 最小承诺和最小编码偏好 所谓承诺 在本体中指对怎样以相容的 第二章 本体的概述 10 一致的方式使用共享的术语所达成的共识 而所谓最小承诺 指本体约定应该最 小 对待建模对象应给出尽可能少的约束 一般地 本体规定只要满足特定的知 识共享的需求就可以了 这些可以通过定义约束最弱的公理和定义交流所需的词 汇来满足 所谓的最小编码偏好 就是指概念的描述不应该依赖于某种特殊符号 层的表示法 因为在实际中不同的软件系统采用的知识表示方法也可能不同 2 2 2 本体的建模元语 perez 等人认为一个本体可由类 classes 关系 relations 函数 functions 公理 axioms 和实例 instances 五种元素组成 12 通常也把类称之为概念 concepts 下面分别简单的介绍这五种元素 类 是广义上的概念 除了是一般意义的概念之外 也有可能是任务 行为 策略 功能 推理过程等等 本体中的概念通常构成一个分类层次 关系 表示概念之间的一类关联 典型的二元关系如子类关系形成概念的层 次结构 一般情况下用 n cccr 21 表示概念类 n ccc 21 之间存在n元 的关系r 函数 一种特殊的关系 其中的第n个元素是由前面1n 个元素是唯一确定 的 一般情况下函数可以这样定义 nn ccccf 121 例如定义函数 三角形的面积 就是定义三角形的面积由三角形的底和高来唯一确定 公理 用来表示一些重言式 更具体地说 在许多领域中 函数之间或关系 之间也存在着关联或约束 实例 指属于某个概念类的基本元素 即某个概念类所特指的具体实体 特 定领域的所有实例构成领域概念类在该领域中的指称域 概念之间有四种最基本的关系 ofpart ofkind ofceins tan和 ofattribute 具体定义如下 ofpart 指概念和概念之间是整体和部分的关系 ofkind 指概念和概念之间是继承关系 就像面向对象中的基类和派生类 ofattribute 指某个概念是另外一个概念的属性 ofceins tan 指某个概念是另一个概念的实例 就像面向对象中的类和对象 2 2 3 本体的构造方法 在遵循前面提出的本体构建的五条规则的基础之上 出现了许多本体构造方 法 典型的本体构造方法有 kinguschold 方法 13 foxgruninger 方法 14 berneras方法 15 基于sensus的方法 16 和ymethodolog方法 17 本文主 要采用的是kinguschold 提出的一个本体构造的方法学框架 运用该方法构造 第二章 本体的概述 11 本体的步骤如下 1 明确构建本体的目的以及使用范围 2 构建本体 包括以下三个子步骤 1 概念提取与定义 确定本体中主要的概念和关系 并给出定义 确定标 识这些概念的关系和相关公理的术语 2 编码 选择合适的表示语言来表达本体中的概念和相应的术语 3 集成已有本体 对已有本体进行重用和修改 3 评估 根据需求描述 能力问题等对本体以及软件的环境和相关的文 档进行评价 4 文档 详细的记录本体捕获和形式化的本体设计以及评估方法 2 3 本体的实现 2 3 1 本体的描述语言 本文所使用的本体描述语言是owl 下面将简单介绍owl 18 19 owl是ontology web language的简写 是现今w3c the world wi

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论