




已阅读5页,还剩4页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于 Ontology 的智能检索技术研究与实践* Method of Development and Architecture of an Ontology-Based intelligent retrieval System 胡正银 1,2 ,方曙 2 ,郑颖 2,钟秀琴 3 (1. 四川大学公共管理学院,成都 610041; 2. 中科院国家科学图书馆成都分馆,3. 中科院成都计算机应用研究所,成都 610041) 【摘 要】:本文在调研基于本体智能检索相关技术的基础上,总结和讨论了其建设方法与体系 结构。基于本体的智能检索系统体系结构从下至上可分为:数据层、语义图层、推理层、查询 层、接口层。论文具体讨论了一个基于中医药本体的实验性智能检索系统实现的详细过程,重 点论述了语义图层、推理层的技术实现,并指出了在实际建设中需注意的一些问题。 【关键词】:本体;智能检索;知识库;推理规则 【中图分类号】 G250 【文章标识码】 A * 基金项目:本文受中国科学院西部之光项目:基于本体的天然药物知识推理系统的设计与应用 ;中国科学 院知识创新工程青年人才领域前沿项目:基于本体的智能检索技术探索与实践资助。 作者简介: 1 胡正银,男,研究生,1979,中国科学院国家科学图书馆成都分馆(成都文献情报中心)信息技术部工程 师,四川大学公共管理学院情报学硕士研究生,已发表论文 6 篇。研究方向:知识管理与数据挖掘。通信地址: 四川省成都市人民南路四段九号中国科学院成都文献情报中心。联系电话:028- 85220240。Email:。 2 方曙,男,博士,1957,中科院国家科学图书馆副馆长,成都分馆馆长,中科院研究生院情报学博士生导 师、四川大学公共管理学院情报学硕士研究生导师,已发表论文 60 余篇。研究方向:知识管理与情报分析。 3 郑颖, 女 ,博士,1973,中科院国家科学图书馆副研究员,已经发表论文多篇。研究方向:知识 管理与情报分析。 4 钟秀琴,女 ,博士,1976,中科院成都计算机应用研究所,副研究员,已经发表论文多篇。研究方向: 知识库。 1、 引言 传统的学科信息门户多提供基于学科分类的资源导航服务与基于关键词匹配的检索服务, 由于信息之间缺乏语意的关联,因此很难提供基于知识的服务。基于本体的智能检索技术在传 统的关键词匹配检索的基础上,通过添加了语义层,可实现基于语义的智能检索,目前已成为 研究的热点 1。 虽然基于ontology的智能检索技术研究仍处于发展的前期,还有很多研究难题,但其已经引 起了包括图书情报界在内的广泛关注。 2、 智能检索系统体系结构 以语义网七层体系结构为参考,基于本体的智能检索系统结构如下 2 : 接口层 (提供用户和应用程序接口) 查询层 (在语义图的基础上,实现智能查询) 推理层 (提供基于规则的知识推理和知识发现的功能) 语义图层 (对概念进行语义描述,用定义的关系连接各种概念,并对数据库中的资源进 行语义映射,建立领域知识的核心语义图) 数据层 (有机地整合多源数据和通用本体,并提供远程访问接口) 图 1 基于本体的智能检索系统体系结构图 Fig 1 “ontology-based intelligent retrieval” architecture diagram 1、数据层:有机地整合多源数据及通用本体等,并提供远程访问其它相关数据的接口。 2、语义图层:在已有数据库及文献资料等资源的基础上,采用RDF,OWL等描述语言对 数据库的各类数据和资源进行语义描述和关系映射,建立一个领域知识的核心语义图。该语义 图可扩展、可读写、可推导。逐步构建领域的本体 3。 3、推理层:推理规则的提取与描述,利用推理引擎如:Jena或RacePro 或RDF Prolog等,实 现知识推理和新知识发现的功能。 4、查询层:在语义图的基础上,利用推理功能,根据数字图书馆知识服务的需要,可建立 知识查询服务。 5、接口层:在一个查询界面下实现跨数据库查询和数据整合,使得用户查询更加便利和全 面,提供用户和应用程序接口。 3、 智能检索实验性系统的实现 本文以AllegroGraph 知识库管理系统为基础,以AllegroGraph知识库系统自带的RDF Prolog 语言作为推理规则描述语言,在Java 环境下实现了一个基于中医药本体的智能检索演示系统, 具体方案描述如下: 1、 数据层:在中药专家的指导下,以中国中医药主题词表 4 , 中国大百科全书 中 医 5中医卷,国科图成都分馆自建的天然药物数据库相关内容,作为本系统的数据源。主要 涉及的数据包括:中草药的分类及其味,性,效等属性;中药方剂分类疗效及组成等属性;中 医病症的症状等属性。 2、 语义图层:采用OWL描述语言对数据层数据进行描述,建立本体文件。该本体包含 相关概念之间的关系及部分中草药,中药方剂实例的映射关系,形成该领域核心语义图。 在本体的建设过程中,根据中医药主题词表的分类标准,采用自上而下的设计方法。如在 定义中草药类时,先定义中草药类,然后按照其疗效分别定义:安神药,补益药,解表药等类, 最后才在子类下面定义具体中草药实例 4 5。 中草药本体的结构设计如图 2: 中医药实验本体 方剂 清热剂 开窍剂 安神剂 清热祛湿剂 清脏府热剂 清热解毒剂 八正散 白头翁汤 黄连解毒汤 柏子养心丸 中草药 解表药 辛凉解表药 辛温解表药 白芷 薄荷 补益药 补气药 补血药 白及 白芍 开窍药 安息香 中医病症 阴阳症候 虚实症候 寒热症候 六经症候 寒证化热 肝火犯肺 阳盛格阴 太阳中风 图 2 中草药实验本体结构图 Fig 2 “herb demo ontology” architecture diagram 其中中药类特定属性包括:品名、别名、性(寒、热、温、凉)味(辛、甘、酸、苦、咸) 、 功效、应用等;方剂类的特定属性包括:成份、主治等;中医病症类的特定属性包括:症状等。 在设计概念及实例之间相互关系时,除了 owl 中内置的上下位关系 subclassof 、同一关系: SameAs、 类-实例关系:Individual 外,部分定制关系如表 1: 表 1 本体部分属性 Table1 Part of the Meridians Ontologys Attributes 谓词 Domain Range 举例 iscomponent 中草药 方剂 陈皮是纯阳正气丸配方的一部分 usezy 方剂 中草药 纯阳正气丸配方中有陈皮这味药 cancure 方剂 病症 纯阳正气丸能治疗寒湿症 transfer 病症 病症 寒热症可转换成为寒湿症 使用 Protg 或 TBC 编辑器建立本体文件。目前本体数据持久化主要有三种方式:文件存 储、传统关系型数据库存储、RDF 三元组存储 6 7 8 : 表 2 本体数据持久化方式 Table2 Method of the ontology storage 持久化方式 特点 文件存储 轻便快捷,适合于小型的本体库。不需要过多的配置, 便于备份,复制,编辑,且查询速度快。缺点在于不 适合较大的本体库,每次都需要读入内存进行操作, 缺乏单独的索引机制,且对于模型的修改需要一次性 保存全部模型,效率不高 传统关系型数据库存储 可处理更大更复杂的本体模型,标准的查询接口,容 易使用。但当本体模型变化时,需要底层改动数据库 结构,使得维护,扩展困难,在推理方面,效率低下。 针对 RDBMS 不能有效适应本体模型变化的缺点,技 术上常用是一种改进方案:数据存储与本体模型存储 相分离,即:RDBMS 只存储基本的数据信息,本体 模型采用单独的本体 Schema 文件保存,当查询时, 根据事实库中的已有事实,加载规则库中的规则,从 而推理出新的事实,并将新的事实加入到 OWL 知识 库中,实现了 OWL 知识库内容的更新与扩充 RDF 三元组存储 专门针对本体存储,知识推理开发设计。有利于存储 非结构化数据,适应本体知识的不断变化与累积,高 效的索引与搜索性能,允许智能推理。其缺点是:检 索,推理需要单独的语言,如:SPARQL、Prolog, 标准化管理界面缺乏,相关技术人员缺乏 经分析比较,本系统采用专门的 RDF 三元组存储系统 AllegroGraph 实现本体数据的持久化 保存。我们认为:专门的 ontology 知识库管理系统必将越来越成熟,成为建立知识库的首选。 3、推理层: 虽然使用OWL语言可以较好的描述领域之间知识的关系,但是在描述一般 形式的规则时,需要进行复杂的描述,如纯粹使用OWL来描述本体之间的关系,将给知识检索 性能带来一定的影响。而通过在语义层的基础上,添加一个推理层,可以较好的解决该问题 9 。 推理层采用的推理机有如下类型 8 9 10: 表 3 推理机类型 Table3 Kind of the Reasoners 推理机类型 特点 Transitive reasoner 传递推理是指基于具有传递特性的属性进行的推理, 这种推理比较简单,也很容易实现 RDFS rule reasoner 基于 RDFS 约束的子集的推理实现 OWL/OWL mini/OWL micro reasoners 基于 OWL/Full 子集的不完全实现 DAML micro reasoner 基于 DAML 的微型推理机 Generic rule reasoner 泛化规则引擎是基于规则的,支持用户的自定义 本实验性系统采用泛化规则方式实现推理,具体来说采用 AllegroGraph 知识库系统自带的 RDF Prolog 语言作为推理规则描述语言,来建立推理层。Prolog 作为一种逻辑编程语,建立在 逻辑学理论基础之上,最初被运用于自然语言等研究领域。现在已广泛的应用在人工智能、专 家系统、自然语言理解、智能知识库研究中 11 。现将部分推理规则描述如下: zyonto 是在系统中定义的语义层本体命名空间,以下分别用 ZY、ZYFJ、ZYBZ 定义在推 理规则中中草药,中药方剂,中药病症简称: - (ZY ?x) (q ?x ! rdf:type !zyonto:zy) - (ZYFJ ?y) (q ?y ! rdf:type !zyonto:zyfj) - (ZYBZ ?z) (q ?z ! rdf:type !zyonto:zybz) 以下定义推理规则中基本关系: 定义关系:iscomponent: Prolog描述:(- (iscomponent ?x ?y) (ZY ?x)(ZYFJ ?y) (q ?x !zyonto: iscomponent ?y) 关系说明:如果x是一种中草药,y是一种中药方剂,且x的iscomponent值为y,那么x与y的 关系为iscomponent; 定义关系: usezy: Prolog描述: (- (usezy ?y ?x) (ZYFJ ?y)(ZY ?x) (q ?y !zyonto: usezy ?x) 或者: (- (usezy ?y ?x) (iscomponent ?x ?y) 关系说明:如果x与y的关系是iscomponent,那么y与x的关系为usezy; 定义关系:cancure: Prolog描述:(- (cancure ?y ?z) (ZYFJ ?y)(ZYBZ ?z) (q ?y !zyonto: cancure ?z) 关系说明:如果y是一种中药方剂,z是一种中医病症,且y的cancure值为z,那么y与z的关 系为cancure; 以上三种关系本身存在与语义层的定义中(即存在于OWL文件中),在推理层中重新定义, 是为了给进一步复杂的关系推理提供基础。现在其基础上定义复杂关系: 定义关系:haseffect: Prolog描述:(- (haseffect ?x ?z) (iscomponent ?x ?y) (cancure ?y ?z) 关系说明:如果中药方剂y能治疗病症z,且中药方剂y配方中包含中草药x, 那么中草药x 可能对病症z有疗效。 可能有疗效规则:haseffect是在语义层基本定义的基础上推理出来的,当语义层的基本属 性定义足够多时,可以利用这些属性编写出很多复杂的推理规则存储在推理层,以供查询层直 接调用。这样做的好处是:一方面可以简化语义层的定义工作,避免本体文件变得庞大和不可 读;另一方面有利于查询层的封装与调用,否则每次查询层进行检索时,都要直接利用语义层 定义的属性进行推理,效率低下。 4、查询层: 查询层是面向知识服务的核心应用,不同于传统的信息检索,基于本体的智 能检索系统中可对用户的查询关键词经过一组推理操作,实现同义、上下位及平级扩展 ,形成 语义丰富的扩展 概念集,再提交搜寻 12。 5、接口层: 本系统采用JSP 开发了一个演示性用户界面,用户可以进行一些简单的智能 检索,如:针对寒湿症状可能有疗效的中草药有哪些等,在此不再赘述。 4、 需要注意的问题 1、本体与规则的结合:单纯使用OWL来描述领域知识间的关系,其表达能力局限于描述 逻辑,在描述一般形式的规则时,需要进行很复杂的描述,会给本体建设与知识检索性能都带 来很大的影响 9。建议在实际系统建设中,将推理层单独独立出来,使用高效的推理规则描述 语言如:RDF Prolog等来对语义层基本关系重新描述,并通过对这些基本关系进行重新组合生 成更复杂的关系。而不要将所有的关系试图全部在语义层中进行描述。 2、 采用专门的知识库存储系统:关系数据库系统对交易数据和数据分类很有效,但是处 理关联数据(大多数的知识都属这一类)时就有所欠缺。此外RDBMS对知识的开放式管理支持 有限,当新的知识添加或修改时,很有可能涉及到数据库底层数据结构的修改,不适合于知识 的管理。对知识库底层知识的存储与管理,建议使用专门的知识存储与管理系统,如: AllegroGraph等 6。 5、 结语 基于本体的智能检索技术是目前一个比较热门的研究热点,国内外很多机构、学者对此进 行了大量研究。其涉及的内容与技术较多,还没有形成统一的模式与规范。本文在系统调研基 于本体的智能检索技术相关技术与方法的基础上,结合基于本体的天然药物知识推理系统的 设计与应用项目研究,设计了一个简单的智能检索系统,并指出了在建设过程中应注意的一 些问题。由于在中医领域,目前尚未建立一套完整、系统的本体库,本文中涉及到的中医药本 体尚在进行当中,并不完善,因此该智能检索系统推理规则有限,智能检索应用也受到一定的 限制。本文希望通过描述智能检索系统建设全过程,对基于本体的智能检索应用开发起到抛砖 引玉的作用。 参考文献 1 杨建林. 网格环境下的信息检索J. 情报理论与实践 ,2007,(30 卷 3 期) :88-94 2 李洁,丁颖. 语义网关键技术概述J. 计算机工程与设计 ,2007,(28 卷 8 期) :1831-1836 3 田稷语义网与网络信息和知识的表达J情报杂志,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 子女成长跟踪与教育辅导项目合同
- 艺术展览策展与艺术品运输保险服务合作协议
- 桥梁工程现场检测员岗位要求与聘用协议
- 跨区域房产使用权及资源共享合作开发协议
- 体育旅游地接服务协议
- 海关进出口贸易数据录入劳务派遣及质量监控协议
- 文化创意产品区域经销商网络特许经营合同
- 煤矿入矿安全培训
- 培训毕业答辩
- 肠梗阻管道护理
- 《医疗整形美容麻醉安全规范》
- 危险化学品常识一书一签考核试卷
- 立体几何中球与几何体的切接问题-高考数学复习重点题型归纳与方法总结(原卷版)
- DB35T 88-2022 伐区调查设计技术规程
- 蜗牛与黄鹂鸟(课件)人音版音乐二年级上册
- 经济师考试旅游经济(中级)专业知识和实务试卷及解答参考
- 班级规章 创造和谐
- 2024全国高中数学联赛山东赛区预赛试卷(含解析)
- 2024年中国家具电商行业市场竞争格局及投资方向研究报告(智研咨询)
- 导数(30题)-2024年考前15天高考数学冲刺大题训练(新高考)含答案
- 高层建筑一栋一册消防安全档案
评论
0/150
提交评论