第7章 知识检索_第1页
第7章 知识检索_第2页
第7章 知识检索_第3页
第7章 知识检索_第4页
第7章 知识检索_第5页
已阅读5页,还剩22页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、知识检索南京大学信息管理学院杨建林知识检索的两类定义 n第一类定义包括:n “所谓知识检索,就是综合应用信息管理科学、人工智能、认知科学及语言学等多学科的先进理论与技术,基于知识和知识组织,融合知识处理和多媒体信息处理等多种方法与技术,充分表达和优化用户需求,能高效存取所有媒体类型的知识源,并能准确精选用户需要的结果”【张玉峰】 知识检索的两类定义 n第一类定义依然将信息库或信息资源作为被检索的对象,信息检索系统提供给用户的检索结果是不同类型的文件或者这些文件所包含的元数据信息n在第一类知识检索系统中,知识的作用渗透到信息检索过程的各个环节,包括:n利用知识充分表达和优化用户的信息需求n利用知

2、识充分表达和优化检索对象的替代物n利用知识提高信息资源和用户需求匹配的准确程度n利用知识优化检索结果的输出方式n第一类定义认为知识检索是一种高级的信息检索方式,是传统检索技术的继承和发展知识检索的两类定义 n第二类定义包括:n“知识检索是指根据用户需求或问题的实际情况找出可利用的知识使问题得到圆满解决的过程”【何立阳】n第二类定义将知识库或知识资源作为被检索的对象,知识检索系统提供给用户的检索结果是有助于用户解决实际问题的知识,而不是不可直接利用的信息集n第二类知识检索系统大大降低了用户进行信息分析获取知识的智力负担n从信息检索的一般过程来看,两类知识检索系统都不够完善,必将走向统一 检索系统

3、的一般模型 表达式构造标引资源对象资源对象替代物需求替代物用户需求检索结果相关性判断本人观点n知识检索是将信息资源或者知识资源按一定的方式组织和存贮起来,并根据用户的需要找出有关信息和知识的过程,其中包括生成资源对象替代物、用户需求替代物、资源对象与用户需求相关性判断、匹配结果的输出等多个环节。n在这个过程中,知识表示、知识存贮、知识组织、知识推理、知识存取和知识发现等多种知识管理技术全面发挥作用,包括利用知识管理技术n充分表达和优化用户信息需求n充分表达和优化检索对象的替代物n提高资源对象和用户需求匹配的准确程度n优化匹配结果的输出方式n从匹配结果中发现隐性的知识知识标引n从知识资源中提取知

4、识元的过程被称为知识元标引,也被称为知识元挖掘 n知识标引是实现知识组织、知识检索的核心,是实现信息服务向知识服务转型的关键技术n实现知识标引,知识才可能被人类有效检索、利用和再创造,信息服务才可能真正转变成知识服务n知识标引的标引对象是文献中包含的数据、公式、事实、结论等类型的知识元,而不是关键词或主题词n以知识标引为基础的知识检索系统提供给用户的不只是文献,而且还直接提供存在于文献中的具体知识知识与知识元 n知识是人们在改造客观世界的实践中所获得的基本概念、认识、经验和规律n知识具有层次性,可以分为四个层次,即:事实概念规则启发式知识,呈金字塔式分布n事实是关于对象、符号和事件之间各种关系

5、的知识,处于知识金字塔的最下层n概念是关于具有共同属性的一组对象、事件或符号的知识n规则是一组操作与步骤,是一种形式化的知识表示方法n启发式知识是关于规则的知识,是事实、概念和规则的集合,处于知识金字塔的顶层 知识与知识元 n知识元是一类特殊的知识,是指“不可再分割的具有完备知识表达的知识单位,它是构成知识结构的基元”n对应于与知识的金字塔结构,知识元属于事实类、概念类的知识 知识的表示方法 n知识表示是人工智能研究的基础问题n比较经典的知识表示方法:n有状态空间表示法n谓词逻辑表示法n产生式规则表示法n语义网络表示法n框架表示法n概念从属表示法n脚本表示法n面向对象的表示法n面向过程的表示法

6、n本体表示法等知识元的表示 n知识元的表示是知识检索应用最为基础的工作n知识元的表示是人们为了描述知识元所作的一组约定,是知识元的符号化和形式化的过程,主要涉及知识元的表示形式、表示与控制的关系、表示与推理的关系及表示与其他领域的关系等方面n作为一类特殊的、最基本的知识,知识元的表示与组织方法几乎完全源自经典的知识表示方法 知识元的表示 n对于不同类型的知识元子集,人们选择不同的特征集来描述知识元n为了防止特征集合不能充分描述知识元中的信息,人们通常增加一个内容属性来保存使用自然语言描述的知识元。 知识元的表示 n1)学者周宁在文献中采用2元组(Name,value)来标记一个知识元,并使用框

7、架表示法对抽取到的知识元进行有效组织。每个知识元有一个名(Name)和一个值(Value)。名体现了知识元的意义,值是被抽取的信息。n2)肖洪等学者在文献中使用6元组(时间,主体,指标,谓词,数值,单位)来表示数值型知识元的结构,数值知识元主体是数值知识元的描述对象,如行政区域、行业等。实例:(2005年,盘龙区,工业总产值,完成,62.93,亿元)知识元的表示 n3)毕经元等学者在文献中使用5元组(名称,内容,作用,链接,知识来源)来表示汽车零部件知识元的结构,知识元之间的链接根据知识元对象属性的逻辑关系完成,知识元内容使用自然语言形式的文本进行表示。 知识元的表示 n4)王泰森等学者在文献

8、中使用15元组来表示文本型知识元的结构。各层次知识元的组织录入对应都柏林核心集元素的要求,具有题名、作者、主题、描述、出版者、其他责任者、日期、类型、格式、标识符、来源、语种、关联、覆盖范围、权限15个元素内容。n元素中“主题”包括知识元的关键词、主题词、中国图书馆分类法分类号。n“来源”揭示了录入知识元文件所涉及的文献的名称、出版编号目录。n“关联”包括参考文献、知识元关联、数据库关联、教学关联。 知识元的表示 n5)学者肖怀志在其博士学位论文中使用3元组(历史年代,知识元内容,出处)表示历史年代知识元。n为便于进行历史年代知识元的检索,文中建立了三国时期历史年代本体,使用本体方式将历史年代

9、相关的概念及其关系方面的知识有效地组织起来知识元的表示 n6)温有奎等学者在文献中用3元组(对象名,属性集,状态集)来表示数值型知识元的结构,并细化为表示数值型知识元实体的模型NKE 表1 数据检索、信息检索与知识检索的比较比较项比较项数据检索数据检索信息检索信息检索知识检索知识检索匹配布尔匹配部分匹配,最佳匹配部分匹配,最佳匹配推理演绎推理归纳推理演绎推理,归纳推理,联想推理,类比推理模型确定性模型统计模型和概率模型语义模型+推理模型查询人工语言自然语言知识结构+自然语言组织表,索引表,索引知识单元(knowledge unit)和知识结构表示数,规则自然语言,标记语言概念图,谓词逻辑,产生

10、式规则,框架,语义网络,本体存储数据库文件集合知识库检索结果数据集部分或文件集知识单元集知识元的检索 n在知识元检索系统中,检索对象是知识元,返回的检索结果是知识元集合;n检索对象通常用n元组表示,查询式通常用带通配符的n元组表示(这种n元组可称为知识元模式,代表一组知识元);n知识元资源与查询式的相关性匹配可采用经典的布尔模型方法,相关度是二值的,取值1或0。知识元的检索 n例如:查询式(历史年代:黄初元年,知识元内容:?,出处:三国志)可用于表述查询三国志中记载的黄初元年发生的事件,式中“?”是通配符,代表任意值;n查询式(历史年代:黄初元年,知识元内容:%魏%,出处:三国志)可用于表述查

11、询三国志中记载的黄初元年发生的与魏国有关的事件 知识单元的检索 n在知识单元检索系统中,检索对象是知识单元,返回的检索结果是知识单元集合。n知识单元是多个知识元的有机组合,可以看作微型知识网络,它是整个知识网络的一个片区。知识单元的检索 n现有的知识检索解决方案主要使用本体技术描述知识单元与知识集,知识单元与查询式通常均用本体方式表示。n基于本体技术的知识检索系统需要根据用户输入的知识需求以及用户相关的知识构造查询本体,应用查询本体在知识库中查询最相似的知识单元列表,并通过计算查询本体与知识单元本体的相似度对检索结果排序 知识单元的检索 n在利用已有的知识本体对查询本体进行扩展时,过度扩展会导

12、致搜索效率恶化以及检索到过多的不相关目标。n为防止过度扩展,应该构造合适的查询扩展算法对查询表达进行最低限度地扩展 知识相关性度量 n知识检索中涉及到的知识相关性可以分为两种类型:n一种是知识元(或知识单元)与知识元(或知识单元)的相关性n一种是知识元(或知识单元)与知识需求的相关性n现有的研究主要探讨第一种相关性 知识相关性度量 n概念可看成是一类特殊的知识元n概念的语义相关性(或称语义相似性)是计算语言学领域的一个研究热点n相关方法大致可以分为两种类型:n一类是统计方法,根据两个概念在上下文中出现的频率计算概念间语义相似度n一类是基于语义词典的方法,利用WordNet、HowNet等词典或者某些领域本体中的词间关系或者义原组成的树状层次体系结构计算概念之间的信息熵或语义距离,并进一步转化为概念间语义相似度知识相关性度量 n概

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论