




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 人工智能与自然语言检索,信息存储与检索,本章目录,第一节 引言 第二节 人工智能技术 第三节 智能检索 第四节 自然语言检索 第五节 跨语言检索,信息存储与检索,第一节 引言,人工智能技术在信息检索领域的应用,使其检索系统的智能化水平得到了显著提高。以自然语言理解技术为基础的信息检索系统将把信息检索从目前基于关键词层面提高到基于知识层面,对知识有一定的理解与处理能力。,信息存储与检索,第二节 人工智能技术,7.2.3 知识发现,3,3,7.2.4 信息抽取与知识抽取,4,信息存储与检索,7.2.1 专家系统,(一)专家系统的特征 (1)具备某个应用领域的专家级知识; (2)能模拟专家的思维; (3)能达到专家级的解题水平。,信息存储与检索,7.2.1 专家系统,专家系统与传统的计算机程序的区别 (1)编程思想不同 专家系统=知识库+推理机 传统程序=数据+算法 (2)解释功能不同 (3)求解能力不同 (4)处理对象不同 (5)求解问题的方式不同,信息存储与检索,7.2.1 专家系统,(二)专家系统的工作原理 专家系统的工作方式 运用知识,进行推理 专家系统的组成部分 知识库 推理机 知识获取 人机接口 数据库 解释机构,信息存储与检索,7.2.2 数据挖掘,(一)数据挖掘的含义与标准 数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。 目前,数据挖掘的标准化包括以下三个标准:CRISP-DM;PMML;OLE DB For DM。,信息存储与检索,7.2.2 数据挖掘,(二)数据挖掘的功能 自动预测趋势和行为。 关联分析。 聚类。 概念描述 偏差检测,信息存储与检索,7.2.2 数据挖掘,(三)数据挖掘的主要技术 决策树法,输出结果容易理解,实用效果好,影响也较大。 神经网络法,更适合用于非线性数据和含噪声的数据,在市场数据分析和建模方面有广泛的应用。 遗传算法,适合于聚类分析,它简单而且优化的效果好。 统计分析方法是利用统计学、概率论的原理对数据库中的信息进行统计分析,从而找出它们之间的关系和规律。,信息存储与检索,7.2.2 数据挖掘,粗集方法,适合于不精确、不确定、不完全的信息分类和知识获取。 可视化方法,是一种辅助方法,它用比较直观的图形图表方式来表现挖掘出来的模式,大大拓宽了数据的表达和理解力,使用户更加了解挖掘出的数据。,信息存储与检索,7.2.3 知识发现,(一)知识发现的定义 知识发现是从大量数据集中辨识出有效的、新颖的、潜在有用的、并可被理解的模式的高级处理过程。,信息存储与检索,7.2.3 知识发现,(二)知识发现的过程 知识发现过程可以归纳为三个步骤:数据准备、数据挖掘、结果解释和评价。,信息存储与检索,7.2.3 知识发现,(三)知识发现平台 SPSS为用户提供揭示客户关系、预测客户行为的解决方案,并把客户关系管理和商业智能有机的结合在一起,建立与客户之间的互动关系。 Intelligent Miner具有典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化显示等功能。 Clementine提供了一个可视化的快速建立模型的环境。它由数据获取、探查、整理、建模和报告等部分组成。,信息存储与检索,7.2.3 知识发现,MSMiner是一种多策略知识发现平台,能够提供快捷有效的数据挖掘解决方案,提供多种知识发现方法。 SAS Enterprise Miner通过收集分析各种统计资料和客户购买模式,帮助企业发现业务的趋势,解释已知的事实,预测未来的结果,并识别出完成任务所需的关键因素,以实现增加收人、降低成本的目标。,信息存储与检索,7.2.4 信息抽取与知识抽取,(一)信息抽取 信息抽取是从一段文本中抽取信息,并将其形成结构化、规范化的数据 。 信息抽取和信息检索有本质的区别:信息检索的目的是根用户的查询请求从文档库中找出相关的文档,用户必须从找到的文档中提取自己所要的信息;而信息抽取直接从文档中取出相关信息点,不需要用户对文档做进一步分析。这两种技术是互补的,若结合起来可以为文本处理提供强大的工具。,信息存储与检索,7.2.4 信息抽取与知识抽取,(二)信息抽取技术的评测指标 抽全率可粗略地看成是测量正确抽取的信息比例,而抽准率用来测量抽出的信息中有多少是正确的。计算公式如下: R=抽出的正确信息点数/所有正确的信息点数 P=抽出的正确信息点数/所有抽出的信息点数 两者的取值在0和1之间,通常两者是反比关系 F值评价方法: 式中,是一个预设值,决定对P侧重还是对R侧重,通常设定为1,这样用F这个数值就可反映系统的质量。,信息存储与检索,7.2.4 信息抽取与知识抽取,(三)知识抽取 知识抽取是从现有的信息(尤其是非结构化的文本)中抽取结构化的、上下文依赖的知识的过程。 知识抽取起源于传统信息抽取而又有别于信息抽取:传统的信息抽取并不试图从内容上全面地、深层次地理解文档,而知识抽取则建立在信息抽取的基础之上,使用了语义网技术,从知识表示和推理的角度来实现知识的自动(半自动)抽取。,信息存储与检索,7.3.3 智能检索系统与应用,3,第三节 智能检索,信息存储与检索,7.3.1 智能检索接口,智能检索接口用于完成智能检索系统的信息输入输出工作,它是系统和用户交流的界面,它能理解、分析用户的自然语言提问,并产生适合用户的结果,还具有解释功能,对自己的行为做出解释。 智能检索接口能向用户提供友好的界面,完成各种交互活动;检验用户输入和系统输出的正确性、一致性;控制程序流程,对用户输入作出快速反应或者控制其它设备正确有效地工作。,信息存储与检索,7.3.1 智能检索接口,设计智能检索接口应考虑的问题 9条可用性原则 人机对话简明、自然,用户用自然语言检索,检索工具可以识别自然语言并作出反馈 使用用户的语言,可以跨语言检索 应具备自学习功能,自动识别用户的兴趣并根据用户使用习惯自动修正、完善用户兴趣,在搜索时根据用户兴趣进行优化排序,形成符合人性化要求的搜索结果,减轻用户的记忆负担 促进一致性的实现 提供返回信息 提供清楚的出口标记 对于用户经常使用的动作提供快捷键,方便用户操作 提供有效的出错处理信息 能够防止出错 考虑人和机器两个方面的因素 交叉树索引和对象的分解匹配与综合,信息存储与检索,7.3.2 智能检索技术,(一)自然语言处理技术 信息检索中常常使用到的自然语言处理技术包括 (1)去除禁用词 (2)分词(如农作物) (3)取词根(形如org、Europe) (4)短语识别 (5)命名实体识别 (6)指代消解 (7)词义消歧 (8)用户查询的消歧 (二)基于概念的语义智能检索技术 系统基于对概念内涵的理解以及用户提交的关键词所表达的概念作为搜索依据,能同时对该词的同义词、近义词、广义词、狭义词进行检索。 (三)基于Agent的智能检索技术 基于多Agent的智能检索体系主要包括User Agent、Spider Agent和Collector Agent。,信息存储与检索,7.3.3 智能检索系统与应用,(一)智能检索系统的组成和功能 智能信息检索系统由知识库、文本处理和智能接口三部分组成 。 智能检索系统一般具有以下功能: (1)能理解自然语言,允许用自然语言提出各种询问。 (2)具有推理能力,能根据存储的事实,演绎出所需要的答案。 (3)系统拥有一定常识性知识,以补充学科范围的专业知识。,信息存储与检索,7.3.3 智能检索系统与应用,(二)几种典型的智能信息检索系统 SavvySearch系统是一个应用了元搜索技术的中介搜索系统,它采用基于经验学习的优化选择搜索引擎方法,具有智能地选择多个远程搜索引擎以及与其交互的能力。 Excite应用了检索词“智能概念提取”技术,对用户输入的关键字进行扩展。 一些用户个性化信息检索系统,如WebWatcher、ShoPBot、Fab等,都是一些基于Agent的智能化的程序,主要通过学习用户的历史关联信息,在线引导用户检索感兴趣的信息。,信息存储与检索,7.4.2 基于语法分析的自然语言检索,2,第四节 自然语言检索,7.4.3 基于语义分析的自然语言检索,3,3,7.4.4 基于本体的自然语言检索,4,信息存储与检索,7.4.1 自然语言理解,(一)自然语言理解的原理 自然语言理解分为语音理解和书面理解两个方面 。 语音理解是指用口语语音输入,使计算机“听懂”语音信号,用文字或语音合成输出应答 。 书面理解是指用文字输入,使计算机“看懂”文字符号,也用文字输出应答 。,信息存储与检索,7.4.1 自然语言理解,(二)自然语言理解的层次 (1)语音学层次,对语言声音的识别、理解和合成 。 (2)词形学层次,对各种词形和词的可识别部分的处理。 (3)词汇学层次,重点在于对词操作和词汇系统的控制。 (4)句法层次,它与语言结构单元的鉴别有关 。 (5)语义层次,对自然语言文本意义的识别、理解和表示 。 (6)语用学层次,涉及上下文和语言交际环境以及背景意义和联想意义的语义分析。,信息存储与检索,7.4.1 自然语言理解,(三)自然语言理解在信息检索中的应用 自然语言理解在信息检索中的应用可以体现在一个或多个语言处理层次上,既可以仅应用于查询,也可以同时应用于查询和被检索的文本。由于语言的各个层次都包含了一定的含义,能够传递一定的信息,每个层次上的自然语言理解都能对提高检索效率有一定程度的帮助。,信息存储与检索,7.4.2 基于语法分析的自然语言检索,(一)基于词法分析的自然语言检索 词法分析方法对文本、网页首先进行词语切分,然后通过词频统计和词出现位置的判断,在文本和网页中提取主题词和概念词,作为索引。同样从用户提问中筛选出有检索意义的一个或多个词单元,各个单元词之间构建相应的逻辑关系。 基于词法分析的方法主要包括加权统计法、N元法、统计学习方法。,信息存储与检索,7.4.2 基于语法分析的自然语言检索,(二)自然语言检索中的句法分析 句法分析是对句子和短语的结构进行分析。句法分析的方法有很多,有短语结构语法、格语法、扩充转移网络和功能语法等。句法处理,即根据文字的语法知识,通过对句型结构的分析,自动抽取复杂的标识单元来代替由统计方法得到的关键词进行标引。,信息存储与检索,7.4.3 基于语义分析的自然语言检索,(一)语义分析理论 语义分析理论涉及到语义分析方法的语义关系类型和语义关系的形式化表示等内容。语义关系类型是指某种标准归纳句子内各部分之间的语义关系共性,语义关系的形式化表示是指从各种句子的具体语义中抽象概括出共同的语义关系适用的符号表示。 现有的语义分析理论主要有:格语法、语义网络、概念从属理论和框架分析法等,信息存储与检索,7.4.3 基于语义分析的自然语言检索,(二)自然语言检索中的语义分析 在自然语言检索中,语义分析是在词法分析和句法分析的基础上进行的,这三个分析步骤的组合方式有语义解释方式、语义分析方式、句法语义混合方式和语义驱动方式。,词法分析,句法分析,语义分析,词法分析,句法分析,语义分析,词法分析,句法分析 语义分析,词法分析 句法分析 语义分析,a)语义解释,b) 语义分析,c) 句法语义混合,d) 语义驱动,信息存储与检索,7.4.4 基于本体的自然语言检索,(一)本体在自然语言检索中的作用 本体在自然语言检索系统中的作用体现在三个方面: 改善对信息源的处理; 优化用户界面; 辅助自然语言处理过程。,信息存储与检索,7.4.4 基于本体的自然语言检索,(二)基于本体的自然语言检索实现方法 基于本体的自然语言检索系统整体上由本体管理模块、问题处理模块、文本预处理模块、信息检索模块、库文件管理模块组成,实现算法概括如下: (1)在领域专家的帮助下,建立相关领域的本体。 (2)收集信息源中的数据,并参照已建立的本体,把收集来的数据按规定的格式存储在元数据库中。 (3)按照本体把查询请求转换成规定的格式,从元数据库中匹配出符合条件的数据集合。 (4)检索的结果经过定制处理后,返回给用户。,信息存储与检索,7.5.2 跨语言检索中的语言资源,2,7.5.3 跨语言检索的关键技术,3,3,7.5.4 提问式翻译的几种方法,4,第五节 跨语言检索,信息存储与检索,7.5.1 跨语言检索实现模式,(一)提问式翻译方法 在信息检索之前,将提问式的语种转化翻译成所要检索信息的信息语种。 (二)文献翻译方法 不对提问式进行翻译,而是把数据库中用目标语言描述的文献翻译成与提问描述相一致的源语言形式 (三)提问式文献翻译方法 首先将源语言提问式翻译成目标语言提问式,然后与目标语言描述的信息库进行匹配,再把检索结果的全部或部分翻译成源语言描述的信息。,信息存储与检索,7.5.1 跨语言检索实现模式,(四)中间翻译方法 将源语言翻译成中间语言(可以是一种或多种),然后再将中间语言翻译成目标语言(利用多种中间语言时需要合并)。 (五)不翻译方法 不需要词典、词表和机器翻译系统, 也不存在翻译过程中消除歧义问题, 具有很高的灵活性和适应性,信息存储与检索,7.5.1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 河道整治项目的公共参与与沟通方案
- 混凝土搅拌与施工环境优化方案
- 晨练活动策划方案
- 双师型教师职业能力发展路径与策略研究
- 2025年临床医师考试试题及答案
- 居住区园林绿化施工与养护管理技术
- 2025年制冷考研真题试卷及答案
- 2025年福清事业单位真题
- 2024年遂宁招聘社区工作者考试真题
- 2024年眉山市检察系统考试真题
- 湘潭钢铁集团有限公司2026届校园操作类招聘备考考试题库附答案解析
- 合肥市社会化工会工作者招聘考试真题2024
- 恐龙妈妈藏蛋课件
- 2025浙江杭州市西湖区民政局招聘编外合同制工作人员3人笔试备考试题附答案详解(满分必刷)
- 静脉留置针应用及维护
- 演讲与朗诵教学课件
- 《中国急性肾损伤临床实践指南(2023版)-》解读
- 乳腺增生病讲座
- 安全监理现场巡视检查记录表
- GB/T 40549-2021焦炭堆积密度小容器测定方法
- “一村一辅警”人员登记表
评论
0/150
提交评论