




已阅读5页,还剩37页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第七章 人工智能与自然语言检索 本章目录 第一节 引言 第二节 人工智能技术 第三节 智能检索 第四节 自然语言检索 第五节 跨语言检索 信息存储与检索 第一节 引言 v人工智能技术在信息检索领域的应用,使其检索 系统的智能化水平得到了显著提高。以自然语言 理解技术为基础的信息检索系统将把信息检索从 目前基于关键词层面提高到基于知识层面,对知 识有一定的理解与处理能力。 信息存储与检索 第二节 人工智能技术 7.2.1 专家系统1 7.2.2 数据挖掘2 7.2.3 知识发现3 3 7.2.4 信息抽取与知识抽取4 信息存储与检索 7.2.1 专家系统 (一)专家系统的特征 (1)具备某个应用领域的专家级知识; (2)能模拟专家的思维; (3)能达到专家级的解题水平。 信息存储与检索 7.2.1 专家系统 v专家系统与传统的计算机程序的区别 (1)编程思想不同 专家系统=知识库+推理机 传统程序=数据+算法 (2)解释功能不同 (3)求解能力不同 (4)处理对象不同 (5)求解问题的方式不同 信息存储与检索 7.2.1 专家系统 (二)专家系统的工作原理 v专家系统的工作方式 运用知识,进行推理 v专家系统的组成部分 知识库 推理机 知识获取 人机接口 数据库 解释机构 信息存储与检索 7.2.2 数据挖掘 (一)数据挖掘的含义与标准 数据挖掘是从大量的、不完全的、有噪声的、模 糊的、随机的实际应用数据中,提取隐含在其中 的、人们事先不知道的、但又是潜在有用的信息 和知识的过程。 目前,数据挖掘的标准化包括以下三个标准: CRISP-DM;PMML;OLE DB For DM。 信息存储与检索 7.2.2 数据挖掘 (二)数据挖掘的功能 v自动预测趋势和行为。 v关联分析。 v聚类。 v概念描述 v偏差检测 信息存储与检索 7.2.2 数据挖掘 (三)数据挖掘的主要技术 v决策树法,输出结果容易理解,实用效果好,影 响也较大。 v神经网络法,更适合用于非线性数据和含噪声的 数据,在市场数据分析和建模方面有广泛的应用 。 v遗传算法,适合于聚类分析,它简单而且优化的 效果好。 v统计分析方法是利用统计学、概率论的原理对数 据库中的信息进行统计分析,从而找出它们之间 的关系和规律。 信息存储与检索 7.2.2 数据挖掘 v粗集方法,适合于不精确、不确定、不完全的信 息分类和知识获取。 v可视化方法,是一种辅助方法,它用比较直观的 图形图表方式来表现挖掘出来的模式,大大拓宽 了数据的表达和理解力,使用户更加了解挖掘出 的数据。 信息存储与检索 7.2.3 知识发现 (一)知识发现的定义 v知识发现是从大量数据集中辨识出有效的、新颖 的、潜在有用的、并可被理解的模式的高级处理 过程。 信息存储与检索 7.2.3 知识发现 (二)知识发现的过程 v知识发现过程可以归纳为三个步骤:数据准备、 数据挖掘、结果解释和评价。 信息存储与检索 7.2.3 知识发现 (三)知识发现平台 vSPSS为用户提供揭示客户关系、预测客户行为的 解决方案,并把客户关系管理和商业智能有机的 结合在一起,建立与客户之间的互动关系。 vIntelligent Miner具有典型数据集自动生成、关 联发现、序列规律发现、概念性分类和可视化显 示等功能。 vClementine提供了一个可视化的快速建立模型的 环境。它由数据获取、探查、整理、建模和报告 等部分组成。 信息存储与检索 7.2.3 知识发现 vMSMiner是一种多策略知识发现平台,能够提供 快捷有效的数据挖掘解决方案,提供多种知识发 现方法。 vSAS Enterprise Miner通过收集分析各种统计资 料和客户购买模式,帮助企业发现业务的趋势, 解释已知的事实,预测未来的结果,并识别出完 成任务所需的关键因素,以实现增加收人、降低 成本的目标。 信息存储与检索 7.2.4 信息抽取与知识抽取 (一)信息抽取 v信息抽取是从一段文本中抽取信息,并将其形成 结构化、规范化的数据 。 v信息抽取和信息检索有本质的区别:信息检索的 目的是根用户的查询请求从文档库中找出相关的 文档,用户必须从找到的文档中提取自己所要的 信息;而信息抽取直接从文档中取出相关信息点 ,不需要用户对文档做进一步分析。这两种技术 是互补的,若结合起来可以为文本处理提供强大 的工具。 信息存储与检索 7.2.4 信息抽取与知识抽取 (二)信息抽取技术的评测指标 v 抽全率可粗略地看成是测量正确抽取的信息比例,而抽准 率用来测量抽出的信息中有多少是正确的。计算公式如下 : v R=抽出的正确信息点数/所有正确的信息点数 v P=抽出的正确信息点数/所有抽出的信息点数 两者的取值在0和1之间,通常两者是反比关系 F值评价方法: 式中,是一个预设值,决定对P侧重还是对R侧重,通常 设定为1,这样用F这个数值就可反映系统的质量。 信息存储与检索 7.2.4 信息抽取与知识抽取 (三)知识抽取 v知识抽取是从现有的信息(尤其是非结构化的文 本)中抽取结构化的、上下文依赖的知识的过程 。 v知识抽取起源于传统信息抽取而又有别于信息抽 取:传统的信息抽取并不试图从内容上全面地、 深层次地理解文档,而知识抽取则建立在信息抽 取的基础之上,使用了语义网技术,从知识表示 和推理的角度来实现知识的自动(半自动)抽取。 信息存储与检索 7.3.1 智能检索接口1 7.3.2 智能检索技术2 7.3.3 智能检索系统与应用 3 第三节 智能检索 信息存储与检索 7.3.1 智能检索接口 v智能检索接口用于完成智能检索系统的信息输入 输出工作,它是系统和用户交流的界面,它能理 解、分析用户的自然语言提问,并产生适合用户 的结果,还具有解释功能,对自己的行为做出解 释。 v智能检索接口能向用户提供友好的界面,完成各 种交互活动;检验用户输入和系统输出的正确性 、一致性;控制程序流程,对用户输入作出快速 反应或者控制其它设备正确有效地工作。 信息存储与检索 7.3.1 智能检索接口 设计智能检索接口应考虑的问题 v 9条可用性原则 人机对话简明、自然,用户用自然语言检索,检索工具可以识别自然语言并 作出反馈 使用用户的语言,可以跨语言检索 应具备自学习功能,自动识别用户的兴趣并根据用户使用习惯自动修正、完 善用户兴趣,在搜索时根据用户兴趣进行优化排序,形成符合人性化要求的 搜索结果,减轻用户的记忆负担 促进一致性的实现 提供返回信息 提供清楚的出口标记 对于用户经常使用的动作提供快捷键,方便用户操作 提供有效的出错处理信息 能够防止出错 v 考虑人和机器两个方面的因素 v 交叉树索引和对象的分解匹配与综合 信息存储与检索 7.3.2 智能检索技术 (一)自然语言处理技术 v 信息检索中常常使用到的自然语言处理技术包括 (1)去除禁用词 (2)分词(如农作物) (3)取词根(形如org、Europe) (4)短语识别 (5)命名实体识别 (6)指代消解 (7)词义消歧 (8)用户查询的消歧 (二)基于概念的语义智能检索技术 v 系统基于对概念内涵的理解以及用户提交的关键词所表达的概念作为 搜索依据,能同时对该词的同义词、近义词、广义词、狭义词进行检 索。 (三)基于Agent的智能检索技术 v 基于多Agent的智能检索体系主要包括User Agent、Spider Agent 和Collector Agent。 信息存储与检索 7.3.3 智能检索系统与应用 (一)智能检索系统的组成和功能 v智能信息检索系统由知识库、文本处理和智能接 口三部分组成 。 v智能检索系统一般具有以下功能: (1)能理解自然语言,允许用自然语言提出各种询 问。 (2)具有推理能力,能根据存储的事实,演绎出所 需要的答案。 (3)系统拥有一定常识性知识,以补充学科范围的 专业知识。 信息存储与检索 7.3.3 智能检索系统与应用 (二)几种典型的智能信息检索系统 vSavvySearch系统是一个应用了元搜索技术的中 介搜索系统,它采用基于经验学习的优化选择搜 索引擎方法,具有智能地选择多个远程搜索引擎 以及与其交互的能力。 vExcite应用了检索词“智能概念提取”技术,对用 户输入的关键字进行扩展。 v一些用户个性化信息检索系统,如WebWatcher、 ShoPBot、Fab等,都是一些基于Agent的智能 化的程序,主要通过学习用户的历史关联信息, 在线引导用户检索感兴趣的信息。 信息存储与检索 7.4.2 基于语法分析的自然语言检索 2 第四节 自然语言检索 7.4.1 自然语言理解 1 7.4.3 基于语义分析的自然语言检索3 3 7.4.4 基于本体的自然语言检索 4 信息存储与检索 7.4.1 自然语言理解 (一)自然语言理解的原理 v自然语言理解分为语音理解和书面理解两个方面 。 v语音理解是指用口语语音输入,使计算机“听懂” 语音信号,用文字或语音合成输出应答 。 v书面理解是指用文字输入,使计算机“看懂”文字 符号,也用文字输出应答 。 信息存储与检索 7.4.1 自然语言理解 (二)自然语言理解的层次 (1)语音学层次,对语言声音的识别、理解和合成 。 (2)词形学层次,对各种词形和词的可识别部分的 处理。 (3)词汇学层次,重点在于对词操作和词汇系统的 控制。 (4)句法层次,它与语言结构单元的鉴别有关 。 (5)语义层次,对自然语言文本意义的识别、理解 和表示 。 (6)语用学层次,涉及上下文和语言交际环境以及 背景意义和联想意义的语义分析。 信息存储与检索 7.4.1 自然语言理解 (三)自然语言理解在信息检索中的应用 自然语言理解在信息检索中的应用可以体现在一 个或多个语言处理层次上,既可以仅应用于查询 ,也可以同时应用于查询和被检索的文本。由于 语言的各个层次都包含了一定的含义,能够传递 一定的信息,每个层次上的自然语言理解都能对 提高检索效率有一定程度的帮助。 信息存储与检索 7.4.2 基于语法分析的自然语言检索 (一)基于词法分析的自然语言检索 v词法分析方法对文本、网页首先进行词语切分, 然后通过词频统计和词出现位置的判断,在文本 和网页中提取主题词和概念词,作为索引。同样 从用户提问中筛选出有检索意义的一个或多个词 单元,各个单元词之间构建相应的逻辑关系。 v基于词法分析的方法主要包括加权统计法、N元法 、统计学习方法。 信息存储与检索 7.4.2 基于语法分析的自然语言检索 (二)自然语言检索中的句法分析 句法分析是对句子和短语的结构进行分析。句法 分析的方法有很多,有短语结构语法、格语法、 扩充转移网络和功能语法等。句法处理,即根据 文字的语法知识,通过对句型结构的分析,自动 抽取复杂的标识单元来代替由统计方法得到的关 键词进行标引。 信息存储与检索 7.4.3 基于语义分析的自然语言检索 (一)语义分析理论 v语义分析理论涉及到语义分析方法的语义关系类 型和语义关系的形式化表示等内容。语义关系类 型是指某种标准归纳句子内各部分之间的语义关 系共性,语义关系的形式化表示是指从各种句子 的具体语义中抽象概括出共同的语义关系适用的 符号表示。 v现有的语义分析理论主要有:格语法、语义网络 、概念从属理论和框架分析法等 信息存储与检索 7.4.3 基于语义分析的自然语言检索 (二)自然语言检索中的语义分析 v在自然语言检索中,语义分析是在词法分析和句 法分析的基础上进行的,这三个分析步骤的组合 方式有语义解释方式、语义分析方式、句法语义 混合方式和语义驱动方式。 词法分析 句法分析 语义分析 词法分析 句法分析 语义分析 词法分析 句法分析 语义分析 词法分析 句法分析 语义分析 a)语义解释b) 语义分析c) 句法语义混合d) 语义驱动 信息存储与检索 7.4.4 基于本体的自然语言检索 (一)本体在自然语言检索中的作用 本体在自然语言检索系统中的作用体现在三个方面 : v改善对信息源的处理; v优化用户界面; v辅助自然语言处理过程。 信息存储与检索 7.4.4 基于本体的自然语言检索 (二)基于本体的自然语言检索实现方法 v基于本体的自然语言检索系统整体上由本体管理 模块、问题处理模块、文本预处理模块、信息检 索模块、库文件管理模块组成,实现算法概括如 下: (1)在领域专家的帮助下,建立相关领域的本体。 (2)收集信息源中的数据,并参照已建立的本体, 把收集来的数据按规定的格式存储在元数据库中 。 (3)按照本体把查询请求转换成规定的格式,从元 数据库中匹配出符合条件的数据集合。 (4)检索的结果经过定制处理后,返回给用户。 信息存储与检索 7.5.2 跨语言检索中的语言资源 2 7.5.1 跨语言检索实现模式1 7.5.3 跨语言检索的关键技术3 3 7.5.4 提问式翻译的几种方法 4 第五节 跨语言检索 信息存储与检索 7.5.1 跨语言检索实现模式 (一)提问式翻译方法 v在信息检索之前,将提问式的语种转化翻译成所要 检索信息的信息语种。 (二)文献翻译方法 v不对提问式进行翻译,而是把数据库中用目标语 言描述的文献翻译成与提问描述相一致的源语言 形式 (三)提问式文献翻译方法 v首先将源语言提问式翻译成目标语言提问式,然 后与目标语言描述的信息库进行匹配,再把检索 结果的全部或部分翻译成源语言描述的信息。 信息存储与检索 7.5.1 跨语言检索实现模式 (四)中间翻译方法 v将源语言翻译成中间语言(可以是一种或多种) ,然后再将中间语言翻译成目标语言(利用多种 中间语言时需要合并)。 (五)不翻译方法 v不需要词典、词表和机器翻译系统, 也不存在翻译 过程中消除歧义问题, 具有很高的灵活性和适应性 信息存储与检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农村金融服务创新与普惠金融发展研究报告(2025年)
- 维保合同解约协议书范本
- 火灾救人受伤赔偿协议书
- 猫宠物买卖合同协议模板
- 村民入股企业合同协议书
- 甘肃农业大学实习协议书
- 深圳劳动合同续订协议书
- 阴阳合同免责声明协议书
- 洗浴中心赔偿协议书模板
- 绿点合同解除协议书范本
- 公司团建活动出游方案
- 农业新质生产力:发展意义与实践要点探讨
- 金属电梯门套施工方案
- 城市低空空域智能管控系统的构建与实践探索
- 岗位职责安全生产责任制签订协议书6篇
- 郑伯克段于鄢
- 《煤矿工作面机械设备选型及供电设计》11000字
- 特征值提取方法优化研究-洞察分析
- 化工新材料公司项目监理规划
- 印章交接表(可编辑)
- 《退役军人保障法》知识学习考试题库及答案(供参考)
评论
0/150
提交评论