




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、人工智能在跨语言信息检索中的应用本文从网络收集而来,上传到平台为了帮到更多的人,如果您需要使用本文档, 请点击下载按钮下载本文档(有偿下载),另外祝您生活愉快,工作顺利,万事 如意!人工智能是计算机科学的一个分支,是研究、开 发用于模拟、延伸和扩展人的智能的理论、方法、技 术及应用系统的一门技术科学,在许多科学领域都获 得了广泛应用,网络信息检索就是其中一个非常重要 的应用。文章介绍了信息检索的基本概念和人工智能 的常用方法,指出跨语言检索已越来越成为信息检索 的一个重要方向;对跨语言检索的实现模式、语言学资 源、实现的关键技术问题进行了阐述;并展望了人工智 能领域的发展前景。0引言人工智能(
2、Artificial Intelligence)是当前科学技术 发展中的一门前沿学科,是在计算机科学、控制论、 信息论、神经心理学、语言学等多种学科基础上发展 起来的一门综合性很强的边缘学科。它是研究机器模 拟人的大脑所从事的感觉、认知、记忆、学习、联想 等思维活动,解决人类才能处理的复杂问题,实质上是模仿人的大脑而展开思考1。目前,人工智能技术 已经应用在许多方面,而信息检索(Information Retrieval)就是其中的一个重要应用。1信息检索系统概述人类解决问题的方法之一就是不断地尝试,即逐 个地检验可能解决问题的每个方法,直至找到一个可 行的方法为止。但是这种盲目的搜索法,随着
3、问题规 模扩大,可能组合的数量也就增长的越大,组合爆炸” 效应使得这种方法并不能解决大而复杂的问题。完整的信息检索应包括信息的存储和检索两个过 程,主要针对的是单一语种的文档集,其查询语言通 常为单一语种。而如今的趋势是人们所面对的信息资 源不再是单一语种,而是用不同语言表达的信息汇聚 在一个集合中。因而多语言问题日益成为信息共享的 一个主要障碍,基于此,跨语言检索则成为解决这一 问题的一个最佳方案2。2人工智能的基本方法人工智能就是为了帮助人们更快的解决问题,它 包括两方面:对于确定性事物的判断和对于不确定性 事物的判断,它的主要方法包括以下几种。启发式搜索不断地尝试各种方案的准确性,对各种
4、可能性进 行反复测试,直到找到合适的解决方案,是人们常用 的方法。常用的搜索策略有盲目搜索和启发式搜索。 盲目搜索是按顺序测试各种方案的可行性 ;而启发式 搜索则可以根据经验和启发式信息进行搜索,对希望 不大的搜索方向就直接摒弃掉。启发式搜索可以利用问题本身的定义,还可以利 用与问题有关的一些特定的知识进行搜索,因而可以 找到更有效的解决方案,大大缩短了搜索过程。智能规划智能规划主要是面向实际问题,基本思想是:对 周围环境进行认识与分析,根据要实现的目标,对若 干可供选择的动作及所提供的资源限制施行推理,综 合制定出实现目标的规划。规划要依靠启发式信息, 成功与否,很大程度上决定于启发信息的可
5、靠程度。 而智能规划问题的操作的前提之间也存在着很强的依 赖与冲突关系,即一个操作的使用常常使另一个操作 无法执行,甚至导致最终目标无法实现。因此,在智 能规划中也要考虑如何避免操作间的冲突。智能规划目的是建立起高效实用的智能规划系 统。该系统的主要功能可以描述为:给定问题的状态 描述、对状态描述进行变换的一组操作、初始状态和 目标状态。智能规划系统能够给出从初始状态变到目 标状态的一个操作序列,其复杂性和所处的环境以及 Agent的功能有关。知识的表达技术知识及其表达是计算机科学中智能程序设计研究 的主要领域,也是人工智能领域关心的基础性问题。 知识表达(Knowledge Represen
6、tation)即知识表示或知 识描述,也就是知识的形式化或模型化,是研究在机 器中表示知识的方法、可行性、有效性及一些通用的 原则。而智能程序,就是把现实世界的知识有机地结合到计算机程序中,使程序具有识别、学习、推理和 适应环境等能力。主要技术包括:如何把各类知识进 行编码、存储;如何快速寻找需要的知识;如何对知识进 行运算、推理;如何对知识进行更新、修改等3。3跨语言信息检索跨 语言信 息检索(Cross-language InformationRetrieval, CLIR),是指用户以一种语言提问,检出另 一种或几种语言描述的信息资源的信息检索技术和方 法。跨语言信息检索中,用户用以表达
7、自己的信息需 求,构造检索提问式的语言称为源语言(Source Language),被检索的信息资源所使用的语言称为目标 语言(Target Language)而要实现语言之间的转换,首 先要使计算机能理解自然语言文本的意义,然后能以 自然语言文本来表达给定的意图、思想等。例如自动 识别一份文档中所有被提及的人与地点;识别文档的核心议题;在一堆仅人类可读的合同中,将各种条款与 条件提取出来并制作成表;或者通过精心选定的某些 特征和文本中的某些元素结合来识别一段文字,通过 识别这些元素可以把某类文字同其他文字区别开来, 比如垃圾邮件同正常邮件等等。跨语言信息检索是在对自然语言理解的基础之 上,其
8、关键问题是要使查询语言与文档语言在检索之 前达成一致。使用户以一种语言提问,可以检索出另 一种语言或多种语言描述的相关信息。例如,输入中 文检索式,跨语言检索系统会返回英文、日文等语言 描述的信息,而且这些信息不仅仅是文本信息,还可 以是其他形式的信息。智能技术在跨语言检索的实现模式人工智能技术在信息检索系统的广泛应用,是人 工智能技术与信息技术的成功结合的结果。在跨语言 检索中,提问式所用的源语言一般是用户的母语,而 被检索的文档所使用的目标语言,一般是用户不熟悉 甚至完全陌生的语言。目前跨语言检索的主要实现方 法有提问式翻译方法、文献翻译方法、提问式-文献翻 译方法、中间翻译方法、专有名词
9、音译方法、基于本 体的转换方法等。而最常用的就是提问式翻译方法。跨语言检索中的语言学资源在跨语言检索中,两种或多种语言之间的翻译对 于跨语言检索的性能有重要影响,翻译必须以一定的 语言资源工具作基础,主要解决的问题是语言障碍, 在跨语言检索中,常用的语言学资源有手工编制双语 词典、机器可读词典、语料库等。手工编制双语词典是翻译人员进行翻译必备的工 具,具有准确、全面地优点,但在跨语言检索中难以 实现计算机的自动识别处理。机器可读词典是把手工词典以机器可读的编码形 式进行组织,便于实现两种语言在词汇层次上的对译, 但机器可读词典如不借助人工干预,则难以解决翻译 的歧义性问题。语料库,尤其是平行语
10、料库的应用,不仅改善了 词翻译的不确定性,而且对于专有名词的翻译有着重 要的意义,因为在平行语料库中,词与词之间的对应 是惟一的,很多在手工编制双语词典和机器可读词典 中不能获取的词都可以在平行语料库中得到。各种语言资源在跨语言检索中使用不是孤立的,同时使用两种或多种语言资源会达到更好的效果。跨语言检索的关键技术在跨语言检索中主要涉及的关键技术有计算机信 息检索技术、机器翻译技术和歧义消解技术。信息检 索技术完成提问式与文档之间的匹配,机器翻译技术 完成不同语言之间的语义对等,歧义消解技术则解决 翻译过程中的多义和歧义问题4。计算机信息检索技术计算机信息检索技术主要是自动搜索技术、自动 标引技
11、术、语言处理技术和自动匹配技术。检索系统 利用网络爬虫进行网络信息的收集,然后利用自动标 引技术对搜集的信息进行标引,使用相应的语言处理 技术,实现2种语言的相对应,形成索引数据库。用 户输入检索式,计算机把检索式与数据库中的索引项 进行匹配,按检索式与标引项相关度的大小排序输出 检索结果。其实现过程如图1所示。机器翻译技术在跨语言检索中,所要解决的问题实际上是一个 语言处理问题。不同于单一语种的语言信息检索和机 器翻译,也不是两种技术的简单叠加,而是一种有机 的融合,有着自身的特点和专门的研究内容。机器翻 译技术实质上是一种能够将一种语言的文本自动翻译 成另一种语言文本的计算机程序,核心是保
12、持两种文 本(源语言文本和目标语言文本)的语义对等5。由于 在翻译过程中,源语言文本中的词往往对应目标语言 描述的几个词,所以要选择最合适的词或相关处理以 达到意义上的一致。在跨语言检索中,翻译的准确性 直接决定了检索的准确性,准确性的提高需要利用自 然语言处理与机器翻译相结合的技术,而由于这涉及 复杂的计算机语义分析技术,因此机器翻译的效果还 远未达到人们所期望的水平。歧义消解技术跨语言信息检索涉及到两种语言之间的相互转 换,在此过程中主要会出现的问题是歧义问题,需要 解决自然语言文本和对话的各个层次上广泛存在的各 种各样的歧义性或多义性(ambiguity)o在自然语言中, 一词多义和一义
13、多词的现象是非常普遍的,对查询进 行处理时,确定检索词的确切含义是非常重要的,即 要把带有潜在歧义的自然语言输入转换成某种无歧义 的计算机内部表示,这需要大量的知识和推理。而对 被检索文献而言,要提高查准率,就需要明确文献中 出现的检索词的含义,以判断其相关性。跨语言信息检索中的歧义来自源语言和目标语言 两个方面,解决方法可以分为两类。一类是在一定程度上模仿人类解决歧异性的方 法,结合人工构造的语法学、词法学、句法学、语义 学等方面的知识,力求给出文本非歧义的解析表达。 但是机器要在这种全文本层次上实现正确有效的分析 是相当困难的,其性能水平无法与高昂的语言分析成 本相对应。因此,这类方法大都
14、局限在语言的特定子 集或较小的论域中。另一类是采用一些比较实用的方法,力图以较低 的成本达到较合理的性能水平。例如:通过对查询翻 译中根据上下文信息确定词性的词性标注技术;利用两个有一定关联的词共同出现在某一篇文献,或者文献的某一个部分的这种关联,来确定词含义的词的共 现技术;用来解决用户查询表达式比较简短,且缺少充 足的语境信息对其进行准确翻译问题的相关反馈技术 等。这些都在跨语言信息检索中扮演着重要角色。4结束语互联网的飞速发展,对我们的生活、工作将带来 巨大的影响,掌握信息检索已成为每个人须具备的基 本能力,因而信息获取和精化技术也就成为当代计算 机科学与技术中迫切需要研究的课题。如何更好地将 人工智能技术应用于这一领域,是人工智能走向广泛 实际应用的契机与突破口。本文探讨了人工智能在
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 吉林水务面试真题及答案
- 《数据分析与可视化课件》
- 《智能楼宇综合布线系统》课件
- 《流程监控系统评估》课件
- 《民航服务员基础化妆技巧》课件
- 《生物细胞结构解析》课件
- 心脏超声检查及图文报告课件
- 财务分析的主要内容
- 2025年浙江b卷行测真题及答案
- 生物高考一轮复习课件:必修2 第5章 第12节 基因突变
- 马拉松体检表
- 利巴韦林注射液生产工艺验证方案
- 高中音乐 鉴赏 第五单元《诗乐相彰》第九节 独唱曲 课件
- 恒强文字多纱嘴组设定
- 外科护理学练习题库判断题及答案
- 第六章 组合体的三面投影图
- 八年级地理下册俄罗斯件中图版
- 中国银行核心系统总体介绍
- 环网柜基础知识培训课程
- 幼儿园儿童幼儿成长档案可爱模板
- 公积金提取单身声明
评论
0/150
提交评论