自然语言处理范文.doc_第1页
自然语言处理范文.doc_第2页
自然语言处理范文.doc_第3页
自然语言处理范文.doc_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理范文 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法自然语言处理是一门融语言学、计算机科学、数学于一体的科学因此这一领域的研究将涉及自然语言即人们日常使用的语言所以它与语言学的研究有着密切的联系但又有重要的区别自然语言处理并不是一般地研究自然语言而在于研制能有效地实现自然语言通信的计算机系统特别是其中的软件系统因而它是计算机科学的一部分 语言是人类区别其他动物的本质特性在所有生物中只有人类才具有语言能力人类的多种智能都与语言有着密切的关系人类的逻辑思维以语言为形式人类的绝大部分知识也是以语言文字的形式记载和流传下来的因而它也是人工智能的一个重要甚至核心部分用自然语言与计算机进行通信这是人们长期以来所追求的因为它既有明显的实际意义同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义也能以自然语言文本来表达给定的意图、思想等前者称为自然语言理解后者称为自然语言生成因此自然语言处理大体包括了自然语言理解和自然语言生成两个部分历史上对自然语言理解研究得较多而对自然语言生成研究得较少但这种状况已有所改变无论实现自然语言理解还是自然语言生成都远不如人们原来想象的那么简单而是十分困难的从现有的理论和技术现状看通用的、高质量的自然语言处理系统仍然是较长期的努力目标但是针对一定应用具有相当自然语言处理能力的实用系统已经出现有些已商品化甚至开始产业化典型的例子有:多语种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等自然语言处理即实现人机间自然语言通信或实现自然语言理解和自然语言生成是十分困难的造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串由字可组成词由词可组成词组由词组可组成句子进而由一些句子组成段、节、章、篇无论在上述的各种层次:字(符)、词、词组、句子、段还是在下一层次向上一层次转变中都存在着歧义和多义现象即形式上一样的一段字符串在不同的场景或不同的语境下可以理解成不同的词串、词组串等并有不同的意义一般情况下它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的也就是说从总体上说并不存在歧义这也就是我们平时并不感到自然语言歧义和能用自然语言进行正确交流的原因但是一方面我们也看到为了消解歧义是需要极其大量的知识和进行推理的如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义都是工作量极大且十分困难的工作这不是少数人短时期内可以完成的还有待长期的、系统的工作以上说的是一个中文文本或一个汉字(含标点符号等)串可能有多个含义它是自然语言理解中的主要困难和障碍反过来一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示因此自然语言的形式(字符串)与其意义之间是一种多对多的关系其实这也正是自然语言的魅力所在但从计算机处理的角度看我们必须消除歧义而且有人认为它正是自然语言理解中的中心问题即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示歧义现象的广泛存在使得消除它们需要大量的知识和推理这就给基于语言学的方法、基于知识的方法带来了巨大的困难因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就但在能处理大规模文本的系统研制方面成绩并不显著研制的一些系统大多数是小规模的、研究性的演示系统 最早的自然语言理解方面的研究工作是机器翻译1949年美国人威弗首先提出了机器翻译设计方案20世纪60年代国外对机器翻译曾有大规模的研究工作耗费了巨额费用但人们当时显然是低估了自然语言的复杂性语言处理的理论和技术均不成热所以进展不大主要的做法是存储两种语言的单词、短语对应译法的大辞典翻译时一一对应技术上只是调整语言的同条顺序但日常生活中语言的翻译远不是如此简单很多时候还要参考某句话前后的意思大约90年代开始自然语言处理领域发生了巨大的变化这种变化的两个明显的特征是:(1)对系统输入要求研制的自然语言处理系统能处理大规模的文本而不是如以前的研究性系统那样只能处理很少的词条和典型句子只有这样研制的系统才有真正的实用价值(2)对系统的输出鉴于地理解自然语言是十分困难的对系统并不要求能对自然语言文本进行深层的理解但要能从中抽取有用的信息例如对自然语言文本进行自动地提取索引词过滤检索自动提取重要信息进行自动摘要等等同时由于强调了“大规模”强调了“文本”下面两方面的基础性工作也得到了重视和加强(1)大规模语料库的研制大规模的经过不同深度加工的文本的语料库是研究自然语言统计性质的基础没有它们统计方法只能是无源之水(2)大规模、信息丰富的词典的编制工作规模为几万十几万甚至几十万词含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的 基础理论 自动机形式逻辑统计机器学习汉语语言学形式语法理论 语言资源 语料库词典 关键技术 汉字编码词法分析句法分析语义分析文本生成语音识别 应用系统 文本分类和聚类信息检索和过滤信息抽取问答系统拼音汉字转换系统机器翻译新信息检测 虽然上述新趋势给自然语言处理领域带来了成果但从理论方法的角度看由于采集、整理、表示和有效应用大量知识的困难这些系统更依赖于统计学的方法和其他“简单”的方法或技巧而这些统计学的方法和其他“简单”的方法似乎也快达到它们的极限了因此就现在而言在自然语言处理界广泛争论的一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论