自然语言理解范文.doc_第1页
自然语言理解范文.doc_第2页
自然语言理解范文.doc_第3页
自然语言理解范文.doc_第4页
自然语言理解范文.doc_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言理解范文 自然语言处理是计算机科学领域与人工智能领域中的一个重要方向它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法 NaturalLanguageUnderstanding俗称人机对话人工智能的分支学科研究用电子计算机模拟人的语言交际过程使计算机能理解和运用人类社会的自然语言如汉语、英语等实现人机之间的自然语言通信以代替人的部分脑力劳动包括查询资料、解答问题、摘录文献、汇编资料以及一切有关自然语言信息的加工处理这在当前新技术革命的浪潮中占有十分重要的地位研制第5代计算机的主要目标之一就是要使计算机具有理解和运用自然语言的功能自然语言理解是一门新兴的边缘学科内容涉及语言学、心理学、逻辑学、声学、数学和计算机科学而以语言学为基础自然语言理解的研究综合应用了现代语音学、音系学语法学、语义学、语用学的知识同时也向现代语言学提出了一系列的问题和要求本学科需要解决的中心问题是:语言究竟是怎样组织起来传输信息的人又是怎样从一连串的语言符号中获取信息的这一领域的研究将涉及自然语言即人们日常使用的语言包括中文、英文、俄文、日文、德文、法文等等所以它与语言学的研究有着密切的联系但又有重要的区别自然语言处理并不是一般地研究自然语言而在于研制能有效地实现自然语言通信的计算机系统特别是其中的软件系统因而它是计算机科学的一部分 语言是人类区别其他动物的本质特性在所有生物中只有人类才具有语言能力人类的多种智能都与语言有着密切的关系人类的逻辑思维以语言为形式人类的绝大部分知识也是以语言文字的形式记载和流传下来的因而它也是人工智能的一个重要甚至核心部分用自然语言与计算机进行通信这是人们长期以来所追求的因为它既有明显的实际意义同时也有重要的理论意义:人们可以用自己最习惯的语言来使用计算机而无需再花大量的时间和精力去学习不很自然和习惯的各种计算机语言;人们也可通过它进一步了解人类的语言能力和智能的机制实现人机间自然语言通信意味着要使计算机既能理解自然语言文本的意义也能以自然语言文本来表达给定的意图、思想等前者称为自然语言理解后者称为自然语言生成因此自然语言处理大体包括了自然语言理解和自然语言生成两个部分历史上对自然语言理解研究得较多而对自然语言生成研究得较少但这种状况近年来已有所改变无论实现自然语言理解还是自然语言生成都远不如人们原来想象的那么简单而是十分困难的从目前的理论和技术现状看通用的、高质量的自然语言处理系统仍然是较长期的努力目标但是针对一定应用具有相当自然语言处理能力的实用系统已经出现有些已商品化甚至开始产业化典型的例子有:种数据库和专家系统的自然语言接口、各种机器翻译系统、全文信息检索系统、自动文摘系统等自然语言处理即实现人机间自然语言通信或实现自然语言理解和自然语言生成是十分困难的造成困难的根本原因是自然语言文本和对话的各个层次上广泛存在的各种各样的歧义性或多义性(ambiguity)一个中文文本从形式上看是由汉字(包括标点符号等)组成的一个字符串由字可组成词由词可组成词组由词组可组成句子进而由一些句子组成段、节、章、篇无论在上述的各种层次:字(符)、词、词组、句子、段还是在下一层次向上一层次转变中都存在着歧义和多义现象即形式上一样的一段字符串在不同的场景或不同的语境下可以理解成不同的词串、词组串等并有不同的意义一般情况下它们中的大多数都是可以根据相应的语境和场景的规定而得到解决的也就是说从总体上说并不存在歧义这也就是我们平时并不感到自然语言歧义和能用自然语言进行正确交流的原因但是一方面我们也看到为了消解歧义是需要极其大量的知识和进行推理的如何将这些知识较完整地加以收集和整理出来;又如何找到合适的形式将它们存入计算机系统中去;以及如何有效地利用它们来消除歧义都是工作量极大且十分困难的工作这不是少数人短时期内可以完成的还有待长期的、系统的工作以上说的是一个中文文本或一个汉字(含标点符号等)串可能有多个含义它是自然语言理解中的主要困难和障碍反过来一个相同或相近的意义同样可以用多个中文文本或多个汉字串来表示因此自然语言的形式(字符串)与其意义之间是一种多对多的关系其实这也正是自然语言的魅力所在但从计算机处理的角度看我们必须消除歧义而且有人认为它正是自然语言理解中的中心问题即要把带有潜在歧义的自然语言输入转换成某种无歧义的计算机内部表示歧义现象的广泛存在使得消除它们需要大量的知识和推理这就给基于语言学的方法、基于知识的方法带来了巨大的困难因而以这些方法为主流的自然语言处理研究几十年来一方面在理论和方法方面取得了很多成就但在能处理大规模文本的系统研制方面成绩并不显著研制的一些系统大多数是小规模的、研究性的演示系统 自然语言理解从20世纪60年代初开始研究由于N.乔姆斯基在语言学理论上的突破和此后各家理论的发展以及计算机功能的不断提高目前已经取得了一定的成果分为语音理解和书面理解两个方面语音理解用口语语音输入使计算机听懂语音信号用文字或语音合成输出应答方法是先在计算机里贮存某些单词的声学模式用它来匹配输入的语音信号称为语音识别这只是一个初步的基础还不能达到语音理解的目的因为单凭声学模式无法辨认人和人之间、同一个人先后发音之间的语音差别也无法辩认连续语流中的语音变化;必须综合应用语言学知识,以切分音节和单词分析句法和语义才能理解内容获取信息 60年代至70年代初期研究工作一直停留在单词的语音识别上进展不大直到70年代中期才有所突破建立了一些实验系统,能够理解连续语音的内容,但是还限于少数简单的语句(见自然语言语音理解系统)书面理解用文字输入使计算机看懂文字符号也用文字输出应答这方面的进展较快70年代初期取得突破中期以后又有所发展目前已能在一定的词汇、句型和主题范围内查询资料解答问题阅读故事解释语句等有的系统已付诸应用由于绝大多数语种使用的是拼音文字计算机识别拼音字母已无问题而输入又是按单词分别拼写因此书面理解一般没有切分音节和单词的问题只需直接分析词汇、句法和语义但是汉语用的是汉字无论是用汉字编码输入还是将来计算机能直接认识汉字都要首先解决切分单词的问题因为输入就是一连串汉字词和词之间没有空隔书面理解的基本方法是:在计算机里贮存一定的词汇、句法规则、语义规则、推理规则和主题知识语句输入后计算机自左至右逐词扫描根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论