第七章自然语言理解_第1页
第七章自然语言理解_第2页
第七章自然语言理解_第3页
第七章自然语言理解_第4页
第七章自然语言理解_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、IntroductionofArtificialIntelligence,人工智能导论,内蒙古大学计算机学院闫蓉Mail:,第七章自然语言处理概述,基本概念,什么是计算语言学(ComputationLinguistics)用机器处理人类语言的理论和技术。构造计算模型,用于自然语言的分析、转换、生成。其他名称:自然语言处理(NaturalLanguageProcessing,NLP)自然语言理解(NaturalLanguageUnderstanding,NLU)人类语言技术(HumanLanguageTechnology)相关名称:中文信息处理(ChineseInformationProcess

2、ing)网络信息处理(WebInformationProcessing),基本概念,什么是自然语言自然语言指人类使用的语言,如汉语、英语等。语言是思维的载体,是人际交流的工具。语言的两种属性文字和声音人类历史上以语言文字形式记载和流传的知识占知识总量的80以上。本学科的基本问题如何让计算机具有语言信息处理能力?如何利用计算机处理海量的语言信息?,为什么要研究计算语言学?,信息时代到了!语言是信息的载体。提高计算机的智能:能理解和处理大量语言信息。,机器能够理解人的语言吗?,很难,但是没有证据表明不行。什么是理解?结构主义:机器的理解机制与人相同。问题在于谁也说不清自己理解语言的步骤。功能主义:

3、机器的表现与人相同。图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。,一个NLP的例子:英汉翻译,输入英文句子:MissSmithputtwobooksonthistable.形态分析(MorphologicalAnalysis)词形还原(Lemmatization):将词还原为词典中的原型。词汇符号化(Tokenization):相当于中文分词。分析结果:MissSmithput(+ed)twobook+sonthistable.,句法分析(SyntacticAnalysis):分析句子的结构。,词汇转换Miss小姐Smith史密斯put(+

4、ed)放two两book+s书on在上面this这diningtable.餐桌短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面,生成史密斯小姐放两书在这桌子上面。史密斯小姐(把)两(本)书放在这(张)桌子上面。最终翻译结果英文:MissSmithputtwobooksonthetable.中文:史密斯小姐把两本书放在这张桌子上面。,机器如何理解自然语言?,机器对自然语言的理解方法,可借鉴编译器的工作原理。机器通过编译器,可以分析、理解人工语言(程序设计语言)编译器:读入源语言程序,将其翻译成目标语言的程序。,编译器工作过程,编译器例子:词法分析将输入的字符流切分为token序列

5、。语法分析:句子结构分析。语义分析:检测语义错误。,编译器工作过程,编译器例子:中间代码生成生成中间表示。代码优化:改进中间代码,以产生更高效率的机器代码。目标代码生成生成可重新定位的机器代码或汇编代码。,机器如何理解自然语言?,机器理解自然语言的步骤文本预处理句子切分形态分析分词词性标注句法分析词义消岐语义分析语用分析篇章分析海量文档处理,机器理解自然语言的步骤,文本预处理:文本采集文本格式转换:PDF、Office、HTML纯文本文本编码识别、转换:GB、Big5、Unicode。句子切分句子边界识别例如:Mr.Wanglikesswimming,dancingandreading.形态分

6、析:研究构词方法,词的有意义的组合。构词的基本单位:词素(词根、前缀、后缀、词尾)例如:老虎老虎;图书馆图书馆例如:work+erworkerdo+ingdoing,机器理解自然语言的步骤,分词将句子切分为词序列例如:钓鱼岛/是/中国/的/领土/。词性标注给句子的词标注正确的词性例如:钓鱼岛n/是v/中国n/的de/领土n/。句法分析分析句子的组成结构,句子结构成分之间的相互关系。判定一个句子的合法性,机器理解自然语言的步骤,词义消岐研究给句子的词标注正确的词义。例如:这个人真牛。/牛:动物了不起。语义分析(这句话说了什么)研究如何从一个语句中词的意义,以及这些词在该语句的句法结构中的作用来推

7、导出该语句的意义。语言和世界的映射关系施事、受事、工具等语用分析(为什么要说这句话)研究不同语境中的语句的应用,及语境对语句理解的作用语言交际目的:主题、述体、焦点,机器理解自然语言的步骤,篇章分析分析篇章的结构、主题、观点、摘要、有用信息。主题分析观点分析自动文摘信息抽取信息过滤海量文档处理信息检索搜索引擎、数字图书馆文本分类、聚类分类检索、聚类检索话题探测与追踪信息自组织,NLP的研究内容(基础研究),NLP的研究内容(应用研究),NLP的不同层次,应用系统数字图书馆、电子商务、电子政务、远程教育、语言学习,基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等,应用技术研究自动

8、问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取,资源建设语料库资源建设语言学知识库建设,语言学家,NLP研究者,软件企业,NLP的学科特点,交叉性学科语言学:语言学基础知识。语言学理论:形式语言文法语言学资源:词典、语料库、知识库数学语料库语言学的数学基础:概率论、统计学、信息论。模型:自动机、Markov模型、HMM等。计算机科学机器学习:机器的学习算法人工智能(问题求解,知识表示,状态空间的图搜索算法)心理语言学:研究人类理解自然语言的机制。,NLP的历史,20世纪50年代起步机器翻译、自动文摘50-60年代采用模式匹配的方法60年代衰落70-80年代采用面向受限域的深入理解的方法

9、90年代至今统计方法占主流随着互联网的发展而复苏互联网为NLP提供了市场需求和试验数据,NLP现状,仍然缺乏理论基础词汇句法的问题尚未解决,已开始挑战语义、知识等深层课题基于统计的NLP技术占据主流规则和统计相结合的NLP研究方法网络信息处理成为NLP新热点Ontology受到普遍重视一切才刚刚开始,NLP的困难,歧义(Ambiguity)病构(Ill-Formedness)台湾:苏克毅,歧义,注音歧义快乐(le4)的单身汉火红的第五乐(yue4)章分词歧义交叉型歧义研究/生命/的/起源研究生/命/的/起源组合型歧义他/从/马/上/下来他/从/马上/下来,分词歧义和未登录词绞在一起刘挺/拔/出

10、/宝剑刘/挺拔/出/宝剑多交集字段的歧义结合/成分/子结/合成/分子结合/成/分子有的歧义无法在句子内部解决乒乓球/拍卖/完/了乒乓球拍/卖/完/了短语歧义咬死猎人的狗咬死猎人的狗,Ourcompanyistrainingworkers(1),Ourcompanyistrainingworkers,AdjP,NP,V,NP,VP,NP,S,Ourcompanyistrainingworkers(2),Ourcompanyistrainingworkers,V,NP,Aux,VP,VP,NP,S,词义歧义打玩乒乓球打编制毛衣打通讯电话语用歧义“你真讨厌!”,病构,真实文本的语言现象非常复杂,不规

11、范,不干净自然语言中存在未知的语言现象新的词汇:例如:“非典”、专业术语、外来语、人名等新的词义:例如:窗口、奔腾等新的语句结构:尤其在口语或网络语言,不断出现一些“非规范的”新的语句结构。例子:他很男人。(名词不能受程度副词修饰)由于作者疏忽造成的错误真实的语言是非常脏的,重述(Paraphrasing),举例毛泽东出生于1893年毛泽东出生在1893年毛泽东诞生于1893年毛泽东同志是1893年出生的毛主席生于1893年毛泽东生于光绪6年(虚拟的),层间循环依赖问题,循环依赖高层模块建立在底层模块分析的基础上底层模块需要高层模块的指导才能准确分析如何克服这种致命的矛盾简单级联每层的准确率是

12、90%,如果系统分6层,最终结果是:53%;即使每层95%,最终结果73%一体化:如分词/词性标注一体化反馈人是怎么做的?人在瞬间综合运用各个层面的知识,NLP方法论,理性主义和经验主义,对语言知识来源的不同认识理性主义信仰Chomsky的语言本能的观点。(先天论)先天语言结构:人的大部分语言知识是与生俱来的,由遗传决定的。经验主义人的语言知识是从感官的输入,通过联想、模式识别、泛化等操作学习到的。(学习论)学习:从大量语言数据中学习复杂、广泛的语言知识。,理性主义和经验主义,研究对象不同理性主义研究人的语言知识结构。试图书写大量的语言规则,复制人脑中的语言模型。结构主义者经验主义研究大规模真

13、实文本,认为语料库是语言知识的来源。将语言视为随机现象,用概率分布描述语言。选择一个概率模型,采用统计学、模式识别、机器学习方法,应用大规模真实文本中的例子,训练模型的参数。功能主义者,理性主义和经验主义,研究方法不同理性主义理论:一般根据Chomsky语言理论,设计语言描述文法。方法:根据一些语言现象,总结出语言规则,形成语言的规则集。应用:应用语言规则,分析句子的结构,判断其合法性。根据句子中词的语义,以及它在句子结构中的作用,推断出句子的语义。经验主义理论:基于Shannon的信息论。语料库语言学(corpuslinguistics)方法:根据给定的语言问题,构造一个概率模型,通过真实数据(语料库),训练模型参数。应用:运用模型参数,估计语言现象的出现概率。理性主义和经验主义的融合统计和规则相结合,NLP的瓶颈,知识获取(KnowledgeAcquisition)知识获取和知识表示相关联规则:人工知识参

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论