第七章自然语言理解_第1页
第七章自然语言理解_第2页
第七章自然语言理解_第3页
第七章自然语言理解_第4页
第七章自然语言理解_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、Introduction of Artificial Intelligence内蒙古大学计算机学院内蒙古大学计算机学院 闫蓉闫蓉Mail: 第七章第七章 自然语言处理概述自然语言处理概述基本概念 什么是计算语言学(Computation Linguistics) 用机器处理人类语言的理论和技术。 构造计算模型,用于自然语言的分析、转换、生成。 其他名称: 自然语言处理(Natural Language Processing,NLP) 自然语言理解(Natural Language Understanding,NLU) 人类语言技术(Human Language Technology) 相关名称

2、: 中文信息处理(Chinese Information Processing) 网络信息处理(Web Information Processing)基本概念 什么是自然语言 自然语言指人类使用的语言,如汉语、英语等。 语言是思维的载体,是人际交流的工具。 语言的两种属性文字和声音 人类历史上以语言文字形式记载和流传的知识占知识总量的80以上。 本学科的基本问题 如何让计算机具有语言信息处理能力? 如何利用计算机处理海量的语言信息?为什么要研究计算语言学? 信息时代到了!语言是信息的载体。 提高计算机的智能:能理解和处理大量语言信息。机器能够理解人的语言吗? 很难,但是没有证据表明不行。 什么

3、是理解? 结构主义:机器的理解机制与人相同。 问题在于谁也说不清自己理解语言的步骤。 功能主义:机器的表现与人相同。 图灵测试:如果通过自然语言问答,一个人无法识别和他对话的是人还是机器,那么就应该承认机器具有智能。一个NLP的例子:英汉翻译 输入英文句子: Miss Smith put two books on this table. 形态分析(Morphological Analysis) 词形还原(Lemmatization):将词还原为词典中的原型。 词汇符号化(Tokenization):相当于中文分词。 分析结果:MissSmithput (+ed)twobook+sonthist

4、able. 句法分析(Syntactic Analysis):分析句子的结构。 词汇转换Miss 小姐Smith 史密斯put (+ed) 放two 两book+s 书on 在上面this 这dining table. 餐桌 短语转换小姐史密斯放两书在上面这餐桌史密斯小姐放两书在这餐桌上面 生成 史密斯小姐放两书在这桌子上面。 史密斯小姐(把)两(本)书放在这(张)桌子上面。 最终翻译结果 英文: Miss Smith put two books on the table. 中文:史密斯小姐把两本书放在这张桌子上面。机器如何理解自然语言? 机器对自然语言的理解方法,可借鉴编译器的工作原理。 机

5、器通过编译器,可以分析、理解人工语言(程序设计语言) 编译器:读入源语言程序,将其翻译成目标语言的程序。编译器工作过程 编译器 例子: 词法分析 将输入的字符流切分为token序列。 语法分析: 句子结构分析。 语义分析: 检测语义错误。编译器工作过程 编译器 例子: 中间代码生成 生成中间表示。 代码优化: 改进中间代码,以产生更高效率的机器代码。 目标代码生成 生成可重新定位的机器代码或汇编代码。机器如何理解自然语言? 机器理解自然语言的步骤 文本预处理 句子切分 形态分析 分词 词性标注 句法分析 词义消岐 语义分析 语用分析 篇章分析 海量文档处理机器理解自然语言的步骤 文本预处理:

6、文本采集 文本格式转换:PDF、Office、HTML纯文本 文本编码识别、转换:GB、Big5、Unicode。 句子切分 句子边界识别 例如:Mr. Wang likes swimming, dancing and reading. 形态分析: 研究构词方法,词的有意义的组合。 构词的基本单位:词素(词根、前缀、后缀、词尾) 例如:老虎 老 虎; 图书馆 图 书 馆 例如: work + er worker do + ing doing机器理解自然语言的步骤 分词 将句子切分为词序列 例如:钓鱼岛/是/中国/的/领土/。 词性标注 给句子的词标注正确的词性 例如:钓鱼岛n/是v/中国n/的

7、de/领土n / 。 句法分析 分析句子的组成结构, 句子结构成分之间的相互关系。 判定一个句子的合法性机器理解自然语言的步骤 词义消岐 研究给句子的词标注正确的词义。 例如:这个人真牛。/牛:动物了不起。 语义分析(这句话说了什么) 研究如何从一个语句中词的意义,以及这些词在该语句的句法结构中的作用来推导出该语句的意义。 语言和世界的映射关系 施事、受事、工具等 语用分析(为什么要说这句话 ) 研究不同语境中的语句的应用,及语境对语句理解的作用 语言交际目的:主题、述体、焦点机器理解自然语言的步骤 篇章分析 分析篇章的结构、主题、观点、摘要、有用信息。 主题分析 观点分析 自动文摘 信息抽取

8、 信息过滤 海量文档处理 信息检索 搜索引擎、数字图书馆 文本分类、聚类 分类检索、聚类检索 话题探测与追踪 信息自组织NLP的研究内容(基础研究)NLP的研究内容(应用研究)NLP的不同层次应用系统数字图书馆、电子商务、电子政务、远程教育、语言学习基础研究分词、词性标注、短语切分、句法分析、语义分析、篇章理解等应用技术研究自动问答、机器翻译、信息检索、文本挖掘、自动校对、信息抽取资源建设语料库资源建设语言学知识库建设语言学家NLP研究者软件企业NLP的学科特点 交叉性学科 语言学:语言学基础知识。 语言学理论:形式语言文法 语言学资源:词典、语料库、知识库 数学 语料库语言学的数学基础:概率

9、论、统计学、信息论。 模型:自动机、Markov模型、HMM等。 计算机科学 机器学习:机器的学习算法 人工智能(问题求解,知识表示,状态空间的图搜索算法) 心理语言学:研究人类理解自然语言的机制。NLP的历史 20世纪50年代起步 机器翻译、自动文摘 50-60年代采用模式匹配的方法 60年代衰落 70-80年代采用面向受限域的深入理解的方法 90年代至今统计方法占主流 随着互联网的发展而复苏 互联网为NLP提供了市场需求和试验数据NLP现状 仍然缺乏理论基础 词汇句法的问题尚未解决,已开始挑战语义、知识等深层课题 基于统计的NLP技术占据主流 规则和统计相结合的NLP研究方法 网络信息处理

10、成为NLP新热点 Ontology受到普遍重视 一切才刚刚开始NLP的困难歧义(Ambiguity)病构(Ill-Formedness)台湾:苏克毅歧义 注音歧义 快乐(le4)的单身汉 火红的第五乐(yue4)章 分词歧义 交叉型歧义 研究/ 生命/ 的/ 起源 研究生/ 命/ 的/ 起源 组合型歧义 他/ 从/ 马/ 上/ 下来 他/ 从/ 马上/ 下来 分词歧义 和未登录词绞在一起 刘挺/ 拔/ 出/ 宝剑 刘/ 挺拔/ 出/ 宝剑 多交集字段的歧义 结合/ 成分/ 子 结/ 合成/ 分子 结合/ 成/ 分子 有的歧义无法在句子内部解决 乒乓球/拍卖/完/了 乒乓球拍/卖/完/了 短语歧

11、义 咬死猎人的狗 咬死猎人的狗Our company is training workers(1)Our company is training workersAdjPNPVNPVPNPSOur company is training workers(2) Our company is training workersVNPAuxVPVPNPS 词义歧义 打玩乒乓球 打编制毛衣 打通讯电话 语用歧义 “你真讨厌!”病构 真实文本的语言现象非常复杂,不规范,不干净 自然语言中存在未知的语言现象 新的词汇: 例如: “非典” 、专业术语、外来语、人名等 新的词义: 例如:窗口、奔腾等 新的语句结构

12、:尤其在口语或网络语言,不断出现一些“非规范的”新的语句结构。 例子:他很男人。(名词不能受程度副词修饰) 由于作者疏忽造成的错误 真实的语言是非常脏的重述(Paraphrasing) 举例 毛泽东出生于1893年 毛泽东出生在1893年 毛泽东诞生于1893年 毛泽东同志是1893年出生的 毛主席生于1893年 毛泽东生于光绪6年(虚拟的)层间循环依赖问题 循环依赖 高层模块建立在底层模块分析的基础上 底层模块需要高层模块的指导才能准确分析 如何克服这种致命的矛盾 简单级联 每层的准确率是90%,如果系统分6层,最终结果是:53%;即使每层95%,最终结果73% 一体化:如分词/词性标注一体

13、化 反馈 人是怎么做的? 人在瞬间综合运用各个层面的知识NLP方法论理性主义和经验主义 对语言知识来源的不同认识对语言知识来源的不同认识 理性主义 信仰Chomsky的语言本能的观点。(先天论) 先天语言结构:人的大部分语言知识是与生俱来的,由遗传决定的。 经验主义 人的语言知识是从感官的输入,通过联想、模式识别、泛化等操作学习到的。(学习论) 学习:从大量语言数据中学习复杂、广泛的语言知识。理性主义和经验主义 研究对象不同研究对象不同 理性主义 研究人的语言知识结构。 试图书写大量的语言规则,复制人脑中的语言模型。 结构主义者 经验主义 研究大规模真实文本,认为语料库是语言知识的来源。 将语

14、言视为随机现象,用概率分布描述语言。 选择一个概率模型,采用统计学、模式识别、机器学习方法,应用大规模真实文本中的例子,训练模型的参数。 功能主义者理性主义和经验主义 研究方法不同研究方法不同 理性主义 理论:一般根据Chomsky 语言理论,设计语言描述文法。 方法:根据一些语言现象,总结出语言规则,形成语言的规则集。 应用:应用语言规则,分析句子的结构,判断其合法性。 根据句子中词的语义,以及它在句子结构中的作用,推断出句子的语义。 经验主义 理论:基于Shannon 的信息论。语料库语言学(corpus linguistics) 方法:根据给定的语言问题,构造一个概率模型,通过真实数据(语料库),训练模型参数。 应用:运用模型参数,估计语言现象的出现概率。 理性主义和经验主义的融合 统计和规则相结合NLP的瓶颈 知识获取(Knowledge Acquisition) 知识获取和知识表示相关联 规则:人工知识 参数:适合机

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论