ch6自然语言理解.ppt_第1页
ch6自然语言理解.ppt_第2页
ch6自然语言理解.ppt_第3页
ch6自然语言理解.ppt_第4页
ch6自然语言理解.ppt_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

自然语言处理 自然语言处理 n学习目标 n通过这一章的学习,我们将了解自然语言及其理解的 一般问题,掌握句法自动分析的基本方法,了解统计方法在语言 理解中的应用,在此基础上学习自然语言中的词性标注方法。 n学习指南 n自然语言理解是人工智能的一个重要领域,是一个困 难和富有挑战性的研究任务,它需要大量的和广泛的知识,包括 语法、语义和语言等语言学和语音学以及有关背景知识。在研究 自然语言理解时,将用到多种知识表示和推理方法。这一点将在 本章中充分体现出来。 n难重点 n句法分析,统计方法,词性标注。 n知识点 n句法分析,语义分析,乔姆斯基语法,基于统计的自 然语言处理技术。 自然语言处理 主要内容 n概述:语言及其理解的一般问题 n句法和语法的自动分析 n大规模汉语语料库加工的基本方 法 概述语言概念和分类 n语言是用于传递信息的表示方法、约定和 规则的集合,它由语句组成,每个语句又 由单词组成;组成语句和语言时,应遵循 一定的语法与语义规则。 n自然语言是指人类语言集团的本族语,如 汉语、英语、日语等,以及人类用与交流 的非发声语言,如手语、旗语等。自然语 言是相对于人造语言而言的。 n人造语言是指世界语或计算机的各种程序 设计语言。 概述语言的构成 n语言是音义结合的词汇和语法体系,是 实现思维活动的物质形式。 概述语言构成 n语言的基本单位是词 n词素是构成词的最小的有意义的单位。 n词汇又可分为词和熟语。 n词汇受到语法的支配才可构成有意义的和 可理解的句子,句子按一定的形式再构成 篇章等。 n熟语就是一些词的固定组合,如汉语中的 成语。 n词由词素构成,词素是构成词的最小的有 意义的单位。 “教师”是由“教”和“师”这两 个词素所构成的。 概述语言构成 n语法是语言的组织规律。语法规则制约着如何把 词素构成词,词构成词组和句子。 语法:包括词法和句法 n词法:包括构词法和构形法 n构词规则:用词素构成词的规则,如教+师- 教师。 n构形法:一个词又有不同的词形、单数、复 数、阴性、阳性等等。这种构造词形的规则称为,如教 师+们-教师们。 n句法:包括词组构造法和造句法。 n词组构造法是词搭配成词组的规则,如红+ 铅笔-红铅笔。这里“红”是一个修饰铅笔的形容词,它 与名词“铅笔”组合成了一个新的名词。 n造句法则是用词或词组造句的规则,“我是计 算机科学系的学生“,这是按照汉语造句法构造的句子。 概述语言构成 n语言是音义结合的,每个词汇有其语 音形式。 n音素是指一个发音动作所构成的最小 的语音单位。 n一个词的发音由一个或多个音节组合 而成。 n音节又由音素构成。 n音素分为元音音素和辅音音素。 概述自然语言理解 n自然语言理解就是如何让计算机能正确处理人类 语言,并据此作出人们期待的各种正确响应。 n从微观上讲,语言理解是指从自然语言到机器(计 算机系统)内部之间的一种映射。 n从宏观上看,语言理解是指机器能够执行人类所 期望的某些语言功能。 n(1)回答有关提问; n(2)提取材料摘要; n(3)不同词语叙述; n(4)不同语言翻译。 n自然语言理解的研究 n书面语理解:容易用机器处理 n口语理解:语音识别、理解和合成 概述自然语言理解主要方面 n问题应答:机器能正确的回答输入文 本的有关问题。 n 文摘生成:机器有能力产生输入文本 的摘要。 n 文 本释义:机器能用不同的词语和句 型来复述或解释输入的文本。 n 机器翻译:机器具有把一种语言翻译 成为另一种语言的能力。 概述自然语言理解的研究 运用 n语言学 n词汇 n语法 n句法 n语用 n语义学 n大量的客观世界的知识 n相关学科的知识。 概述理解自然语言的难点 n目标表示的复杂性: n语义的概念可以用语义网表示,要 从语句中提取这种表示的关键字就相当的复 杂。 n映射的歧义性: n将语言看成是源语言和目标语言的 二元组,两者存在着映射。 n一对一类型是最理想的。 n句子成分间的交互程度: n每个语句都是由多个成分组成的, 每个成分的映射与其他成分交互程度相当高 。 概述理解自然语言的工作 n理解所出现的每个词 n词义表示语句意义的结构 n句子语义表示言语的结构。 n重点:解决如何有效地使用语 法、语义、语用及与其相关的 各种知识问题。 概述自然语言理解的角度 n文字表达的句子是由词素词 或词形词组或句子。 n声音表达的句子则是由音素 音节音词音句,其中每个 层次都是受到语法规则的制约 。 概述自然语言理解的步骤 汉语理解的一般分为以下步骤: n原文输入 n句子词语切分及词语属性特征标 注 n语法及句法分析 n语义及语用和语境分析 n生成目标形式表示 n句群及篇章理解 概述自然语言理解的层次 1 语音分析 n找出最小可独立的声音单 元-音素 n汉语的声母、韵母 2 词法分析 n找出词汇的各个词素(词根 )从中获得语言学信息。 n“我们研究所有东西 “我们研究所有东西“ 概述自然语言理解的层次 3 句法分析 n目的是找出词、短语等的相互关系以 及各自在句子中的作用等,并以一种层次结构 来加以表达。这种层次结构可为 n反映从属关系 n直接成分关系 n语法功能关系。 n对句子和短语的结构进行分析,找出 词、短语等的相互关系以及各自在句子中的作 用等。 n最为基本的,最成熟的。 n主要方法有:短语结构语法、格语法 、扩充转移网络、功能语法等。 概述自然语言理解的层次 n语法分析 n将单词之间的线性次序变换成一个 显示单词如何与其它单词相关联的结构。确 定语句是否合乎语法。 n4 语义分析 n通过分析找出词义、结构意义及其 结合意义,从而确定语言所表达的真正(实 际)含义或概念。 n “你打我“和“我打你“ 概述自然语言理解的层次 n5 语用分析 n研究语言所在的外界环境对语言使 用所产生的影响。 n它描述语言的环境知识、语言与语 言使用者在某个给定语言环境中的关系。 n“把手放在桌上“可以理解为“把手 放在桌上“,也可以理解为“把手放在桌 上“。 概述自然语言的层次划分及对 应技术 概述自然语言理解研究目标 n建立一个足够精确的语言数学 模型使计算机通过编程来完成 自然语言的相关任务。如:听 、读、写、说,释义,翻译, 回答问题等。 概述自然语言理解应用 n机器翻译或机器辅助翻译 n文本理解:将输入文本转换成某种数据库格 式。 n文本生成:根据用户需要以某种自然语言的 方式输出储存在计算机内的各种信息。 n自然语言接口:人类直接用自然语言与数据 库、专家系统等进行人机交互。 n网络方面:信息检索,提出,过滤,分类, 汇总等。例如:网上信息检索,电子图书馆 (digital library),电子商务(e- commerce)等。 概述自然语言理解实际应用例 子 n机器翻译(machine translation ),如:金山快译 n多语言信息检索(multi-lingual information retrieval)网站 n机器问答(question-answering systems),如query a database n教学辅助系统(tutoring system ) n其它计算机应用系统的语言模型 概述自然语言理解的发展 四个时期: n60年代以关键词匹配为主流的早期 n70年代以句法-语义分析为主流的中期 n80年代开始的基于知识的新一代自然语言 处理系统 n目前,新提出的基于大规模语料库的自然 语言处理思想正在蓬勃发展。 n发展迅速的原因: n传统语言学缺乏有利的研究工具 n社会发展的需求 概述自然语言理解的基本模型 词法分析 n句词法分析是找出词汇的各个词素,从中获得语 言学信息。 n如:work works worked working worker workings workable workability等,只放词根work 。 n词法分析算法: Repeat Look for word in dictionary If not found Then modify the word Until word is found or no further modification possible n以catches为例: 在词典中查不到catches,修改它,去掉s, 仍查不到catche,修改它,去掉e,查到catch。 句法分析 n句法分析是自然语言处理的基本研 究内容之一,也是自然语言处理的 基本技术之一。 自然语言的句法分析的方法 句法分析的两个主要任务: n确定输入句子的结构 n句法分析要求识别构成句子的各个成 分以及它们之间的相互关系 n例如确定每个动词的主语和宾语,以 及每个修饰性的词或短语所修饰的成分。 n通常这是通过给每个输入句子构造一 棵句法树来完成的。 n句法结构的规范化 n如果我们能把大量可能的输入结构映 射为数量较少的结构,那么后继的处理(例如 语义分析)就得以简化。 句法分析 句法分析的处理办法 n先句法后语义 n强调在语言分析过程中存在一个相对独 立的句法分析阶段。 n它的输出结果是输入句子的一棵句法结 构树。 n句法结构树再经过语义分析模块的处理 ,获得该句子的某种意义表示。 n句法语义一体化(或并行) n主要依据是心理学方面的合理性,即面 对那些有语法错误或信息不全的句子,人们往往 可以根据语义线索来获得句子的解释。 自然语言的句法分析的方法 n基于规则的方法 n短语结构语法 n乔姆斯基体系 n语言串分析法 n递归转移网络 n扩充转移网络 n词汇功能语法 n基于统计的方法基于大规模语料库 n语料库:大量的能代表某一领域的语言现 象的真实的语言材料的集合。 语言的形式化 定义1:每个句子是一串符号。这个字符串是某 一种语言词汇表中一个或多个符号组成(不 是任意的,从某种语言角度定义的)。 定义2:一种语言是一个句子的集合,它包含这 种语言的所有句子。 定义3:一种语法是对一个句子集合的一种有限 化的表述。是对一个句子是否是某一语言合 法句子的判据。 n语法可以采用不同形式来定义: n基于产生式的形式化的工具产生式 语法或短语结构语法(phrase-structure grammar ) 语言的形式化短语结构语法1 n一部短语结构语法G可以用如下的四元组来定 义: G = (Vt,Vn,P,S) nVt 是终结符的集合,终结符是指被定义 的那个语言的词或符号; nVn 是非终结结点的集合,这些符号不能 出现在最终生成的句子中,是专门用来描述语法的 。 nVt 和Vn 的并构成了符号集V即总词 汇表,而且Vt和Vn 不相交。 V =Vt Vn Vt Vn = NIL 语言的形式化短语结构语法2 n一部短语结构语法G可以用如下的四元组来定 义: G = (Vt,Vn,P,S) nP是一个产生式规则集。每条产生式具有 如下的形式: ab 其中:a V* Vn V* ,bV* ,且ab nV*: V中的符号所构成的全部字符串的集 合,包括空字符。*表示它前面的字符可以出现任 意次。 nV+=V* Vn V*: V*中除空字符之外的所 有字符串的集合。 nS是集合Vn中的一个元素,它是起始符 。 n自动句法分析算法 n自顶向下的回溯 n自底向上的平行算法 语言的形式化短语结构语法 n自顶向下的回溯 n自顶向下分析算法的思想就是从 起始符开始,向着被分析的句子进行推 导,推倒过程的语法树建立从根节点开 始,自上而下进行。每次推导只选择一 种路径进行尝试,并保留其它可选择的 路径,当推导失败时,进行回溯,尝试 另一种推导路径。 n例子 语言的形式化短语结构语法 n自底向上的平行算法 n自底向上分析算法的思想就是从 输入句子开始,依次取词,向前移进, 并应用合适的语法规则向上规约,直到 构造出表示句子结构的整个推导树为止 。 n移进 n归约 n例子 乔姆斯基体系约束的短语结构语法 n乔姆斯基体系定义了4种语法: n无约束短语结构法(0型语法 ) n上下文有关语法(1型语法) 满足下列约束条件: x y的产生式,符号y串 包含的字符个数不少于字符串x中包含的 字符个数。 x,yV* 乔姆斯基体系约束的短语结构语法 n乔姆斯基体系定义了4种语法: n上下文无关语法(2型语法 ) 满足下列约束条件的 短语结构语法: 对于每一条A x的 产生式,左侧必须是一个单独的非 终结符,右侧是任意的符号串。即 AVn, xV* 乔姆斯基体系约束的短语结构语法 n乔姆斯基体系定义了4种语法: n正则语法(3型语法) 左线性语法ABt或At 每条产生式的形式: 右线性语法AtB或At A和B都是单独的非终结符 ,即A,BVn, tVt. 乔姆斯基体系约束的短语结构语法 n在这4种语法中,型号越高,对重写 规则所附加的限制也越多,其生成语 言的能力越弱,生成的语言集越小, 更易于对其生成的语言进行计算机自 动分析。 n3型语言是2型语言的一个子集,2型 语言又是1型语言的一个子集,依此 类推。从语法的生成能力看,0型语 法最强,3型最弱。 语言的形式化转移网络 n采用句法模式来对语言的句子进行匹 配从而进行的句法分析。 n模式可用状态转移图来表示,这种用 状态转移图来表示的表达方式称之为 转移网络(TN,transition network)。 例子 语言的形式化:扩充转移网络ATN nATN是由一组网络所构成的,每个网络都 有一个网络名,每条弧上的条件扩展为条 件加上操作。 n ATN的每个寄存器由两部分构成:句法特 征寄存器和句法功能寄存器。 n在特征寄存器中,每一维特征都有一 个特征名和一组特征值,以及一个缺省值来表 示。如“数”的特征维可有两个特征值“单数”和“ 复数”,缺省值可以是空值。 n功能寄存器则反映了句法成分之间的 关系和功能。 n例子 大规模汉语语料库加工的基本方法 n自动分词 n词性标注 n词义标注 自动分词方法 n基本机械分词法: n最大匹配法(MM) n逆向最大匹配法:切词正 确率比MM高 n逐词遍历匹配法:慢、效 率不高 n改进法: n最优路径(+词频选择) 法(最少分词法) n特征词库法 n邻接约束法 n人工神经网络方法 n无词典分词法 n双向扫描法 n设立切分标志法 n最佳匹配法 自动分词难点 n词的概念问题 n分词过程中的歧义字段问题:歧义 切分。 n交集型歧义字段 n多义型歧义字段 n未登录词的识别问题 词性标注 n定义:所谓词性标注,就是判定词 在一定的上下文环境中所体现的语 法范畴。确定其词性并加以标注的 过程。 n一个单词有可能有多种词性,词性 标注就是将句子中的各个词汇标注 上在该句中的正确词性。 词性标注必要性 n词的多义性:源语言可能一词多义,而目 的语言要表达这些不同的含义需要使用不 同的词汇; n文法多义性:对源语言中合乎文法规则但 具有多义的句子,其每一可能的意思均可 在目的语言中使用不同的文法结构来表达 ; n代词重复使用:源语言中的一个代

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论