自然语言处理 课件 第5章 词法分析_第1页
自然语言处理 课件 第5章 词法分析_第2页
自然语言处理 课件 第5章 词法分析_第3页
自然语言处理 课件 第5章 词法分析_第4页
自然语言处理 课件 第5章 词法分析_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第五章词法分析词法分析05语言中的词汇词是语言中可以独立运用的基本单位,是由音、形、义等元素构成的符号组合,具有明确的语法功能和意义,其形态遵循特定的规则,呈现出内在的结构特征。在语言学中,研究词语及其构成方式以及它们与同一语言中其他词的关系的学科称为形态学。在形态学中,词通常是由语素或词素构成。语素是语言表达中最小的语法功能单位,是语言中最小的语音语义结合体。其主要分为词根和词缀。词根是一个词的核心,通常是构成词的最主要语素,是语言中最小的有意义或语法功能的单位。词缀是一种附着在词根的语素,它可以在词根的基础上生成新词,涵盖前缀、中缀以及后缀等,自身不能单独成词。例如,在“老虎”一词中,“老”是词缀,“虎”是词根;英文词"cats"中,"cat"为词根,"-s"为词缀。第五章词法分析英文词语规范化英文词语规范化的主要目的是将文本中的单词进行统一处理,对有多种形式的单词使用一种统一的形式进行表示,主要包括词形归并和词干还原。词形归并是将词的各种变换形式还原成其原形或词典中的词,以实现词语的规范化的过程。例如,“am”“are”和“is”有共同的词根“be”;"happy"和"happiness"有共同的词根"happy"。词干还原是将词的词缀去除得到其词干,即获得词最一般的写法,从而减少不同形式的词对于文本处理和分析的干扰。例如,“cats”,“catlike”,“catty”的词干是“cat”。常用算法如后缀去除和后缀替代算法第五章词法分析后缀替代后缀去除词法分析词法分析:将输入的句子转换成词序列并标记出各词的词性,是自然语言处理流程中的第一步,为文本的进一步处理提供了基本的语言单位信息,使自然语言处理系统能够更好地理解和处理自然语言文本。词法分析具体包括词的识别和词性标注:词的识别是指将输入的字符串序列转换成一系列词条进行输出,在中文里称为分词,在英文里称为词条化(tokenization)。词性标注是将句子中的每个词标注它在句子中的词性(如动词,名词,形容词等)第五章词法分析中文分词词是汉语里表达意义的基本单位,是有意义的最小语法单位,因此自然语言处理首先面临的任务就是分词,在此基础上才能进一步进行词性标注、句法分析等其他语言分析,并最终实现语言的理解。分词的主要难点表现在未登录词识别和歧义切分两大问题。未登录词指词表中没有包含的词,主要包括命名实体(如人名)和新词(如哈基米)。分词歧义则指同一字符串存在多种切分形式。第五章词法分析例:我家门前的小河很难过。我家|门前|的|小河|很|难过。我家|门前|的|小河|很|难|过。乒乓球拍卖完了。乒乓球|拍卖|完|了。乒乓球拍|卖|完|了。中文分词方法基于词表的分词方法又称最大匹配分词法或机械分词法。该方法遵循长词优先的原则,把一个句子从左向右扫描一遍,遇到词表里存在的词就标识出来,遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词正向最大匹配分词法逆向最大匹配分词法优点:复杂性低,简单、快速、可控。缺点:基于大词优先原则,分词粒度单一,不灵活机器翻译中,分词粒度大则更易于处理。信息检索中,分词粒度小查全率更高。第五章词法分析中文分词方法基于统计语言模型的分词方法的主要思想是:如果分词得到的一个词串在实际应用中出现的概率越高,则认为这种分词结果越合理。该方法采用的统计模型主要有:n元统计语言模型、隐马尔可夫模型和最大熵模型等。其中,基于n元统计语言模型分词方法假设一个词的出现仅依赖它前面出现的n-1个词,整个句子的概率就是各个词出现概率的乘积。分词过程就是寻找一种词的划分方式,使得整个句子的概率最大。其步骤如下:建立分词语料库参数估计计算概率最大的分词串第五章词法分析中文分词方法基于n元统计语言模型——建立分词语料库统计语言模型的参数估计必须基于足够规模、质量可靠的分词语料库。比较著名的中文分词语料库有中文宾州树库(ChinesePeenTreebank,CTB)和北京大学人民日报分词语料库,这两个语料库是全球自然语言处理研究者研究中文分词的基础语料库。第五章词法分析中文分词方法

第五章词法分析中文分词方法

第五章词法分析中文分词方法基于n元统计语言模型——计算概率最大分词串基于统计语言模型的分词系统选择概率最大的分词串作为最终结果。第五章词法分析所有可能的分词情况为:第一种切分的概率为:以一元语言模型为例,其计算过程如下:经常/有意/见/分歧经常/有意/见/分/歧经常/有/意见/分歧经常/有/意见/分/歧需要穷举所有可能的词串,并计算其概率,然后得到最大概率词串作为输出,计算效率较低。中文分词方法基于n元统计语言模型——计算概率最大分词串现实中,比较可行的求解方法是Viterbi算法。Viterbi算法通过动态规划的方式,将分词问题转化为寻找最短路径问题,从而提高计算效率。将求-ln[P(x)]的最小值转变为求最短路径的问题第五章词法分析从最短路径的最后一个结点回溯,可以得到路径0→2→3→5→7,即词串“经常/有/意见/分歧”为最优结果。中文分词方法基于n元统计语言模型——计算概率最大分词串现实中,比较可行的求解方法是Viterbi算法。Viterbi算法通过动态规划的方式,将分词问题转化为寻找最短路径问题,从而提高计算效率。将求-ln[P(x)]的最小值转变为求最短路径的问题第五章词法分析从最短路径的最后一个结点回溯,可以得到路径0→2→3→5→7,即词串“经常/有/意见/分歧”为最优结果。中文分词方法基于统计语言模型的分词方法优点:考虑了上下文,输出是基于概率的整体最优结果,因此能够较好解决歧义问题。缺点:依赖语料库,未能解决未登录词的问题。第五章词法分析中文分词方法基于字标注的分词方法是把分词过程视为字在字串中的构词位置标注问题,并使用序列标注模型对该问题建模。具体来说,对输出的词序列使用词性标签序列进行编码,然后再经过简单合并处理后就可以表示成分词结果。词位标签可以是B(词首)、M(词中)、E(词尾)和S(单独成词)。基于序列标注的分词方法可以采用支持向量机、最大熵和条件随机场等模型进行求解。此外,研究者还提出了基于神经网络的分词方法,利用神经网络模型进行标签预测(如RNN,LSTM)第五章词法分析词性标注词性是词汇最基本的语法属性,通常也称为词类。词性标注也称词类标注,就是为给定词序列中的词赋予词性标记(如动词,名词,形容词等),如:第五章词法分析把/q-p-v-n这/r篇/q报道/v-n编辑/v-n一/m-c下/f-q-v北京大学人民日报语料库词性标记集词性标注方法早期主要采用基于人工规则的方法,但人工编写的规则对语言现象的覆盖率低;之后有学者提出为兼类词赋予可能性最大的词性标记方法;随着统计机器学习技术的发展,研究人员开始采用基于统计和基于神经网络的词性标注方法。第五章词法分析词性标注方法基于规则的方法构建一套合适的标注规则来获得正确的词性标注,如:建立非兼类词典建立兼类词典(词性可能出现的概率高低排列)构造兼类词识别规则词性标注方法基于隐马尔可夫模型的方法隐马尔可夫模型(HiddenMarkovModel,HMM)由Baum等在1966年提出,是一种用于时序数据建模的统计概率模型。该模型包含可观测序列和随时间变化的隐藏状态序列,并通过观测序列推断隐藏状态的转移及其生成规律。第五章词法分析

词性标注方法基于隐马尔可夫模型的方法隐马尔可夫模型(HiddenMarkovModel,HMM)由Baum等在1966年提出,是一种用于时序数据建模的统计概率模型。该模型包含可观测序列和随时间变化的隐藏状态序列,并通过观测序列推断隐藏状态的转移及其生成规律。HMM有以下两个假设:齐次马尔可夫性假设,即假设隐藏的马尔可夫链在任意时刻t的隐藏状态只依赖于其前一时刻的隐藏状态,与其他时刻的隐藏状态及观测状态无关,也与时刻t无关观测独立性假设,即假设任意时刻的观测只依赖于该时刻的马尔可夫链的状态,与其他观测及状态无关。第五章词法分析词性标注方法基于隐马尔可夫模型的方法第五章词法分析词性标注方法基于隐马尔可夫模型的方法HMM的三个基本问题估值问题:如何快速计算观察序列的概率——使用前向算法解码问题:如何由观察序列求出隐藏最优的状态序列——使用维特比算法学习问题:如何调整模型参数,使观察序列的概率最大——使用前向-向后算法第五章词法分析词性标注方法

第五章词法分析

词性标注方法

第五章词法分析

词性标注方法基于隐马尔可夫模型的方法问题2:如何求取序列最大概率?第五章词法分析4×1×1×2×2×2×3=96种可能性,哪种可能性最大?寻找最优路径问题词性标注方法基于隐马尔可夫模型的方法问题2:如何求取序列最大概率?第五章词法分析Veterbi算法:一种动态规划方法,通过把一个复杂问题分解为相对简单的子问题的方式来求解。

AB=2;AC=3;BD=9;BE=11;BF=8;CD=7;CE=6;CF=10;DG=3;DH=3;EG=7;EH=5;FG=6;FH=4;GI=2;HI=5;每个路段的权值ABEHI为最佳路径,值为2+11+5+5=23对于每个节点,需要知道两个信息:(1)从起点到达当前节点的累计最大权值为多少;(2)要达到这个累计最大权值,它的上一个节点是哪一个节点;词性标注方法基于隐马尔可夫模型的方法问题3:估算HMM的参数利用已标注语料进行参数估算——有监督的学习利用未标注语料(生语料)进行估算——无监督学习利用生语料估算参数,属于无监督学习,又称为:前向后向算法(Baum-Welch算法)第五章词法分析词性标注方法基于隐马尔可夫模型的方法问题3:估算HMM的参数,基于已标注语料库,根据大数定理,用相对频次估算概率第五章词法分析转移概率的估计:发射概率(生成概率)的估计:初始概率的估计:标记“t1”在语料中出现在句首start的次数词性标注方法基于CRF的方法基于CRF的方法通过建立指数形式的概率模型来进行序列数据的标注。相对于HMM,CRF模型能够同时使用当前词的前n个词和后m个词作为该词的上下文信息。这样,当前词的词性不仅与它前面的词有关,还与它后面的词有关,更加符合实际情况。第五章词法分析词性标注方法分词词性标注一体化分词和词性标注有着十分紧密的联系。分词为词性标注提供了基础,将连续文本切分为独立的词语单元,明确了词语的边界,而词性标注则进一步为这些单元赋予语法功能标签,两者

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论