自然语言处理 课件 第3章 语言模型_第1页
自然语言处理 课件 第3章 语言模型_第2页
自然语言处理 课件 第3章 语言模型_第3页
自然语言处理 课件 第3章 语言模型_第4页
自然语言处理 课件 第3章 语言模型_第5页
已阅读5页,还剩18页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章语言模型目录语言模型概述统计语言模型神经网络语言模型第三章语言模型语言模型概述第三章语言模型语言模型(languagemodel)根据语言客观事实对语言进行抽象数学建模。语言模型在诸如语音识别、机器翻译等任务中起到了关键的作用。其发展经历了专家语法规则模型,统计语言模型,神经网络语言模型。阶段时间核心思想局限专家语法规则模型1980年前人工编写文法规则规则爆炸、无法覆盖口语/演化统计语言模型(SLM)1980–2000s基于语料库的N-gram概率稀疏性、维度灾难、短程依赖神经网络语言模型(NNLM)2003至今词向量+神经网络计算复杂,但泛化强、连续表示目录语言模型概述统计语言模型神经网络语言模型第三章语言模型统计语言模型第三章语言模型N-gram语言模型:用马尔可夫假设解决维度灾难统计语言模型定义一个句子的概率等于每个词在其历史上下文条件下概率的乘积。1维度灾难问题随着历史长度增加,可能的上下文组合呈指数级增长,导致参数空间巨大,无法有效计算和存储。2马尔可夫假设为了简化问题,假设一个词的出现只与其前面固定数量的n-1个词相关,这就是N-gram模型的核心思想。3N-gram模型在马尔可夫假设下,句子概率被近似为:4N元语法1Unigram(n=1)一元语法,假设每个词独立出现,完全不考虑上下文。例如:P(我爱运动)≈P(我)×P(爱)×P(运动)。这种模型丢失了大量序列信息,性能较差。2Bigram(n=2)二元语法,假设一个词只与其前一个词相关,也被称为一阶马尔可夫链。这是实际应用中最常用的模型之一,能在序列信息和计算复杂度之间取得良好平衡。3Trigram(n=3)三元语法,假设一个词只与其前面两个词相关,被称为二阶马尔可夫链。相比于二元语法,它能捕捉更长的上下文依赖,但也会引入更多的参数和计算量。统计语言模型第三章语言模型最大似然估计:从语料库中学习模型参数核心思想通过语料库,用相对频率来估计真实概率。即在给定历史条件下,一个词出现的次数除以该历史出现的总次数。01计算公式对于N-gram模型,条件概率的估计公式为:02零概率问题由于语言的开放性,无论语料库多大,总会出现一些在训练集中未出现的词或词组。这会导致模型为其分配0概率,从而使得整个句子的概率为0,显然是不合理的。03统计语言模型第三章语言模型数据平衡技术:解决零概率与数据稀疏问题平滑的基本思想调整最大似然估计的概率值,将高频词的部分概率“转移”给低频词和未登录词(OOV),从而消除零概率,并提升模型的整体性能。1加1平滑(Laplace)最简单的方法,在统计每个词的计数时都加1。这保证了所有词至少有一个计数,但会过度惩罚高频词,且给所有未登录词分配了相同的概率。2留存平滑(Held-out)将数据分为训练集和验证集,利用验证集的数据分布来校准训练集估计出的概率值,是一种更精确的平滑方法。3Good-Turing平滑一种基于统计学原理的平滑方法,利用高频词的出现次数来估计低频词和未登录词的概率,理论性较强。4Kneser-Ney平滑当前被认为是性能最好的平滑方法之一,它在Good-Turing的基础上,进一步考虑了上下文的多样性。5统计语言模型第三章语言模型语言模型性能评价:困惑度(Perplexity)1困惑度定义困惑度是评价语言模型好坏最常用的内在指标,其值越低,模型越好。计算公式为:2直观解释困惑度可以理解为模型在预测下一个词时,平均有多少个“等可能的”候选词。例如,一个困惑度为100的模型,意味着它在预测时平均认为有100个词是下一个词的合理选择。3理想模型一个完美的语言模型,能够总是预测出下一个正确的词,其困惑度将等于1。统计语言模型第三章语言模型目录语言模型概述统计语言模型神经网络语言模型第三章语言模型神经网络语言模型第四章文本表示神经网络词向量表示技术通过神经网络技术对上下文,以及上下文与目标词之间的关系进行建模。由于神经网络较为灵活,这类方法的最大优势在于可以表示复杂的上下文。神经网络语言模型第四章文本表示传统模型缺陷统计语言模型(如N-gram)存在严重的稀疏性、维度灾难和泛化能力差等问题,难以处理未登录词和长距离依赖。神经网络的优势通过将词映射到连续的向量空间,神经网络能够学习到词的分布式表示。语义相似的词在空间中位置相近,从而解决了数据稀疏问题,并获得了更强的泛化能力。核心创新神经网络语言模型的核心创新在于提出了词向量的概念,用低维连续向量代替了高维离散的one-hot表示。语言模型性能评价:困惑度(Perplexity)010203神经网络语言模型第四章文本表示神经网络语言模型NNLMYoshuaBengio,RéjeanDucharme,PascalVincent,andChristianJauvin.ANeuralProbabilisticLanguageModel.TheJournalofMachineLearningResearch,3:1137–1155,2003.神经网络语言模型第四章文本表示神经网络语言模型NNLM对语料中一段长为n的序列wi-(n-1);:::;wi-1;wi,n-gram语言模型需要最大化以下似然:wi为需要通过语言模型预测的词(目标词)。对于整个模型而言,输入为条件部分的整个词序列:wi-(n-1);:::;wi-1输出为目标词的分布(词向量)。神经网络语言模型第四章文本表示第一层(输入层)这个模型首先将词典中的单词映射到一个给定维度k的高维空间,这个映射就是图中的参数矩阵C。该矩阵行数等于词典中的单词数量,列数等于给定的高维空间的维度k。单词在高维空间的映射就是单词的词向量表达,将

C(wt−n+1),…,C(wt−2),C(wt−1)

n−1

个向量首尾相接拼起来,形成一个

(n−1)k

维的向量。神经网络语言模型第四章文本表示假设训练语料为“中华人民共和国万岁,世界人民大团结万岁。”T={中华,人民,共和国,万岁,世界,团结,大}Context=“中华人民共和国”预测下一个词是什么?神经网络语言模型第四章文本表示第二层(隐藏层)与一般神经网络相同,直接使用线性函数XW+b计算得到。b

是一个偏置项,W是隐层权重向量。在此之后,使用

tanh

作为激活函数。将每个单词对应的上下文映射到词典全部单词对应的条件概率分布空间中。神经网络语言模型第四章文本表示第三层(输出层)每个节点yi表示下一个词为i的未归一化log概率。使用softmax激活函数将输出值y归一化成概率。神经网络语言模型第四章文本表示矩阵Wr包含了从输入层到输出层的直连边。直连边就是从输入层直接到输出层的一个线性变换。Bengio等人在文中指出,如果使用该直连边,可以减少一半的迭代次数;但如果没有直连边,可以生成性能更好的语言模型。因此在后续工作中,很少有使用输入层到输出层直连边的工作。神经网络语言模型第四章文本表示训练语料为“中华人民共和国万岁,世界人民大团结万岁。”T={中华,人民,共和国,万岁,世界,团结,大}标准答案为[0,0,0,1,0,0,0]输出结果归一化后[0.02,0.05,0.03,0.5,0.05,0.2,0.15]利用交叉熵损失函数计算损失,使用SDG算法优化。神经网络语言模型第四章文本表示整个模型的参数集为:使用梯度上升法对θ进行优化优化结束之后,就得到语言模型。

此时的参数C即为该最优模型下的词向量表示。对于整个语料而言,语言模型需要最大化:θ=(Wh1,b1,U,Wr,br,C)神经网络语言模型第四章文本表示N-gram与NNLM的优劣分析1表示方式N-gram使用离散的one-hot向量,而NNLM使用连续的分布式词向量。2泛化能力N-gram需要精确的上下文匹配,泛化能力差;NNLM通

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论