版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第8章word2vec模型在上一章中,详细探讨了NLP(自然语言处理)领域中两个核心技术:基于统计的N-gram模型与基于深度学习的NNLM(神经网络语言模型)。阐明了N-gram模型在处理单词时倾向于将它们视为孤立的单位(独热编码),这种方法可能忽略了单词之间在某些层面上的相似性,从而在语义理解方面有所不足。这些模型主要依赖于对统计信息的聚合。为了克服这些局限性并赋予词向量丰富的语义信息,采用深度神经网络技术。利用目标词之前的词去预测目标词本身,这种方法成功地为词向量赋予了包含语义信息的能力。NNLM模型的局限性计算量过大NNLM在词嵌入表示上取得了一定的成果,但也存在计算量过大的问题,导致模型训练效率低下。参数众多参数众多导致模型难以收敛,需要大量的训练数据和时间才能获得良好的结果。针对这些问题,谷歌的TomasMikolov对NNLM模型进行了改进,提出了word2vec深度学习模型。word2vec模型对此技术进行了创新和优化,极大地加快了词向量的语义信息学习过程。语义表现能力有限词嵌入作为NNLM的副产物,其语义表现能力有限,这也是该模型的一大局限性。word2vec模型简介1提出时间word2vec是由Google研究团队成员TomasMikolov等人在2013年提出的。2开创性论文《EfficientEstimationofWordRepresentationsinVectorSpace》和《DistributedRepresentationsofWordsandPhrasesandtheirCompositionality》奠定了这一技术的基础。3补充研究XinRong发表了一篇论文,详细介绍了当前模型的具体细节,进一步解释了word2vec的实现和应用。前一篇论文主要是阐述针对NNLM提出了一种更加精简的语言模型框架用于生成词向量,后一篇论文则是对训练中所用到的两个训练技巧层次归一化和负采样技术进行讲解。NNLM与word2vec的区别NNLM根据前文去预测目标词,处理方式较为单一。计算复杂度高,参数量大。词嵌入是模型的副产物,语义表达能力有限。word2vec根据上下文来进行目标词的预测,处理方式更加灵活。引入了层次归一化和负采样技术,大幅降低计算复杂度。词嵌入是模型的主要目标,语义表达能力更强。word2vec的上下文处理方式可以分为两种模型:CBOW(ContinuousBagofWords)和Skip-Gram。CBOW与Skip-Gram模型CBOW模型通过输入上下文词语来预测目标词。训练速度较快,适合用于处理大规模语料库。Skip-Gram模型通过输入目标词来预测上下文词语。训练速度较慢,但在处理稀疏数据和捕捉词汇关系上表现更为出色。Word2vec模型的另一个重要贡献在于引入了层次归一化(HierarchicalSoftmax)和负采样(NegativeSampling)技术。层次归一化通过构建霍夫曼树来加速模型的训练过程,从而解决了传统神经网络中计算复杂度过高的问题。负采样则是通过随机采样负样本来简化模型的计算,提高训练效率。神经网络的反向传播法NNLM与word2vec都是基于神经网络的语言模型,而深入理解这些模型具体细节信息需要依托于对神经网络反向传播的理解,本节简单的回顾下这一算法的思想,为下文去理解word2vec中不同层参数的更新提供坚实的理论铺垫。
神经网络的数学表达隐藏层计算输出层计算损失函数参数更新
隐藏层到输出层的梯度计算链式法则应用损失函数对输出的偏导激活函数的导数最终梯度计算
输入层到隐藏层的梯度计算链式法则扩展隐藏层梯度最终梯度计算
考虑全部输出神经元word2vec模型和神经网络函数概念在初高中的数学课程中,"函数"这一概念得到了详细阐释,旨在使学生理解世界上存在着确定的、客观的规律,正如函数所展示出的模式一样。神经网络模拟现代神经网络,凭借其复杂的多层构造和非线性激活函数,能够模拟和拟合多样的函数模式。这些网络因此能够执行多种多样的任务。语言模型
word2vec技术的一个重要成果就是词向量的产生,它使得基于填空游戏的训练过程能够生成具有丰富语义信息的词嵌入表示,这些词嵌入表示对于提升下游任务,如文本分类、情感分析和机器翻译等的性能至关重要,极大地推动了自然语言处理技术的发展。word2vec模型架构CBOW架构模型基于目标单词其周围的上下文词汇去预测目标单词,即依靠上下文预测中心词。Skip-gram架构模型基于目标单词去预测该词周边的单词,即依靠中心词预测该词的上下文。这两种方法核心都依赖于一个神经网络,其隐藏层的权重矩阵充当了词向量的角色。训练过程中,这些权重通过最小化预测单词与实际单词之间的误差而不断调整。随着训练的深入,word2vec使得每个单词都得以获得一个唯一的、信息丰富的向量表示,这些向量能够精准地映射出单词间复杂的语义和语法联系。简易CBOW架构输入层模型的输入信息是一个长度为V的独热编码,之所以长度为V的目的是和词汇表的长度相一致才能互相映射。隐藏层
输出层
首先从CBOW模型的最简单版本进行讲解,梳理整体的标识符以及运算逻辑。该模型为全连接的网络架构,假设每个上下文中只考虑一个词,这意味着模型将根据一个上下文词预测一个目标词。简易CBOW结构图简易CBOW的数学表达1隐藏层计算2输出层计算3Softmax概率4损失函数
简易CBOW的梯度计算输出层梯度权重梯度权重更新向量形式更新
简易CBOW损失函数特例图简易CBOW的输入层梯度隐藏层梯度输入权重梯度批量更新向量形式更新
CBOW架构详解多词上下文输入CBOW模型在多词上下文设置中,使用多个上下文词来预测中心词。向量平均计算隐藏层输出时,CBOW模型取输入上下文词向量的平均值。中心词预测使用平均后的向量预测中心词,通过Softmax函数计算概率分布。参数更新根据预测误差更新模型参数,包括输入词向量和输出词向量。上文中,主要针对一个基本的单词预测模式(一个单词作为上文去预测下文的一个单词)进行了详细的阐述,便于理解后续复杂模型中的正向传播和方向传播,实际的操作中,word2vec模型提供了两种不同的模型,即连续词袋(CBOW)和Skip-gram,它们在构建损失函数和进行优化迭代时有着各自独特的处理方式。CBOW的数学表达1隐藏层计算2损失函数3输出向量更新4输入向量更新
CBOW的特征融合机制前向传播上下文信息通过平均池化进行特征融合反向传播梯度更新采用等比例回传策略均衡机制确保各上下文向量保持同步演化
Skip-Gram架构详解中心词输入Skip-Gram模型的核心思想是使用一个单词来预测它的上下文。词嵌入查找从权重矩阵中查找输入词的向量表示。多词预测使用同一个输入向量预测多个上下文词。参数优化根据多个预测目标的误差综合更新模型参数。Skip-Gram与CBOW(连续词袋)模型相反。Skip-Gram模型的核心思想是使用一个单词来预测它的上下文。在这里目标词即处于输入层,而上下文处于输出层,整体结构如上图所示。Skip-Gram的数学表达1隐藏层计算2输出概率3损失函数4参数更新
Skip-Gram的梯度计算输出层梯度综合误差权重梯度输入向量更新在计算输入层到隐藏层梯度信息时和公式不同的地方为损失函数不再从某一个神经元的损失出发,而是通过损失函数的整体来进行计算的梯度信息。CBOW与Skip-Gram的比较CBOW特点CBOW通过上下文来预测目标词,特点是训练迅速,适合用于广泛的语料处理。CBOW对高频词有更好的表现,但可能对低频词的表示不够精确。在处理大规模语料库时,CBOW的训练速度优势更为明显。Skip-Gram特点Skip-Gram则侧重于利用目标词来预测周围的上下文词汇,虽然训练速度较慢,却能更有效地处理稀疏数据并抓住词与词之间的关系。Skip-Gram对低频词有更好的表示能力,能够捕捉更细微的语义关系。在语义类比任务中,Skip-Gram通常表现更好。优化算法概述NNLM到word2vec的转变从NNLM(神经网络语言模型)到word2vec模型的过渡展示了一个向更高效、更简洁的模型架构的转变。在word2vec中,模型的网络结构相比于NNLM进行了显著的简化。特别是通过省略了大部分中间层并且没有使用激活函数,这两个改变显著提高了模型的训练速度。计算挑战输入向量的更新中由于独热编码的使用,这意味着每次训练仅需要更新输入向量权重矩阵中的一个特定向量(即对应于目标单词的那一行)。输出向量的更新则不同,需要考虑到模型对整个词汇表中每个单词作为上下文单词的概率预测。在更新输出权重矩阵的过程中,理论上需要针对词汇表中的每个单词计算概率预测值,进而更新整个矩阵。
层次Softmax概念概念定义层次化Softmax并非是传统Softmax的简易替代。实际上,它代表了一种创新的方法,旨在将复杂的多分类问题转化成一系列易于处理的二分类问题。Huffman树应用层次化Softmax通过构造一个Huffman树,为词汇表中的每个词汇赋予了一个由1和0组成的独特编码。这一设计使得模型能够借助一系列二元分类任务来进行单词预测。计算优化这一改进将原有需要处理的计算量,从词汇表大小V的数量级,优化到了由Huffman树的深度层次,从而显著提升了训练效率并增进了模型的性能。通过利用Huffman树的结构,层次化Softmax有效减少了必要的计算步骤,令模型训练过程在面对庞大词汇表时仍能保持高效率。这种技术不仅较传统的Softmax方法在资源消耗上更为经济,而且在提高模型训练速度方面也展现出了显著的优势。哈夫曼编码基础编码原理哈夫曼树的最典型应用之一便是在数据编码领域,尤其体现在如ASCII编码这样的标准化字符集编码上。与ASCII编码的固定长度编码方式不同,哈夫曼编码则基于字符出现的频率来分配不同长度的编码。具体而言,它给予出现频率较高的字符更短的编码,而对于频率较低的字符,则分配更长的编码。构建过程1)将所有单词作为叶子节点,根据它们的频率进行排序,并将它们放入一个优先队列中,队列按频率从小到大排序。2)从优先队列中取出两个频率最低的节点。以这两个节点作为子节点,构建一个新的内部节点。3)将这个新内部节点的频率设置为其两个子节点频率之和,并将该内部节点重新放入优先队列。4)重复步骤2)和3),直到优先队列中只剩下一个节点。这个节点成为哈夫曼树的根节点。通过上述步骤,可以为每个单词计算出一条从根节点到该单词节点的唯一路径。每个单词的哈夫曼编码是根据其从根节点到叶子节点的路径来确定的,其中路径上左分支代表"0",右分支代表"1"。哈夫曼树构建实例词汇频率编码in200010to400011and60000of80010the100011假设词汇表中仅有英文单词——"in"、"to"、"and"、"of"、"the"——以及它们在数据集中出现的频率。通过哈夫曼编码算法,我们可以为每个单词分配一个基于其频率的二进制编码。这种编码方式使得高频词获得更短的编码,从而优化整体的编码长度。层次Softmax的结构层次Softmax对整个模型的修改处在最终的输出层,如上图所示的位置。简而言之就是隐藏层到输出层参数矩阵的行数由哈夫曼树的内部节点个数决定的。而未优化前是由词汇表中词汇个数决定的,这本质上就是在大幅度的削减模型在优化过程中的参数量。层次Softmax的算法逻辑二叉树结构在哈夫曼树中,黑色节点代表内部单元,由一个向量和激活函数构成,用于和输入向量h做Hadamard积将结果投射到0-1之间。而白色的节点是单词节点,标识每个单词在树中的位置。路径编码每个单词都存在唯一一条路径通往最终的预测单词,将到达特定单词节点的过程实际上转化为一系列二分类问题的解决。概率计算计算优化通过这些梯度计算就能发现在计算量上的骤减从之前的V(即词汇表大小)到现阶段的树的深度L,这极大的优化了模型的计算效率。
负采样优化简化原理负采样采用了一种更加简单直观的方式。在传统方法中,每次迭代更新过程中需要调整所有输出向量W'。而通过采用负采样技术,更新过程仅限于选定的少量负样本向量和一个正样本向量,显著简化和优化了更新流程,使其变得更加可控。正负标签正标签代表了模型在给定输入上下文中希望预测到的目标单词,理想情况下,这个单词的预测概率应接近1。负标签则是指模型在相同输入上下文下期望其预测概率为0的单词。计算优势这个方法的关键优势在于它不需要依赖于整个单词表进行计算,而是通过选定一定数量的负采样样本来进行参数更新,从而极大地缩减了需要更新参数的范围,使参数更
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年上海中医药大学单招职业技能考试必刷测试卷附答案解析
- 2026年天津医学高等专科学校单招职业适应性测试必刷测试卷及答案解析(夺冠系列)
- 2026年上海健康医学院单招职业技能考试题库及答案解析(夺冠系列)
- 2026年浙江省嘉兴市单招职业倾向性考试题库及答案解析(夺冠系列)
- 房屋征收公司协议书
- 房屋损毁赔偿协议书
- 房屋改造维护协议书
- 房屋构件置换协议书
- 房屋父子赠与协议书
- 房屋租赁退款协议书
- 装修增减项单模板
- 常减压装置HAZOP分析报告1
- 安徽晟捷新能源科技有限公司10万吨-年N-甲基吡咯烷酮项目环境影响报告书
- 《能力陷阱》读后感【五篇】
- 护士长竞聘上岗理论测试题
- 2023年贵州毕节市直属机关工作委员会下属事业单位考调笔试备考题库及答案解析
- 建筑电气工程施工技术规程
- 上海市2023年基准地价更新成果
- GA 1026-2012机动车驾驶人考试内容和方法
- MBA市场营销课程考试范围(32题及答案)
- 宝钢作业长制详解课件
评论
0/150
提交评论