【《单词向量训练模型wod2vec和单词嵌入的相关原理综述》2400字】_第1页
【《单词向量训练模型wod2vec和单词嵌入的相关原理综述》2400字】_第2页
【《单词向量训练模型wod2vec和单词嵌入的相关原理综述》2400字】_第3页
【《单词向量训练模型wod2vec和单词嵌入的相关原理综述》2400字】_第4页
【《单词向量训练模型wod2vec和单词嵌入的相关原理综述》2400字】_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

单词向量训练模型word2vec和单词嵌入的相关原理综述目录TOC\o"1-3"\h\u30800单词向量训练模型word2vec和单词嵌入的相关原理综述 1163461.1文本的表示形式 1193341.1.1分布式矩阵表示法: 146311.1.2分布式神经网络表示 241841.2关于WordEmbedding 3132241.2.1Hufman树的概念 3296131.3语料处理技术 5269241.1.1语料库 535101.1.2语料预处理 5245651.4小结 81.1文本的表示形式1.1.1分布式矩阵表示法:在这里,矩阵是指“单词-上下文”矩阵,它可以用来表示单词和句子的分布情况。在这些语言中,矩阵的行表示单词的分布,矩阵的列表示单词的上下文环境的分布,这样,会话矩阵中的所有元素都描述单词的上下文单词分布[20]。在这种情况下,矩阵中所有行和列的每一个值都是词和上下文词联合出现的计数,然后使用TF-IDF算法、进行加权和平滑处理。当遇到一个矩阵的维数比较高,且很稀疏时,当矩阵维数较高且稀疏时,矩阵分解为维数较低的稠密矩阵,分解方法是奇异值分解。以矩阵为基础的分布式表征的代表模型是用GloVe矩阵做表征的代表模型,其计算公式如下:(3-1)vi表示的是是单词i词向量vj是j的词向量,bj和bi是标量,N表示语料包中语料的数量,N(3-2)1.1.2分布式神经网络表示神经网络模型中使用的词嵌入技术被称为分布式表示技术,它是将人类语言术语转换为计算机能够理解的向量的过程,而神经网络模型具有很大的灵活性,更多的上下文信息就可以被存到由词嵌入技术产生的矢量[22]。Skip-Gram是一种神经网络模型,常用于词嵌入。图3-1显示了一种典型的神经网络结构。图3-1神经网络结构从图3-1可以看出,矩阵W和U分别为神经网络的输入和输出隐含层权重矩阵,矩阵P和Q为神经网络的输入和输出隐含层的偏差矩阵。如前所述,对于语料库中的词w,此时c是该词位于语料库前面的n-1个词,也就是说,w和c共同构造一个二元训练样本(c,w),c可以理解为该词w的上下文[23]。也就是说,输出层的输出是:(3-3)(3-4)隐藏层中有一个激活函数,tanh函数就是激活函数。操作后的yw(3-5)方程式1.5中的iw表示语料w在语料中的位置。当P(w|c)1.2关于WordEmbedding简而言之,词嵌入(也称为分布式向量)是一种将自然语言转换为计算机可读向量或矩阵的技术。由于必须考虑术语的语义(同义词)、语料库中单词之间的关系(上下文)以及如何处理动态向量的维度,,等等,现有的代码中有基于神经网络的word2vec、One-hot等,word2vec为了模拟从隐藏层到输出层的学习过程,使用了Huffman树。,摒弃了一些方法,大大简化了运算过程,对输入的全部词向量求均值,然后取平均值。该模型采用了逐级搜索技术,利用哈夫曼树实现了隐层到输出层的映射。1.2.1Hufman树的概念Hufman又称最佳二叉树,具有最短的路径长度。解释,见图3-2:图3-2哈夫曼树其中带权路径长度分别为:图a:WPL=5*2+7*2+2*2+13*2=54图b:WPL=5*3+2*3+7*2+13*1=48结果表明,图b的加权路径长度较小,从而证明了图b是Hufman树(又称最佳二叉树)。Hufman树的构建过程包括以下步骤:(1)先选出空节点:左子树和右子树都是作为根节点的空节点。(2)再中选择两个根节点权值最小的树,加到新数的左右两侧,左根节点和右根节点的权值个数用于衡量新树中其他根节点的权值。在这种情况下,右子树的权值应该大于左子树的权值。(3)将这两棵树从森林中移除,同时在森林中增加新树。(4)循环执行上述步骤的2、3步,直到只有在森林中,这棵树就是Huffman树。图1.3是Hufman树的构建过程:

图3-3哈夫曼树构建过程1.3语料处理技术1.1.1语料库在统计自然语言处理中人类用文本来代替语料,因为语料是不可观测到的。在语言学上,语料库一词指大量的文本。它具有三个显著特征:(1)语料库中储存的是实际使用该语言时确实存在的语言材料。(2)语料库以电子计算机为载体,提供基本的语言知识资源,但不等同于语言知识。(3)要使真正的语言材料成为有用的资源,必须加以处理(分析和处理)。语料库的内容和质量决定了模型最终能达到的高度,语料库的清理工作也十分重要,它直接决定模型的效果,甚至会影响模型的收敛性、答非所问、语法错误等等,因为语料库的选择处理很重要。这个项目是一个对话机器人项目,所以所选的语料主要是一些问答对,开放数据也有很多可以下载,存储格式是第一行为问题,第二列为答案,等等。从语料的数量和质量两方面选择招商银行金融语料。1.1.2语料预处理语料处理的主要流程如图3-4所示,在我们从网上获取到合适的语料库后开始对原始的语料库进行加工处理来满足模型训练的要求,提高训练效果。

图3-4语料处理流程图(1)语料清洗就是从语料中找出人们想要的东西,清理掉不要想要的、被认为是噪音的内容。常用的数据清理方法有:人工去掉重复语料、删除不要的等,或者设计出我们想要的内容规则利用代码批量化提取等等。因为语料本身可以实现大部分的清洗功能,所以我们只需进行分词、清除停用词等处理。(2)分词汉语语料库文本的集合,看你选择的语料库是包含的什么语料,通常是文章或者问答对话,一般来说,句与段之间的词语是连续的,他们不是毫无意义的。在文本挖掘,且分析过程中,我们希望文本处理的最小单位是单词或词语,因此需要分词算法来分割所有的文本。最终的分词效果如图2.3所示:图3-5分词效果图(3)句子规范化其实这一部分是进一步的数据清洗过滤,将句子规范化,主要处理的内容是分词后的空格,多余的符号以及无法使用的字符,主要的处理方式包括正则表达式,遍历判断等。其中主要的处理正则表达式的处理包括:取出分词处理后的语料;将斜杠\过滤;将较多的…,···,/.统统用…代替;将较多的。,/。统统用。代替;将较多的!,?分用!,?代替;将非中英文的字符以及"。,?!~·过滤;将ˇˊˋˍεπのゞェーω字符过滤1.4小结我们

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论