




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
.,词向量模型Word2Vec,.,前言,计算机,老外来访被请吃饭。落座后,一中国人说:“我先去方便一下。”老外不解,被告知“方便”是“上厕所”之意。席间主宾大悦。道别时,另一中国人对老外发出邀请:“我想在你方便的时候也请你吃饭。”老外愣了,那人接着说:“如果你最近不方便的话,咱找个你我都方便的时候一起吃。,人类,VS,.,1,2,3,基本概念,模型与方法,实际应用,目录,.,词向量,自然语言中的词语在机器学习中的表示符号,One-HotRepresentation例如:“话筒”表示为:0,0,0,1,0,0,0,0,0,0,0,0,0,“麦克”表示为:0,0,0,0,0,0,0,0,0,1,0,0,0,实现时可以用0,1,2,3等对词语进行计算,这样的“话筒”可以用4表示,麦克可以用10表示问题:维度很大,当词汇较多时,可能会达到百万维,造成维度灾难词汇鸿沟:任意两个词之间都是孤立的,不能体现词与词之间的关系。,.,词向量,DistributionalRepresentation,将词表示为0.793,-0.177,-0.107,0.109,0.542,的矩阵,通常该类矩阵设置为50维或100维通过计算向量之间的距离,来体现词与词之间的相似性,解决词汇鸿沟的问题实现时可以用0,1,2,3等对词语进行计算,这样的“话筒”可以用4表示,麦克可以用10表示如何训练:没有直接的模型可以训练得到可以在训练语言模型的同时,得到词向量。,.,语言模型,判断一句话是不是正常人说出来的,给定一个字符串”w1,w2,w3,w4,wt”,计算它是自然语言的概率、P(w1,w2,wt)=P(w1)P(w2|w1)P(w3|w1,w2)P(wt|w1,w2,wt1),P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)p(大家)表示“大家”这个词在语料库里面出现的概率;p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;p(吃|大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率;p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。把这些概率连乘起来,得到的就是这句话平时出现的概率。如果这个概率特别低,说明这句话不常出现,那么就不算是一句自然语言,因为在语料库里面很少出现。如果出现的概率高,就说明是一句自然语言。,常用的语言模型都是在近似地求P(wt|w1,w2,wt1)。比如n-gram模型就是用P(wt|wtn+1,wt1)近似表示前者。N-pos先对词进行了词性分类,.,1,2,3,模型与方法,基本概念,实际应用,目录,.,Word2Vec,Google的Mikolov在2013年推出了一款计算词向量的工具,word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-Gram”。具体学习过程会用到两个降低复杂度的近似方法HierarchicalSoftmax或NegativeSampling。,CBOW:ContinuousBag-of-Words,Skip-Gram:ContinuousSkip-GramModel,HierarchicalSoftmax,NegativeSampling,两个语言模型,两种优化方法,.,CBOWandSkip-Gram,初始化值是零向量,叶节点对应的单词的词向量是随机初始化的。CBOW的目标是根据上下文来预测当前词语的概率Skip-Gram恰好相反,它是根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初,每个单词都是一个随机N维向量,经过训练之后,利用CBOW或者Skip-Gram方法获得每个单词的最优向量。,.,CBOW模型结构,输入层是上下文的词语的词向量,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被更新。当模型训练完成之后可以获得较为准确的词向量。,O(|V|),时间复杂度:,O(log2(|V|),.,CBOW模型结构霍夫曼树,在训练阶段,当给定一个上下文,要预测词(Wn)的时候,实际上知道要的是哪个词(Wn),而Wn是肯定存在于二叉树的叶子节点的,因此它必然有一个二进制编号,如“010011”,那么接下来我们就从二叉树的根节点一个个地去遍历,而这里的目标就是预测这个词的二进制编号的每一位.即对于给定的上下文,我们的目标是使得预测词的二进制编码概率最大。形象地说,我们希望在根节点,词向量和与根节点相连经过logistic计算得到的概率尽量接近0(即预测目标是bit=1);在第二层,希望其bit是1,即概率尽量接近1这么一直下去,我们把一路上计算得到的概率相乘,即得到目标词Wn在当前网络下的概率(P(Wn),那么对于当前这个sample的残差就是1-P(Wn)。于是就可以SGD优化各种权值了。,.,Skip-Gram模型结构,c,d吃,b,a,小明喜欢吃甜甜的苹果,.,1,2,3,实际应用,基本概念,模型与方法,目录,.,词相似度,训练数据集:经过分词后的新闻数据,大小184MB查看中国,钓鱼岛,旅游,苹果几个词语的相似词语如下所示,.,向量加减法,向量加减法中国+北京-日本,中国+北京-法国,.,机器翻译,机器翻译语言词语的关系集合被表征为向量集合向量空间内,不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在向量空间中的位置(已经过降维)对英语和西班语之间的翻译准确率高达90%,.,推荐应用Item2Vec,论文:Item2vec:NeuralItemEmbeddingf
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2030年中国深圳市服装行业发展监测及市场发展潜力预测报告
- 护士企业编制面试题库含答案详解(突破训练)
- 押题宝典期货从业资格之《期货法律法规》模考模拟试题及参考答案详解
- 2025年度汽车金融贷款授信合同借款
- 2025年体育场馆汽车停车位租赁与赛事服务合同
- 2025版私家车买卖合同及车辆上牌服务协议
- 2025大闸蟹加盟店产品研发合同范本大全
- 2025版电商品牌授权代理销售合同书
- 2025版水电站工程监理合同书
- 2025年智慧社区房产代理销售服务合同
- 2025年江苏省南京市中考英语试卷
- 2025年内蒙古中考物理试卷(含答案)
- 村卫生室医疗安全管理
- 2025小学生“学宪法、讲宪法”网络知识竞赛题库及答案
- 云南省曲靖市2025年八年级下学期语文期末考试卷及答案
- 2025至2030中国汽车金融行业市场深度分析及竞争格局与发展前景展望报告
- 脊柱内镜手术机器人系统设计与精准位置控制研究
- 白酒生产技术课件
- 排尿评估及异常护理方法
- 语音厅新人培训:从零开始到主播之路
- 公司销售pk策划方案
评论
0/150
提交评论