




已阅读5页,还剩15页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
词向量模型 Word2Vec 2020 2 4 1 前言 计算机 老外来访被请吃饭 落座后 一中国人说 我先去方便一下 老外不解 被告知 方便 是 上厕所 之意 席间主宾大悦 道别时 另一中国人对老外发出邀请 我想在你方便的时候也请你吃饭 老外愣了 那人接着说 如果你最近不方便的话 咱找个你我都方便的时候一起吃 人类 VS 2020 2 4 2 1 2 3 基本概念 模型与方法 实际应用 目录 2020 2 4 3 词向量 自然语言中的词语在机器学习中的表示符号 One HotRepresentation例如 话筒 表示为 0 0 0 1 0 0 0 0 0 0 0 0 0 麦克 表示为 0 0 0 0 0 0 0 0 0 1 0 0 0 实现时可以用0 1 2 3等对词语进行计算 这样的 话筒 可以用4表示 麦克可以用10表示问题 维度很大 当词汇较多时 可能会达到百万维 造成维度灾难词汇鸿沟 任意两个词之间都是孤立的 不能体现词与词之间的关系 2020 2 4 4 词向量 DistributionalRepresentation 将词表示为 0 793 0 177 0 107 0 109 0 542 的矩阵 通常该类矩阵设置为50维或100维通过计算向量之间的距离 来体现词与词之间的相似性 解决词汇鸿沟的问题实现时可以用0 1 2 3等对词语进行计算 这样的 话筒 可以用4表示 麦克可以用10表示如何训练 没有直接的模型可以训练得到可以在训练语言模型的同时 得到词向量 2020 2 4 5 语言模型 判断一句话是不是正常人说出来的 给定一个字符串 w1 w2 w3 w4 wt 计算它是自然语言的概率 P w1 w2 wt P w1 P w2 w1 P w3 w1 w2 P wt w1 w2 wt 1 P 大家 喜欢 吃 苹果 p 大家 p 喜欢 大家 p 吃 大家 喜欢 p 苹果 大家 喜欢 吃 p 大家 表示 大家 这个词在语料库里面出现的概率 p 喜欢 大家 表示 喜欢 这个词出现在 大家 后面的概率 p 吃 大家 喜欢 表示 吃 这个词出现在 大家喜欢 后面的概率 p 苹果 大家 喜欢 吃 表示 苹果 这个词出现在 大家喜欢吃 后面的概率 把这些概率连乘起来 得到的就是这句话平时出现的概率 如果这个概率特别低 说明这句话不常出现 那么就不算是一句自然语言 因为在语料库里面很少出现 如果出现的概率高 就说明是一句自然语言 常用的语言模型都是在近似地求P wt w1 w2 wt 1 比如n gram模型就是用P wt wt n 1 wt 1 近似表示前者 N pos先对词进行了词性分类 2020 2 4 6 1 2 3 模型与方法 基本概念 实际应用 目录 2020 2 4 7 Word2Vec Google的Mikolov在2013年推出了一款计算词向量的工具 word2vec作为神经概率语言模型的输入 其本身其实是神经概率模型的副产品 是为了通过神经网络学习某个语言模型而产生的中间结果 具体来说 某个语言模型 指的是 CBOW 和 Skip Gram 具体学习过程会用到两个降低复杂度的近似方法 HierarchicalSoftmax或NegativeSampling CBOW ContinuousBag of Words Skip Gram ContinuousSkip GramModel HierarchicalSoftmax NegativeSampling 两个语言模型 两种优化方法 2020 2 4 8 CBOWandSkip Gram 初始化值是零向量 叶节点对应的单词的词向量是随机初始化的 CBOW的目标是根据上下文来预测当前词语的概率Skip Gram恰好相反 它是根据当前词语来预测上下文的概率 这两种方法都利用人工神经网络作为它们的分类算法 起初 每个单词都是一个随机N维向量 经过训练之后 利用CBOW或者Skip Gram方法获得每个单词的最优向量 2020 2 4 9 CBOW模型结构 输入层是上下文的词语的词向量 是CBOW模型的一个参数 训练开始的时候 词向量是个随机值 随着训练的进行不断被更新 当模型训练完成之后可以获得较为准确的词向量 O V 时间复杂度 O log2 V 2020 2 4 10 2020 2 4 11 CBOW模型结构 霍夫曼树 在训练阶段 当给定一个上下文 要预测词 Wn 的时候 实际上知道要的是哪个词 Wn 而Wn是肯定存在于二叉树的叶子节点的 因此它必然有一个二进制编号 如 010011 那么接下来我们就从二叉树的根节点一个个地去遍历 而这里的目标就是预测这个词的二进制编号的每一位 即对于给定的上下文 我们的目标是使得预测词的二进制编码概率最大 形象地说 我们希望在根节点 词向量和与根节点相连经过logistic计算得到的概率尽量接近0 即预测目标是bit 1 在第二层 希望其bit是1 即概率尽量接近1 这么一直下去 我们把一路上计算得到的概率相乘 即得到目标词Wn在当前网络下的概率 P Wn 那么对于当前这个sample的残差就是1 P Wn 于是就可以SGD优化各种权值了 2020 2 4 12 Skip Gram模型结构 c d吃 b a 小明喜欢吃甜甜的苹果 2020 2 4 13 1 2 3 实际应用 基本概念 模型与方法 目录 2020 2 4 14 词相似度 训练数据集 经过分词后的新闻数据 大小184MB查看 中国 钓鱼岛 旅游 苹果 几个词语的相似词语如下所示 2020 2 4 15 向量加减法 向量加减法 中国 北京 日本 中国 北京 法国 2020 2 4 16 机器翻译 机器翻译语言词语的关系集合被表征为向量集合向量空间内 不同语言享有许多共性实现一个向量空间到另一个向量空间的映射和转换图为英语和西班语的五个词在向量空间中的位置 已经过降维 对英语和西班语之间的翻译准确率高达90 2020 2 4 17 推荐应用Item2Vec 论文 Item2vec NeuralItemEmbeddingforCollaborativeFiltering应
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年低空环境监测「氢-电」混合动力无人机技术发展报告
- 2025年新能源汽车充电站智能运维平台用户体验优化与提升报告
- 低空经济2025行业洞察报告:社群经济视角下的飞行爱好者社区运营创新策略
- 低空经济2025政策驱动下的航空培训产业适配性评估报告
- 欣赏 哈腰挂教学设计-2025-2026学年小学音乐三年级上册(2024)人音版(2024 主编:赵季平杜永寿)
- 项目四 认识智能停车场中的数据处理-体验数据处理的方法和工具说课稿-2025-2026学年高中信息技术沪科版2019必修1 数据与计算-沪科版2019
- 3.4.1 圆周角定理 说课稿 2024-2025学年 北师大版数学九年级下册
- 4.1 结构化布线系统的组成说课稿-2023-2024学年中职信息技术(信息科技)计算机网络技术(第4版)高教版
- 第10课 集字临摹练习(五)教学设计小学书法练习指导六年级上册西泠版
- 项目主题 人脸识别系统中的信息管理说课稿-2025-2026学年高中信息技术华东师大版2020选择性必修1 数据与数据结构-华东师大版2020
- 小学数学集体备课基本流程
- 2025年10月份上海市普陀区九年级语文上学期月考试卷解析及答案
- 2025届春季厦门银行校园招聘考前自测高频考点模拟试题附答案详解(考试直接用)
- 湘少版(三起)(2024)三年级上册英语Unit4 This is my family教案
- 2025山东潍坊市安丘市华安实业发展集团有限公司招聘2人笔试参考题库附答案解析
- 格尔木瑞诚气体有限责任公司搬迁升级改造项目报告书
- 国家自然科学基金资助项目结题报告模板(可编辑版)
- 镀锌钢管理论重量表
- 架空输电线路无人机巡检作业安全要求
- 义务教育思想品德课程标准(2011版)
- 氧气乙炔安全操作规程
评论
0/150
提交评论