已阅读5页,还剩18页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
CBOW模型简介及若干源码细节 目录 神经网络语言模型CBOW模型简介若干源码细节 神经网络语言模型 神经网络语言模型即是用神经网络模型训练词向量 使生成的词向量能够捕获语义信息 如语义相近的词它们的词向量也相似 一种比较常见的模型 其输入是某个词的上下文 输出为这个词的概率 通过使这个概率最大进行参数的更新 其中参数包括词向量 如Bengio提出的模型 Bengio提到的未来工作 他提出可以将条件概率用树结构进行表示 其中树的每个节点表示在当前上下文下对词进行一次分类的概率 叶子节点表示词在上下文下的条件概率 CBOW模型 输入层 包括当前词t前面的c个词以及当前词后的c个词映射层 将输入层的若干词向量相加输出层 输出层是一个树结构 以语料库中出现的词作叶子节点 输出层 赫夫曼编码 左边记为1 右边记为0分类 分到左边为负类 右边为正类被分为正类的概率用下式表示 对于 足球 这个叶子节点来说 经历了4次二分类 赫夫曼编码为1001 对于词典中的任意词w 赫夫曼树中必定存在一条从根节点到其对应的叶子节点的一条路径 每个节点都有两个分支 可以看成是一个二分类问题 将每一次分类所产生的概率相乘 得到了最终的词w在上下文中的概率 因此 条件概率p w Context w 的一般公式为其中即 得到的对数似然函数如下用随机梯度下降法可以得到 CBOW模型更新参数的伪代码 若干源码细节 词典的存储 由于需要根据词的内容确定其对应的赫夫曼编码和获得该词的词频 因此会有在词典中查找某个词的操作 为了节省查找时间 将词典用哈希表进行存储 低频词和高频词 对于低频词就是将词频小于某个值的词去掉 不参加训练 对于高频词 以一定的概率确定其是否参与某一次训练 概率的确定如下其中 自适应学习率 学习率的计算公式如下其中word count actual表示当前已训练的词数 train words表示总词数 学习率也不能过小 在小于某个值时就不再变化 参数初始
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 ISO 24758-2:2025 EN Fine bubble technology - Evaluation method for determining the reactive oxygen species in ultrafine bubble dispersions - Part 2: APF 3-(p-aminophenyl)
- 2026年中国口含烟行业发展展望及投资策略报告
- 110kV盘阳送变电工程环境影响报告表
- 四川省德阳市2025-2026学年高二上学期11月期中考试生物试卷
- 河南省幼师考试及答案
- 跨境电商客服考试题及答案
- 2025年背诵量大的职业考试题及答案
- 2025年产科进修试题模板及答案
- 重要场所火灾应急预案(3篇)
- 中心吸引应急预案记录(3篇)
- 2025天津滨海传媒发展有限公司招聘13人笔试考试参考题库及答案解析
- 2025年变电设备检修工(中级)技能鉴定理论考试题库(含答案)
- 2025年电磁学试题及答案解析
- 2025年中广核新能源校招面试题及答案
- 2026年黑龙江建筑职业技术学院单招职业倾向性测试必刷测试卷必考题
- d-d二聚体课件教学课件
- 跌倒坠床风险评估报告制度
- 【语文】重庆市沙坪坝区树人小学小学一年级上册期末试卷
- 2025年法院司法辅助人员测试卷附答案
- 2025年安检心理学测试题及答案
- 压力管理策略课件
评论
0/150
提交评论