下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
词向量模型概述1.1Word2vec模型Word2vec作为一种词嵌入方法尝尝被用于自然语言处理任务中,它是Mikolov等人ADDINEN.CITE<EndNote><Cite><Author>Mikolov</Author><Year>2013</Year><RecNum>122</RecNum><DisplayText><styleface="superscript">[52]</style></DisplayText><record><rec-number>122</rec-number><foreign-keys><keyapp="EN"db-id="xxp5f09arwdtx3e2907vv2rwtxzpxpx2ezat"timestamp="1647622056">122</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Mikolov,Tomas</author><author>Sutskever,Ilya</author><author>Chen,Kai</author><author>Corrado,GregS</author><author>Dean,Jeff</author></authors></contributors><titles><title>Distributedrepresentationsofwordsandphrasesandtheircompositionality</title><secondary-title>Advancesinneuralinformationprocessingsystems</secondary-title></titles><periodical><full-title>Advancesinneuralinformationprocessingsystems</full-title></periodical><volume>26</volume><dates><year>2013</year></dates><urls></urls></record></Cite></EndNote>[52]对词汇信息进行研究时得出的,该方法可以通过词汇共现信息从给定的大量无标注语料数据中将词汇汇编成为词的向量形式,经训练完成之后,它们可以用来反应词与词之间存在的语义关系。Word2vec模型可以分为两类,一类是跳字模型(Skip-gram),另一类是连续词袋模型(ContinuousBagofwords,CBOW),它们都可在词向量训练时进行使用。将其结构图进行描绘,具体样式如图2-3所示:图2-3Word2vec模型结构图在上述两种模型中,都具备相同的三层结构,分别是输入层、投影层和输出层,但两种模型之间的原理并不相同。CBOW模型可以计算词出现的可能性,具体的计算过程需要联合上下文中的词语来进行,将其形式化: (2-12)在公式(2-12)中,代表某一位置的词汇,而和则代表以这一词汇为基准的上下文词汇。Skip-gram模型与前者存在很大的反差,它是文本内容中通过词的位置来反向对前后词汇和的预测,将其形式化: (2-13)在大多数的实验中,Skip-gram模型一般训练用时比BOWM模型训练用时要长,且预测结果的准确度也相对较高。1.2BERT模型自然语言处理技术中还有一种是Devlin等人ADDINEN.CITE<EndNote><Cite><Author>Devlin</Author><Year>2018</Year><RecNum>45</RecNum><DisplayText><styleface="superscript">[53]</style></DisplayText><record><rec-number>45</rec-number><foreign-keys><keyapp="EN"db-id="xxp5f09arwdtx3e2907vv2rwtxzpxpx2ezat"timestamp="1635953909">45</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Devlin,Jacob</author><author>Chang,Ming-Wei</author><author>Lee,Kenton</author><author>Toutanova,Kristina</author></authors></contributors><titles><title>Bert:Pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding</title><secondary-title>arXivpreprintarXiv:1810.04805</secondary-title></titles><periodical><full-title>arXivpreprintarXiv:1810.04805</full-title></periodical><dates><year>2018</year></dates><urls></urls></record></Cite></EndNote>[53]提出的BERT模型,因为现存的一些语言训练模型大多数都是单向的,没有充分考虑方向对于语义的影响,只是单方向的依赖关系并非最佳选择,因此可用的与训练模型都存在一些限制。BERT模型主要采用了迁移学习,先从大量无标注语料数据中学习得到语言知识,然后将语言知识迁移到下游任务。简单来说,就是在借助无监督的情况下完成一个双向语言模型的学习,再将学习得到的文本内的语义信息经由下游任务的数据集来进行模型参数微调,实现迁移学习的目的。一个BERT预训练模型的基础结构是标准的transformer结构内的encoder部分,而BERT的核心结构双向的transformer,BERT的网络结构具体展示如下:图2-4BERT网络结构图网络结构具体包括三层,第一层是输入层,中间的一层是transformer编码层,最后一层为输出层,我们只需要把以上三个部分实现再实现预训练任务的代码,BERT就算完成了。其中核心部
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年湖南分类考试政治考试题(附答案)
- 邮政速递考试题库及答案
- UI设计师招聘面试题及答案
- 2026自媒体秋招面试题及答案
- 车辆技能鉴定试题及答案
- 未来五年坡地拖拉机企业ESG实践与创新战略分析研究报告
- 中国金融电子化集团有限公司2026校园招聘6人备考题库附答案
- 北京市大兴区瀛海镇社区卫生服务中心面向社会招聘临时辅助用工人员考试参考题库必考题
- 南充市司法局2025年下半年公开遴选公务员(参公人员)公 告(2人)考试备考题库附答案
- 四川光明能源发展集团有限公司关于公开招聘见习生的备考题库必考题
- 2025年二年级上册语文期末专项复习-按课文内容填空默写表(含答案)
- 2026年辽宁经济职业技术学院单招职业倾向性考试题库及参考答案详解1套
- 2025年及未来5年市场数据中国软包装用复合胶行业市场调研分析及投资战略咨询报告
- 建筑施工公司成本管理制度(3篇)
- 2025年妇产科副高试题库及答案
- 全国物业管理法律法规及案例解析
- 2025年度党委党建工作总结
- 抖音来客本地生活服务酒旅酒店民宿旅游景区商家代运营策划方案
- 新质生产力在体育产业高质量发展中的路径探索
- 2025年公民素质养成知识考察试题及答案解析
- 北仑区打包箱房施工方案
评论
0/150
提交评论