下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、Googleword2vec学习基础陈良臣2015年10月18日1. word2vec简介word2vec是wordtovector的缩写。word2vec是Google在2013年年中开源的一款将词表征为实数值向量的高效工具,采用的模型有CBOWCContinuousBag-Of-Words,即连续的词袋模型)和Skip-Gram两种。能够把词映射到K维向量空间,甚至词与词之间的向量操作还能和语义相对应。(word2vec通过训练,可以把对文本内容的处理简化为K维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似度。)因此,word2vec输出的词向量可以被用来做很多NL
2、P相关的工作,比如聚类、找同义词、词性分析等等。如果换个思路,把词当做特征,那么Word2vec就可以把特征映射到K维向量空间,可以为文本数据寻求更加深层次的特征表示。2. 词向量介绍词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量就是把一个词表示成一个向量。词向量,顾名思义,就是用一个向量来表示一个单词,这个向量不是随便的一个,而是根据单词在语料中的上下文而产生,具有意义的向量。而word2vec就是根据语料来生成单词向量的一个工具。生成单词向量有什么用?最主要的一点就是用来计算相似度。直接计算两个词的余弦值便可以得到。一种最简单的词向量方式是one-hotrepresent
3、ation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个1,其他全为0,1的位置对应该词在词典中的位置。举个例子,“话筒”表示为0001000000000000“麦克”表示为0000000010000000每个词都是茫茫0海中的一个1。3. word2vec代码word2vec的原版代码是googlecode上的,基于c语言。除了google自己的word2vec工具,各位对词向量感兴趣的牛人们也相继编写了各自不同的版本。版本地址CJavaC+python备注(来源于网上资料):最权威的当然是C语言版本,但是阅读起来比较困难一点。Python版本有优化处理,所以
4、速度相对来说也不慢,但只是实现了分层softmax方法对skip-gram模型进行训练。Java版本分别实现了分层softmax方法对CBOW模型和skip-gram模型进行训练。C+版本的没有阅读其代码,所以未知,4. word2vec工作流程1)准备语料数据.2)利用分词工具对语料库进行分词3)用word2vec工具训练词向量4)分析备注:下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。(1) .中科院自动化所的中英文新闻语料库中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。(2) .搜狗的中文新闻语料库
5、http:/www.sogou.Com/labs/dl/c.html包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。(3) .李荣陆老师的中文语料库压缩后有240M大小(4) .谭松波老师的中文文本分类语料不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):(5) .网易分类文本数据包含运动、汽车等六大类的4000条文本数据。(6) .中文文本分类语料包含Arts、Literature等类别的语料文本。(7) .更全的搜狗文本分类语料搜狗实验室发布的文本分类语料
6、,有不同大小的数据版本供免费下载(8) .2002年中文网页分类训练集5. word2vec常用功能1 .词语相似度1)计算两个词语相似度。如图1计算asp与net的相似度为0.6215127iRiuigr?java件io.Butferedlnpiac3cre1415publicclMAaifotdSVZC(puLbiicml用上Ievoid=rg3JLhs-cnrslOEKceptienWordJVECvec-newWoEd2VEC();::.loAdModelfdatai/rvectorasbln*j;);Sy;3C:Ei.cu&.printin;gC
7、cnwlr可.ErrorLogRjPyUnrtteririifTatj*WordJVEC(JavaApplicationCiXProgramRtV*vareMbirjav*w,ese2013*11*2110:39:13)1ii2)列出所有相似词语列表。如图2为“php”的结果。22+pwtLn.COn*woeUa4Mlysis)223I5etn*ulc-newTESeCO;2t:hF-1二c.dnicuicc(php|i-2S1127IRSHE电革工t七E-,瞥事二:t工工atEQEf28vin1i(iterhi-sWext()II29IWprdTrrywoh0.(MonKnEyJfmmt4电
8、25.m阑IsnwMed*WordZVECA(pficalici|CrcgrirffnFlHVtfvaVreTybjAwtvMW20OeweTdMlylla3f3丁“招串”程序员D.7aS97tQ.f3fl53QttytUl*6013”$*linLUtLESHCBCftd3.6625595Solemn匕匕工k坤hpO.45fieis后自H序c.650951Fhpchln*St才D.444SI137dlCat434532j文豆WlllfliiAVAJCIlft0d330235”p口.my”噂孰臂*升发miwnaifffto.wuMqlQ14S4D03r-tzJL工田M.TA或*%,3)寻找对应关
9、系:如图3:男人-男孩女人-?如图4:内蒙-呼和浩特河北-?盘n蜃18V4舞川卜ryvozd-1ErrorLot201Ml-21上410:525酗THte*M日工dAAalyfltfl女孩O.eft414124小女接3.717B7M4*皓:.?L63O男送0.十二岁00flfl7M3自秀03203一阉步D.-DL*4456谈个子.394691*委大0.Wg打M应于0.S98071B赛;*二鹏”5?Syatesi.suz-printIn,(*Sy31fem*lzjtprntUire3ul匚”,具31口仃|内富1%河北.呼,口诘特,):二是匚二匕iter-,iterasCTi:AnrmHAnnAn
10、jnHmKW.whiie(itexhasNext.()ttarclEntrYwordilWordEntry工尸-.next(1:.prmtln4+ConsoleErrorI09RjPyUriltionC=Pfogrom皿皿,川上七八局j*(2013-11-21上午1O57:5幻*AA事wozdainewBa3hSet-C5xin3);、-T1-HAdd大连kj翁-Da面朝HMfi-Jcftdddddda-a:.a.ftddic:hpw):l1tword-list-r-?3.doeJntniatch(word?)for(Stringword:肃口票寸_【,七)SyaCem.cut.prj.-n.
11、tli3(vc:i);8ConuleS30Em塞11Terminated*Word2V?C(JavaAppriqueen6 .词语相似度计算代码实现基于HowNet(知网)和Word2vec的词语相似度计算实现(包含完整的java代码)代码下载地址:(使用HowNet分词,Word2vec训练词向量).dict.AV.TOLE.EAT,七_dict.datr,.lct,txtr,Alib.Kafman.jBva.HidderJIeuron,j4va,.XLearn.jiava.Nturcn.java.Test.java.WordEVEC.jwa.rW&rdEntryjav4.VWurdKinf
12、tMis.jw.ordNenroll,ja中a7 .Word2vec原理与模型采用的模型有CBOWCContinuousBag-Of-Words,即连续的词袋模型)和Skip-Gram两种.cbow模型是用上下文预测中间的词,并且参数是用的上下文词向量的和。skip-gram模型是中间的词预测上下文,并且参数是中间词的词向量。假设有这样一句话:今天下午2点钟搜索引擎组开组会。任务1:对于每一个word,使用该word周围的word来预测当前word生成的概率。如使用“今天、下午、搜索、引擎、组”来生成“2点钟”。任务2:对于每一个word,使用该word本身来预测生成其他word的概率。如使用
13、“2点钟”来生成“今天、下午、搜索、引擎、组”中的每个word。两个任务共同的限制条件是:对于相同的输入,输出每个word的概率之和为1。两个任务分别对应两个的模型(CBOW和skim-gram)。8 .参考资料:1) .DeepLearning实战之word2vechttp:2) .利用中文数据跑Google开源项目word2vec3) .Windows下使用Word2vec继续词向量训练4) .word2vec使用指导Word2vec原理介绍NCE算法研究以及其在Word2vec工具上的应用大在理工大学信息检索研究望5) .word2vec使用小结http:6) .Word2Vec在中文的应用7) .学习Word2vec8) .深度学习word2vec笔记(基础篇)68f6e4dd3fdd8c761a11ec7d60e779&3rd=MzA3MDU4NTYzMw
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 江苏省如东县2026届初三毕业班3月教学质量检查语文试题含解析
- 企业流程管理优化方法手册
- 公司消防安全管理责任书承诺函7篇范文
- 新能源汽车维修与维护操作指南
- 历史金与南宋对峙课件- -2025-2026学年统编版七年级历史下册
- 2026年校园反恐防暴应急演练活动方案
- 2026年预约诊疗服务工作推进及成效汇报
- 死对头与我协议书结婚
- 公司关于保密协议书的通知
- 三和协议书是什么
- 中石油组织管理制度
- 人教版七年级道法下册 第一单元第二课 做情绪情感的主人(上课、学习课件)
- 2025年世界防治结核病日知识竞赛考试题库300题(含答案)
- 外墙开裂及渗水维修方案
- 酒店财务知识培训课件
- 2025年包头轻工职业技术学院单招职业技能测试题库a4版
- 木店CNGLNG-加气站反恐防恐防暴应急预案
- 2025年海南省农垦投资控股集团招聘笔试参考题库含答案解析
- 2025年版蒙医医师资格考试大纲
- 统编版七年级语文下册第二单元阅读综合实践(课件)
- 玩偶之家-完整版
评论
0/150
提交评论