主题模型培训_胡阳.pptx_第1页
主题模型培训_胡阳.pptx_第2页
主题模型培训_胡阳.pptx_第3页
主题模型培训_胡阳.pptx_第4页
主题模型培训_胡阳.pptx_第5页
免费预览已结束,剩余36页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

TOPICMODEL原理培训,主讲人:胡阳,TM原理培训,什么是共轭先验,共轭分布共轭先验在贝叶斯推理中具有重要意义,当后验分布和先验分布具有相同的分布域。,其中,表示模型中的未知参数,表示样本表示先验分布,表示似然函数,共轭分布表示后验分布,是一个确定的值,已知样本情况下,值为1,共轭分布,共轭先验,Gammar函数魔鬼的游戏认识Beta分布有一个魔盒,上面有一个按钮,每按一下按钮,就均匀的输出一个0,1之间的随机数,我现在按10下,我手上有10个数,你猜第7大的数是什么,偏离不超过0.01就算对抽象成数学随机变量X1,X2,.,XnUniform(0,1)把这n个随机变量排序后得到顺序统计量X(1),X(2),.,X(n)然后请问X(k)的分布是什么,TM有关的分布,TM有关的分布,TM有关的分布,Beta-Binomial函数魔鬼的游戏2Beta-Binomial共轭即便如此,我们能做到一次猜中的概率也不高,很不幸,你第一次没有猜中,魔鬼微笑着说:“我再仁慈一点,再给你一个机会,你按5下这个机器,你就得到了5个0,1之间的随机数,然后我可以告诉你这5个数中的每一个和我的第7大的数相比,谁大谁小,然后你继续猜我手头的第7大的数是多少。”这时候我们应该怎么猜测呢?,TM有关的分布,TM有关的分布,贝努力分布经典的钱币是正面k次数的概率伯努利分布是一个离散型的随机分布贝塔分布(恶魔宝盒)概率密度函数满足以下条件的为贝塔分布,连续型的。假设,贝努利分布是贝塔分布的共轭的,后验分布=似然函数*先验分布/P(样本),/2013/01/lda-math-beta-dirichlet/#more-6953,Dirichlet分布魔鬼的游戏3加大点难度,我们重新来一次,我按魔盒20下生成20个随机数,你同时给我猜第7大和第13大的数,TM有关的分布,TM有关的分布,Dirichlet共轭魔鬼的游戏4,TM有关的分布,多项式分布狄利克雷分布(分布的分布)推导过程,多项式分布是狄利克雷分布是共轭的,TM原理培训,TM的产生过程,Unigram模型每篇文档都是独立的多项式分布存储空间很大,D(文档数)N(词项数)隐形语义检索(PLSA)增加主题变量,维度降低文档选择一个主题,与现实不符,举个例子,有两个句子分别如下:“乔布斯离我们而去了。”“苹果价格会不会降?”,2.TM的产生过程,概率隐形语义检索(LDA)增加概率,使一篇文档产生多个主题训练参数扩展性差,随文档数线性增长对包含词项不在训练集中的新文档准确率很低,TM原理培训,TM-随机模拟,随机模拟(LDA-math-MCMC)别名是蒙特卡罗方法(MonteCarloSimulation)始于20世纪40年代,和原子弹制造的曼哈顿计划密切相关乌拉姆、冯.诺依曼、费米、费曼、NicholasMetropolis,在美国洛斯阿拉莫斯国家实验室研究裂变物质的中子连锁反应的时候,开始使用统计模拟的方法,并在最早的计算机上进行编程实现二十世纪的十个最重要的算法之一,TM-随机模拟,随机模拟(MCMC和GibbsSampling)重要的问题就是给定一个概率分布,如何在计算机中生成它的样本其它几个著名的连续分布,包括指数分布、Gamma分布、t分布、F分布、Beta分布、Dirichlet分布等等,也都可以通过类似的数学变换得到当p(x)p(x)的形式很复杂,或者p(x)p(x)是个高维的分布的时候,样本的生成就可能很困难了,需要使用一些更加复杂的随机模拟的方法来生成样本,马氏链定理,TM-MCMC,收敛行为主要是由概率转移矩阵决定的,第nn步的时候马氏链收敛,TM-MCMC,TM-MCMC,TM-GibbsSampling,TM原理培训,TM模型训练,TM模型训练,参数的意义为K维向量,p(|)表示选择某个文档概率分布的概率为KV矩阵,i,j=p(wj=1|zi=1),变量太多了,解不动,存在多层隐变量,(LDA+多项式分布)的LDA分布,看起来挺简单的,就是一个普通的极大似然估计,估计好参数和,就大功告成了

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论