



全文预览已结束
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
LDA是比PLSA更“高级”的一种topic model。“高级”在哪里呢?它是一个Bayes Hierarchy Model。所谓Bayes Hierarchy Model说白了就是把模型的参数看作随机变量,这样可以引入控制参数的参数。说起来,比价绕。Topic model的一个通式为P(w|d) = sigma p(w|z)*p(z|d) 其中云里雾里的topic,说白了就是一个一元语言模型,没有任何特殊的地方。对应上面的公式,就是 p(w|z)。而topic model,一般指的是两种分布:第一种就是topicword的分布,就是p(w|z)。第二种是p(z|d),这个是doctopic分布。有了这两种分布后,这个文档集合就有了一种立体化的感觉,闭上眼睛,仔细地想:doc|-| | . |topic_1 topic_2 topic_m而topic_i|-| | . |word_1 word_2 word_n一个三层的文档表示空间跃然纸上。而最上层,就是人们常说的“降维”,其实是把文档投影到了“topic”空间。doctopicword这个Bayes Chain,就可以涵盖LDA的一个最基本的思想。而PLSA其实也是这个链,那它和LDA有什么区别呢?最大的区别就在于,doctopic这一级,PLSA把这一级的所有变量都看作模型的参数,即有多少文档那么就有多少模型的参数;而LDA引入了一个超 参数,对doctopic这一个层级进行model。这样无论文档有多少,那么最外层模型显露出来的对于doctopic就只有一个超参数。那么加什么先验呢?最基本的PLSA和LDA在刻画doctopic和topicword都利用了一个模型,就是multinomial model。为了计算的方便及先验的有意义,共轭先验是首选。multinomial distribution的共轭分布是Dirichlet distribution,很nice的一个分布。这也是Latent Dirichlet Allocation中Dirichlet的由来。Dirichlet prior是一个巨牛的先验:Bayes prior smoothing的先验也是Dirichlet,因为在一元语言模型中,也采用了multinomial来刻画。而且在PLSA中引入的先验也是Dirichlet。那么它到底有什么好处呢?让大家这么对它着迷。计算简单性是大家都知道的,现在说一点它的奇妙的implict idea:拿Bayes prior smoothing说:P(w|d) = c(w,d)+mu*p(w|c) / |d| + mu而最大似然的估计是P_ml(w|d) = c(w,d) / |d|平滑后的分母为c(w,d)+mu*p(w|c)原来为c(w,d)平滑后的分子为|d| + mu 原来为|d|所以奇妙的地方就在不同的地方:好像文档多了mu个词,在这个mu新词中,有mu*p(w|c)这么多的w这就是pseudo count的思想。理解了这个以后,PLSA加先验的推导,就不用再手推了。只要把这些多出来的先验词加上。一切就OK了。所以大家请记住吧,这对巨牛的共轭先验multinomial & Dirichlet那么如何推导LDA的那些参数呢?大体有两种方法:一种是作者的varitional inference;另外一种是Gibbs Sampling。我比较熟悉的是Gibbs Sampling。大家可以上网去搜GibbsLDA的源代码。只要学会了Gibbs Sampling,那么这个代码很简单。Gibbs Sampling的一个最大的优点就是很好理解。具体理解部分略去。回到上面的话题:在这个层级结构中:doctopicword,刚才说到LDA是对(doctopic)加了一个先验。然后他是如何利用这个先验的呢?利用了exchangabiltity。所谓可交换性,就是conditional independent and identically distributed;注意与i.i.d的区别,“conditional”对应到LDA中,是那个超参数给定后,才能得出i.i.d。需要自己看paper理解。在我给定了doctopic的先验后,对于一个文档,我取不同的topic的过程完全是独立的。这也是层级模型的一个很优美的地方。Worker . product_1 product_2 product_m举个直白的例子,一旦当一个工人生产能力确定后,那么那么下面它所生产出来个各种产品都是conditional independent and identically distributed可交换性其实是当我们信息不充足的时候的一个比较优美的假设,既然我们什么都不知道。那么我们就认为给定它的上级后,下面的东西都conditional independent and identically distributed再举一个形象的例子,大家如果是懒人的话就会把袜子攒到一块洗,那么晾袜子就麻烦了,这么多袜子怎么办呢?于是商家很机警,他们发明了那种,头上一个钩,下面是一个大转盘的晾袜子的东西,这样袜子可以晾一圈。所以exchangabiltity指的是,如果袜子一样,那么一旦上面的钩子固定了,那么下面的袜子怎么转我们认为都没有关系的。而条件独立则是一个更强的假设,整个转盘没有头上的钩子,但是确可以悬浮在概率空间中的任何一点,而认为整体形态没有改变。好了,关于袜子话题告一段落。还有一点需要注意的是,为了防止test阶段很多新词的出现,才引入了topicword的一个先验。大家可能想到了,也是Dirichlet分布。学
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 音乐制作人面试问题及答案
- 小儿脑部发育课件
- 难点解析四川省阆中市中考数学真题分类(一次函数)汇编单元测评试卷(含答案详解版)
- 学校宿舍用品赠送合同范本
- 双方共同出资购车合同协议书
- 三方购销合同转让协议书
- 废弃农场转让合作合同范本
- 出租山地给人的合同范本
- 冷库销售与施工合同范本
- 公司不再追责协议书模板
- HG/T 2952-2023 尿素二氧化碳汽提塔技术条件 (正式版)
- DZ∕T 0054-2014 定向钻探技术规程(正式版)
- 福建省泉州市五中七中等七校联合2022-2023学年八年级上学期期末教学质量检测数学试题
- 预防老年人保健品骗局
- 安全生产培训(完整版)课件
- 钢结构长廊施工方案
- 信保业务自查问题统计表
- 年产3万吨环保型铝箔容器系列产品生产线项目环境影响报告
- 安庆汇辰药业有限公司高端原料药、医药中间体建设项目环境影响报告书
- 关于术中知晓预防和脑功能监测专家共识
- 河道修防工高级工试题
评论
0/150
提交评论