LDA主题模型简介_第1页
LDA主题模型简介_第2页
LDA主题模型简介_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、LDA主题模型简介By 范建宁 2010/10/08关键词:LDA Topic Model分类:数据挖掘与机器学习,贝叶斯统计 作者信息:中国人民大学统计学院版权声明:本文版权归原作者所有,未经许可不得转载。原文可能随时需要修改 纰漏,全文复制转载会带来不必要的误导, 若您想推荐给朋友阅读,敬请以负责 的态度提供原文链接;点此查看如何在学术刊物中引用本文上个学期到现在陆陆续续研究了一下主题模型(topic model )这个东东。何谓 “主题”呢?望文生义就知道是什么意思了,就是诸如一篇文章、一段话、一个 句子所表达的中心思想。不过从统计模型的角度来说,我们是用一个特定的词频分布来刻画主题的,

2、并认为一篇文章、一段话、一个句子是从一个概率模型中 生成的。D. M. Blei在2003年(准确地说应该是 2002年)提出的LDA( Late nt Dirichlet Allocation )模型(翻译成中文就是潜在狄利克雷分配模型)让主题模型火了起来,今年3月份我居然还发现了一个专门的 LDA的R软件包(7月份有更 新),可见主题模型方兴未艾呀。主题模型是一种语言模型,是对自然语言进行 建模,这个在信息检索中很有用。LDA主题模型涉及到贝叶斯理论、Dirichlet 分布、多项分布、图模型、变分推 断、EM算法、Gibbs抽样等知识,不是很好懂,LDA那篇30页的文章我看了四、 五遍才

3、基本弄明白是咋回事。那篇文章其实有点老了,但是很经典,从它衍生出 来的文章现在已经有n多n多了。主题模型其实也不只是LDA 了,LDA之前也有 主题模型,它是之前的一个突破,它之后也有很多对它进行改进的主题模型。需要注意的是,LDA也是有名的Linear Discriminant Analysis(线性判别分析)的缩写。LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection )或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words) 的方法,这种方法将每一篇文档视为一个词频向量,从而将文本信息转化为了易 于建模的数字信息。但是

4、词袋方法没有考虑词与词之间的顺序,这简化了问题的 复杂性,同时也为模型的改进提供了契机。 每一篇文档代表了一些主题所构成的 一个概率分布,而每一个主题又代表了很多单词所构成的一个概率分布。由于 Dirichlet 分布随机向量各分量间的弱相关性(之所以还有点“相关”,是因为 各分量之和必须为1),使得我们假想的潜在主题之间也几乎是不相关的,这与 很多实际问题并不相符,从而造成了 LDA的又一个遗留问题。对于语料库中的每篇文档,LDA定义了如下生成过程(generative process ):1. 对每一篇文档,从主题分布中抽取一个主题;2. 从上述被抽到的主题所对应的单词分布中抽取一个单词;

5、3. 重复上述过程直至遍历文档中的每一个单词。更形式化一点说,语料库中的每一篇文档与(通过反复试验等方法事先给定) 个主题的一个多项分布相对应,将该多项分布记为每个主题又与词汇表(vocabulary )中的皿个单词的一个多项分布相对应,将这个多项分布记为 上述词汇表是由语料库中所有文档中的所有互异单词组成,但实际建模的时候要剔除一些停用词(stopword ),还要进行一些词干化(stemming)处理等。F和分别有一个带有超参数(hyperparameter) 和能的Dirichlet先验分布。对于一篇文档匚中的每一个单词,我们从该文档所对应的多项分布.中抽取一个主题,然后我们再从主题 亍

6、所对应的多项分布 中抽取一个单词 。将这 个过程重复 X次,就产生了文档.:,这里的*是文档的单词总数。这个 生成过程可以用如下的图模型表示:这个图模型表示法也称作“盘子表示法” (plate notation )。图中的阴影圆圈 表示可观测变量(observed variable ),非阴影圆圈表示潜在变量(late nt variable ),箭头表示两变量间的条件依赖性(conditionaldependency),方框表示重复抽样,重复次数在方框的右下角。该模型有两个参数需要推断(infer ): 一个是”文档-主题“分布:,另外是个”主题-单词“分布。通过学习(learn )这两个参数,我们可以知道文 档作者感兴趣的主题,以及每篇文档所涵盖的主题比例等。推断方法主要有LDA模型作者提出的变分-EM算法,还有现在常用的Gibbs抽样法。LDA模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论