《概率主题模型》PPT课件.ppt_第1页
《概率主题模型》PPT课件.ppt_第2页
《概率主题模型》PPT课件.ppt_第3页
《概率主题模型》PPT课件.ppt_第4页
《概率主题模型》PPT课件.ppt_第5页
已阅读5页,还剩15页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率主题模型 Probabilistic Topic Models,靳 婷,目 录,引言 TF-IDF模型 LSI模型(Latent Semantic Index,潜在语义索引) 概率主题模型简介 一元混合模型(Mixture of unigrams) PLSI模型(Probabilistic Latent Semantic Index, 概率潜在语义索引) LDA模型(Latent Dirichlet Allocation) 模型描述 抽取算法,TF-IDF模型,主要思想: 建立一个矩阵|V|*|D|, |V|词典中单词的个数,|D|语料库中文本的 TF:对于每一个词,在所有文本中出现的次数 IDF:包含这个词的文本数的倒数 贡献: 不足: 不对语义进行识别 存储空间、计算量非常大,长度不固定的文本,长度固定的矩阵,LSI模型(Latent Semantic Index,潜在语义索引),奇异值分解:,对角矩阵,行代表一个词,列代表一个文档,概率主题模型,主要思想 文档是若干主题的混合分布 每个主题又是一个关于单词的概率分布,一元混合模型(Mixture of unigrams),一元模型:每个文本的词语都是独立地从一个多项式分布产生,简单直观的词频概率模型,没有考虑文本的主题,一元混合模型(Mixture of unigrams),首先选择一个主题z,然后根据条件多项式 独立地生成该文本的N个词语,每个文本的概率为:,这个模型只允许一篇文本有一个主题,p(z)是z的分布,p(w|z)可看作一个k|V|的矩阵,一元混合模型(Mixture of unigrams),V = Film, Music, Tax, Million, Student, Teacher, School,T = Arts, Budgets, Education. k = 3 p(w|z)是37矩阵,若p(w|z)的第1行表示主题Education, 这个主题的文本中Student, Teacher, School的词频会高些,该行的行向量所表示的分布 p(w|z)会在Student, Teacher, School附近出现峰值 若第2行表示主题Budgets,p(w|z)就会在 TAX,MILLION附近出现峰值 在生成一篇文档前先随机选出p(w|z)的第z行(根据分布p(z));再依次随机选出第z行的w1,w2, wN列(每次选取都根据分布p(w|z)),这就生成了文本中的所有单词,PLSI模型(Probabilistic Latent Semantic Index, 概率潜在语义索引),放弃了LSI所用的矩阵转换的方法,采用生成模型 引入了“潜在主题”一个随机生成过程当中的潜在变量,PLSI模型(续),PLSI 是一个k*|D|矩阵 是先验概率:只建立在已见的训练集的基础上,训练集之外的未见文本,没有一个合适的先验概率 训练样本增加,矩阵的大小也线性增加,存在过度拟合问题 离散,不同主题之间在概率上是相互独立的,LDA模型(Latent Dirichlet Allocation),非监督机器学习 识别隐含的主题信息 Dirichlet概率分布,连续分布,可以给未知文本分配属于某个主题集的概率,产生一个主题的集合,LDA模型(续),假设有 个主题,所给文本中的第 个词汇 可以表示如下: ,潜在变量,表明第 个词汇记号 取自该主题 ,词汇 记号属于主题 的概率 ,给出主题 属于当前文本的概率,LDA模型(续),表示对于主题 , 个词汇上的多项分布 表示对于文本 , 个主题上的多项分布,LDA模型(续),文本上的主题分布,主 题,主题上的单词分布,单 词,文 本,LDA模型(续),LDA概率主题模型生成文本的过程: 根据泊松分布 得到文本的单词数目 根据Dirichlet分布 得到该文本的一个主题分布概率向量 对于该文本 个单词中的每一个单词 从 的多项式分布随机选择一个主题 从主题 的多项式条件概率分布选择一个单词作为,LDA模型(续),Choose parameter p(); For each of the N words w: Choose a topic z p(z|); Choose a word w p(w|z); 其中是一个1k的随机行向量,p()是的分布,它的具体函数形式就是Dirichlet分布,这一分布保证的k个分量 _1,_2,_k都取连续的非负值,且_1 + _2 + + _k = 1 z_n是离散随机变量,在主题T中取k个离散值,p(z|)是给定时z的条件分布,它的具体函数形式很简单,就是把直接拿来作为概率值 p(z = i|) = _i,也就是说z取第 1,2,k个主题的概率分别是_1,_2,_k w_n是离散随机变量,在词汇表V中取|V|个离散值,p(w|z)是给定z_n时 w的条件分布,看作k|V|的矩阵,LDA模型(续)-生成过程,先随机生成一个1k的向量(根据Dirichlet分布p()) 然后随机选取p(w|z)的第z_1行(根据分布p(z|)) 接着随机选取z_1行的w_1列(根据分布p(w|z = z_1)),同样的方法依次选出z_2,w_2,z_N,w_N,Mixture of unigram, PLSI, LDA,EM(Expectation Maximization)算法,期望最大化算法,分为两步 E-Step:estimate the expected v

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论