naivebayes朴素贝叶斯文本分类.ppt_第1页
naivebayes朴素贝叶斯文本分类.ppt_第2页
naivebayes朴素贝叶斯文本分类.ppt_第3页
naivebayes朴素贝叶斯文本分类.ppt_第4页
naivebayes朴素贝叶斯文本分类.ppt_第5页
已阅读5页,还剩2页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

naive贝叶斯文本分类,魏源 计科十班,朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用,朴素贝叶斯算法简介,在分类(classification)问题中,常常需要把一个事物分到某个类别。一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,xn),用x这个向量来代表这个事物。 有类别集合 y=(y1,y2,y3,yn) 分别计算 p(y1|x) p(y2|x) p(y3|x) p(yn|x), 如果p(yk|x) =max p(y1|x) p(y2|x) p(y3|x) p(yn|x) , x就属于yk类。,如何计算 p(yk|x) 方法:运用贝叶斯公式 p(yk|x)=p(x|yK)*p(yk)/p(x) 在之前已介绍x=(x1,x2,x3,xn),朴素贝叶斯假设 x1,x2,x3,xn 是相互独立的(朴素贝叶斯存在的bug) 则有 p( x | yk ) = p( x1,x2,x3,xn|yk ) = p( x1 | yk ) *p( x2 | yk ) . *p( xn | yk ) (1) (1)式中等式最右边部分的各项是可以通过统计得到的, p(yk)和p(x)也是已知的,这样我们就可以算出p(yk|x),现在开始进入本文的主旨部分:如何将贝叶斯分类器应用到语义消歧文本分类上来。 1 在文本分类中,假设我们有一个文档d 和一个固定的 类集合C=c1,c2,cj 2 我们把一堆打了标签的文档集合作为训练样本,比如 就是说文本 “hello world” 的类型标签是computer 3 通过训练样本来得到一个映射函数,可以把文本x映射到类型ck中,计算映射函数的多项式模型 设某文档d=(t1,t2,tk),tk是该文档中出现过的单词 ,允许重复 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/ (类c下单词总数+|V|) V是训练样本的单词表(即抽取单词,单词出现多次,只算一个) |V|则表示训练样本包含多少种单词。,演示文本分类 本程序通过事先从文档输入训练集,产生一个条件概率矩阵,来指导之后的文本分类。在分类结果完成后,用户可以选择分类是否正确,如果分类正确,新输入的结果会作为新的训练加入训练集(昨

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论