已阅读5页,还剩2页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
naive贝叶斯文本分类,魏源 计科十班,朴素贝叶斯具有容易实现,运行速度快的特点,被广泛使用,朴素贝叶斯算法简介,在分类(classification)问题中,常常需要把一个事物分到某个类别。一个事物具有很多属性,把它的众多属性看做一个向量,即x=(x1,x2,x3,xn),用x这个向量来代表这个事物。 有类别集合 y=(y1,y2,y3,yn) 分别计算 p(y1|x) p(y2|x) p(y3|x) p(yn|x), 如果p(yk|x) =max p(y1|x) p(y2|x) p(y3|x) p(yn|x) , x就属于yk类。,如何计算 p(yk|x) 方法:运用贝叶斯公式 p(yk|x)=p(x|yK)*p(yk)/p(x) 在之前已介绍x=(x1,x2,x3,xn),朴素贝叶斯假设 x1,x2,x3,xn 是相互独立的(朴素贝叶斯存在的bug) 则有 p( x | yk ) = p( x1,x2,x3,xn|yk ) = p( x1 | yk ) *p( x2 | yk ) . *p( xn | yk ) (1) (1)式中等式最右边部分的各项是可以通过统计得到的, p(yk)和p(x)也是已知的,这样我们就可以算出p(yk|x),现在开始进入本文的主旨部分:如何将贝叶斯分类器应用到语义消歧文本分类上来。 1 在文本分类中,假设我们有一个文档d 和一个固定的 类集合C=c1,c2,cj 2 我们把一堆打了标签的文档集合作为训练样本,比如 就是说文本 “hello world” 的类型标签是computer 3 通过训练样本来得到一个映射函数,可以把文本x映射到类型ck中,计算映射函数的多项式模型 设某文档d=(t1,t2,tk),tk是该文档中出现过的单词 ,允许重复 先验概率P(c)= 类c下单词总数/整个训练样本的单词总数 类条件概率P(tk|c)=(类c下单词tk在各个文档中出现过的次数之和+1)/ (类c下单词总数+|V|) V是训练样本的单词表(即抽取单词,单词出现多次,只算一个) |V|则表示训练样本包含多少种单词。,演示文本分类 本程序通过事先从文档输入训练集,产生一个条件概率矩阵,来指导之后的文本分类。在分类结果完成后,用户可以选择分类是否正确,如果分类正确,新输入的结果会作为新的训练加入训练集(昨
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年泉州华光职业学院单招职业倾向性测试必刷测试卷及答案1套
- 2026年湖南水利水电职业技术学院单招综合素质考试题库新版
- 2026年湖南劳动人事职业学院单招职业适应性测试必刷测试卷新版
- 2026年福建华南女子职业学院单招职业技能考试题库带答案
- 2026年湖南城建职业技术学院单招职业适应性考试题库完美版
- 2026年西安电力高等专科学校单招职业适应性测试必刷测试卷及答案1套
- 2026年甘肃农业职业技术学院单招职业倾向性考试必刷测试卷及答案1套
- 2026年演出经纪人之演出市场政策与法律法规考试题库200道(考点精练)
- 2026年福建幼儿师范高等专科学校单招职业倾向性考试必刷测试卷汇编
- 2026年濮阳石油化工职业技术学院单招职业倾向性测试题库必考题
- 无人系统自主控制
- CMK自动计算公式表格模板
- 2023年考研考博考博英语东北大学考试历年高频考试题专家版答案
- 商场保安队夜间清场安全检查制度
- 《伶官传》原文及译文
- 2023-2024学年内蒙古自治区赤峰市小学语文四年级期末高分考试题详细参考答案解析
- 组合房计算书
- 宋濂《送东阳马生序》同步测练
- GB/T 36624-2018信息技术安全技术可鉴别的加密机制
- GB/T 34108-2017金属材料高应变速率室温压缩试验方法
- GB/T 2900.63-2003电工术语基础继电器
评论
0/150
提交评论