版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章朴素贝叶斯算法朴素贝叶斯算法2目录
CONTENT01引言02模型概述03实验数据04算法实战05本章小结引言01引言在机器学习中,朴素贝叶斯分类是一种用于分类任务的简单而强大的算法。朴素贝叶斯分类基于应用贝叶斯定理,特征之间具有很强的独立性假设。朴素贝叶斯模型也称为简单贝叶斯或独立贝叶斯。所有这些名称都是指贝叶斯定理在分类器决策规则中的应用。这个分类器将贝叶斯定理的力量带到了机器学习中。朴素贝叶斯分类器使用贝叶斯定理来预测每个类的成员概率,例如给定记录或数据点属于特定类的概率。概率最高的类被认为是最可能的类。这也称为最大后验概率(MAP)。朴素贝叶斯是任何人都可以使用的最流行和对初学者友好的算法之一。模型概述022模型概述6经典的概率论对小样本事件并不能进行准确的评估,若想得到相对准确的结论往往需要大量的现场实验;而贝叶斯理论能较好的解决这一问题,利用己有的先验信息,可以得到分析对象准确的后验分布,贝叶斯模型是用参数来描述的,并且用概率分布描述这些参数的不确定性。贝叶斯分析的思路由证据的积累来推测一个事物发生的概率,它告诉我们当我们要预测一个事物需要的是首先根据已有的经验和知识推断一个先验概率,然后在新证据不断积累的情况下调整这个概率。整个通过积累证据来得到一个事件发生概率的过程我们称为贝叶斯分析。朴素贝叶斯算法(NaiveBayesianalgorithm)是应用最为广泛的分类算法之一。朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。2模型概述7
在学习朴素贝叶斯之前先了解几个基本内容。2模型概述8朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y。以下给出简单定义:92模型概述朴素贝叶斯基于各特征之间相互独立,在给定类别为y$的情况下,上式可以进一步表示为下式: 由以上两式可以计算出后验概率为:2模型概述10
由于P(X)的大小是固定不变的,因此在比较后验概率时,只比较上式的分子部分即可。因此可以得到一个样本数据属于类别y_i的朴素贝叶斯计算:
2模型概述11朴素贝叶斯算法有3种类型。下面列出这3种类型:高斯朴素贝叶斯如果x是连续变量,如何去估计似然度P(x|yi)呢?我们可以假设在yi的条件下,x服从高斯分布(正态分布)。根据正态分布的概率密度函数即可计算出P(x|yi),公式如下:2.伯努利朴素贝叶斯
在多元伯努利事件模型中,特征是描述输入的独立布尔变量(二元变量)。就像多项式模型一样,该模型也适用于使用二进制词出现特征而不是词频的文档分类任务。
2模型概述12
实验数据033实验数据14本实验数据集AdultDataSet为美国1994年人口普查数据库中抽取而来,因此也称作“人口普查收入”数据集,共包含48842条记录,年收入大于50k的占比23.93%,年收入小于50k的占比76.07%,数据集已经划分为训练数据32561条和测试数据16281条。该数据集类变量为年收入是否超过50k,属性变量包括年龄、工种、学历、职业等14类重要信息,其中有8类属于类别离散型变量,另外6类属于数值连续型变量。该数据集是一个分类数据集,用来预测年收入是否超过50k。下图给出数据集简介:数据集下载链接为:/ml/datasets3实验数据15
为了更好的立即数据集数据意义,下图给出了数据中变量字段:3实验数据数据处理:
1、将数据拆分为单独的训练和测试集。3实验数据172、编码分类变量:
即将非数值化数据数值化3实验数据183、特征缩放:当数值过大时,不利于计算机高效率的计算,因此可以将数值进行缩放。算法实战044算法实战20模型构建:根据已知公式构建高斯朴素贝叶斯:
根据数据类型,这里给出离散、非离散高斯构建过程4算法实战www.islide.cc21对预测函数也分别建立离散数据、非离散数据的预测分别建立训练函数和预测函数后,基本模型就建立完成可以开始使用2结果分析22从实验输出中可以看到测试数据使用了16281条,其中预测准确率达到83.25%。因此,可以得出结论,高斯朴素贝叶斯分类模型在预测类标签方面做得非常好。本章小结05本章小结24朴素贝叶斯模型发源于古典数学理论,有着坚实的数学基础,以及稳定的分类效率。对大数量训练和查询时具有较高的速度。即使使用超大规模的训练集,针对每个项目通常也只会有相对较少的特征数,并且对项目的训练和分类也仅仅是特征概率的数学运算而已;对小规模的数据表现很好,能个处理多分类任务,适合增量式训练(即可以实时的对新增的样本进行训练);对缺失数据不太敏感,算法也比较简单,常用于文本分类;朴素贝叶斯对结果解释容易理解。本章详细介绍了朴素贝叶斯相关数学理论,并在AdultDataSet使用朴素贝叶斯逐步实现了分类训练与预测。朴素贝叶斯分类器具有高度可扩展性,在学习问题中需要多个变量(特征/预测器)数量的线性参数。但其也存在需要计算先验概率、分类决策存在错误率、对输入数据的表达形式很敏感、使用了样本属性独立性的假设,如果样本属性有关联时
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年办公用品采购合同
- 触变泥浆润滑技术安全规范
- 《设计赏析:文创设计》-6卢浮宫文创设计作品欣赏
- 2025年邵阳市绥宁县招聘事业单位工作人员考试真题
- 2025年西安医学院招聘考试真题
- 2025年句容市高校毕业生三支一扶考试真题《综合知识》
- 2025年北海市社会福利院招聘考试真题
- 2026国网江西省电力有限公司高校毕业生招聘(第三批)考试参考题库及答案解析
- 2026年巴音郭楞蒙古市建设系统事业单位人员招聘考试备考试题及答案详解
- 2026年宝鸡市财政系统事业单位人员招聘考试备考试题及答案详解
- 麻醉车管理制度
- 劳动铸就梦想奋斗开创未来课件-高一下学期五一劳动节励志主题班会
- 新能源汽车维护 课件 任务3.3 冷却系统维护
- 商业模式画布9个维度
- T-CQSES 01-2024 页岩气开采地下水污染评价技术指南
- TCALC 003-2023 手术室患者人文关怀管理规范
- 部编四年级道德与法治下册全册教案(含反思)
- 国家职业技术技能标准 6-25-04-07 广电和通信设备电子装接工 人社厅发20199号
- (完整版)材料力学知识点总结
- 投诉法官枉法裁判范本
- 银行保安服务 投标方案(技术标)
评论
0/150
提交评论