




已阅读5页,还剩9页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
6 4BayesianClassification BayesianClassification 贝叶斯分类是一种统计分类方法 在贝叶斯学习方法中实用性最高的一种是朴素贝叶斯分类方法 本节主要介绍贝叶斯的基本理论 和朴素贝叶斯的原理和工作过程 并给出一个具体的例子 BayesianTheorem Basics 设X是类标号未知的数据样本 设H为某种假设 如数据样本X属于某特定的类C 对于分类问题 我们希望确定P X H 即给定观测数据样本X 假定H成立的概率 贝叶斯定理给出了如下计算P X H 的简单有效的方法 P H 先验概率 或称H的先验概率 P X H 代表假设H成立情况下 观察到X的概率 P H X 后验概率 或称条件X下H的后验概率 贝叶斯基本理论的例子 假设数据样本由水果组成 用它们的颜色和形状来描述 并做如下假设 X 表示假设红色和圆形的 H 表示假设X是苹果 则 P H X 反映当我们看到X是红色并且是圆形的时候 我们对X是苹果的确信程度 从直观上看 P H X 随着P H 和P H X 的增长而增长 同时也可以看出P H X 随P X 的增加而减小 这是很合理的 因为如果X独立于H时被观察到的可能性越大 那么X对H的支持度越小 理论上讲 与其所有分类算法相比 贝叶斯分类具有最小的出错率 然而 实践中并非如此 这是由于对其应用的假设的不准确 以及缺乏可用的概率数据造成的 研究结果表明 贝叶斯分类器对两种数据具有较好的分类效果 1 完全独立的数据 2 函数依赖的数据 Na veBayesClassification 朴素贝叶斯分类的工作过程如下 1 每个数据样本用一个n维的特征向量表示 分别描述对n个属性样本的n个度量 2 假定m个类 给定一个未知的数据样本X 分类器将预测X属于具有最高后验概率的类 也就是说 朴素贝叶斯分类将未知的样本分配给类 当且仅当 其中这样 最大化 其最大的类称为最大后验假定 根据贝叶斯定理 3 由于P X 对于所有类为常数 只需要最大即可 如果类的先验概率未知 则通常假定这些类是等概率的 即 因此问题就转换为对的最大化 常被称为给定时数据X的似然度 而使最大的假设称为最大似然假设 否则 需要最大化 注意 类的先验概率可以用计算 其中是类中的训练样本数 而s是训练样本总数 4 给定具有许多属性的数据集 计算的开销可能非常大 为降低计算的开销 可以做类条件独立的朴素假定 给定样本的类标号 假定属性值相互独立 即在属性间 不存在依赖关系 这样 其中概率可以由训练样本估值 如果是离散属性 则 其中是在属性上的具有值的类的训练样本数 而是中的训练样本数 如果是连续值属性 则通常假定该属性服从高斯分布 因而 是高斯分布函数 分别为平均值和标准差 5 对于未知样本X分类 也就是对每个类 计算 样本X被指派到类 当且仅当 换言之 X被指派到其最大的类 上面的五部就是朴素贝叶斯方法的主要思想 下面用一个具体的例子来说明具体的只用过程 表1样本取值 例1 下表给出的训练数据 使用朴素的贝叶斯方法进行分类学习 数据样本属性用age income student 和credit rating描述 类标号属性buys computer具有两个不同的值 yes no 设 对应于类buys computer yes 对应于类buys computer no 我们希望分类的未知样本为 X age 30 income medium student yes credit rating fair 我们希望最大化 每个类的先验概率可以根据训练样本计算 P buys computer yes 9 14 0 643P buys computer no 5 14 0 357 我们通过在全部时间基础上观察某事件出现比例来估计概率 例如 在下例中 估计P age 30 buys computer yes 使用的是比值 其中n 9为所有30 buys computer yes 的训练样本 而是在其中age 30的数目 为计算 我们计算下面的条件概率 P age 30 buys computer yes 2 9 0 222P age 30 buys computer no 3 5 0 600P income medium buys computer yes 4 9 0 444P income medium buys computer no 2 5 0 400P student yes buys computer yes 6 9 0 667P student yes buys computer no 1 5 0 2P credit rating fair buys computer yes 6 9 0 667P credit rating fair buys computer no 2 5 0 4假设条件独立性 使用以上的概率 我们得到 P X buys computer yes 0 222x0 444x0 667x0 0 667 0 044P X buys computer no 0 6x0 4x0 2x0 4 0 019P X buys computer yes
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年事业单位工勤技能-湖南-湖南垃圾清扫与处理工一级(高级技师)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖南-湖南不动产测绘员三级(高级工)历年参考题库典型考点含答案解析
- 2025年事业单位工勤技能-湖北-湖北热处理工四级(中级工)历年参考题库含答案解析
- 主题公园沉浸式体验项目开发中的虚拟现实与增强现实技术应用研究报告
- 2025年全民健身设施与社区体育健身设施智能化升级报告
- 2025年事业单位工勤技能-海南-海南假肢制作装配工三级(高级工)历年参考题库含答案解析
- 2025-2030中国篮球鞋行业竞争态势及消费趋势预测报告
- 2025-2030中国空调冲压拉深行业市场运营模式及未来发展动向预测报告
- 2024版股权代持协议和股权转让协议
- 2025年事业单位工勤技能-广西-广西农业技术员五级(初级工)历年参考题库典型考点含答案解析
- 2025年国家保安员试考试题库(附答案)
- 上海民办兰生中学招聘考试真题2024
- 乡土中国考试题及答案
- 刻蚀工艺考试题及答案
- 北京理工大学入党流程
- 中国教育信息化发展报告
- 工程进度款申请书
- 培养“最好的我”新时代品质少年-学校课程规划与实施方案
- 苗木栽植补植合同范本
- 成人肠内营养支持护理
- 核销贷款培训课件
评论
0/150
提交评论