




已阅读5页,还剩13页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贝叶斯分类 不难想象 数据并不是总体或系统建模是唯一可利用的信息资源 贝叶斯方法提供了一套将外部客观信息融入数据分析过程中的原理方法 这个分析过程是先给出一个待分析数据集的概率分布 因为这个分布是没有考虑任何数据而给出的 所以称为先验分布 这个新的数据集将先验分布修正后得到后验分布 贝叶斯定理就是在知道新的信息后修正数据集概率分布的基本工具 贝叶斯定理为解决归纳 推理分类问题的统计方法提供了理论背景 我们首先介绍贝叶斯定理中的基本概念 然后在运用这个定理说明朴素贝叶斯分类过程和简单贝叶斯分类 设X是一个未知类标号的数据样本 设H为某种假定 数据样本X属于某特定的类C 我们希望确定 即给定观测数据样本X后假定H成立的概率 它是表示给出数据集X后我们对假定的信任度的后验概率 相反 不管数据样本看上去如何 对于任何样本来说都是先验概率 后验概率比先验概率基于更多的信息 数据样本是数据挖掘过程的基本组成部分 贝叶斯定理提供了一种由概率 和来计算后验概率的方法 其基本关系是 现在假定有一组m个元素的样本S 训练数据集 其中每一个样本代表了一个n维向量 值分别和样本属性相对应 并且有k个样本类 每一个样本属于其中一个类 另外给出一个数据样本X 它的类是未知的 可以用最高的条件概率来预测X的类 这里i 1 k 这是朴素贝叶斯分类的基本思想 可以通过贝叶斯定理计算这些概率 因为对所有的类别都是个常量 仅要求乘积的最大值 我们用下面的式子计算一个类别的先验概率 类别的训练样本数量 m m是训练样本的总数 因为的计算是极其复杂的 特别是对大量的数据集来说 所以要给出零假设 样本各属性之间条件独立 利用这个假设 我们用一个乘积来表示 其中是样本X的属性值 能够通过训练数据集来计算 例如 一个销售的顾客数据库 训练样本集合 对购买计算机的人员进行分类 字段为 年龄 取值 40 收入 高 中 低 学生否 Y N 信用 一般 很好 购买计算机否 Y N 记录为14个 具体数据如下 X1 40 中 N 一般 Y X5 40 低 Y 一般 Y X6 40 低 Y 很好 N X7 30 40 低 Y 很好 Y X8 40 中 Y 一般 Y X11 40 中 N 很好 N 利用贝叶斯法则预测 符合下列条件的人员购买计算机的可能性X 年龄 30 收入 中 学生否 Y 信用 一般 本例只有两个类别 即C1 购买计算机 C2 不购买计算机 P Ci 为每个事件的事前概 P C1 9 14 0 643 P C2 5 14 0 357 为了计算P X Ci i 1 2 先进行以下运算 P 年龄 30 C 2 9 P 年龄 30 C 3 5P 收入 中 C 4 9 P 收入 中 C 2 5P 学生否 Y C 6 9 P 学生否 Y C 1 5P 信用 一般 C 6 9 P 信用 一般 C 2 5因此P X C 2 9 4 9 6 9 6 9 0 044P X C 3 5 2 5 1 5 2 5 0 019最后计算P X Ci P Ci i 1 2 P X C1 P C1 0 044 0 643 0 028P X C2 P C2 0 019 0 357 0 007 因为P X C1 P C1 P X C2 P C2 所以根据贝叶斯分类方法可知 数据对象 属于购买计算机类 即 1分母相同只需比较分子的大小即可 应用例2表2 1身高分类样本数据 表3 2对应于属性的概率 利用训练数据可以估计出先验概率P 矮 4 15 0 267 P 中 8 15 0 533 P 高 3 15 0 2利用上述数值对一个新元组进行分类 例如 希望对t Adam 男 1 95m 进行分类 由上述数值及对应于性别和身高的相应概率 可得到下列估计P t 矮 1 4 0 0P t 中 2 8 1 8 0 031P t 高 3 3 1 3 0 333进而可得P t 矮 P 矮 0 0 267 0P 中 P t 中 0 031 0 533 0 0166P 高 P t 高 0 333 0 2 0 0666由于t可能为矮 中 高三者之一 所以三个单个的似然值加起来 即可得到P t 的估计 即P t 0 0 0166 0 0666 0 0832 最后 可得到每个事件的实际概率为 P 矮 t 0 0 267 0 0832 0P 中 t
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 六一职工亲子活动方案
- 六一资助活动方案
- 六一造势活动方案
- 六下数学教研活动方案
- 六安幼儿园家长活动方案
- 医疗设备制度考试试题及答案
- 一模考试试题及答案美术
- 安全生产常识试题及答案
- 药土考试试题及答案
- 药品安全考试试题及答案
- 2025年黑龙江、吉林、辽宁、内蒙古高考生物真题试卷(解析版)
- 2025年艺术与数字艺术类事业单位招聘考试综合类专业能力测试试卷
- 阿米巴模式的合同协议书
- 福建省泉州市晋江市2025届数学七下期末调研试题含解析
- 技术员奖励协议书
- 北京市先农坛体育运动技术学校招聘笔试真题2024
- 打破传统藩篱:小学高段先写后教习作教学模式的创新与实践
- 2025年道德与法治课程考试试卷及答案
- 山西省运城市2025年中考一模语文试题(含答案)
- 天津2025年中国医学科学院放射医学研究所第一批招聘笔试历年参考题库附带答案详解
- 2025河南中考:政治必背知识点
评论
0/150
提交评论