YF-分类-贝叶斯分类讲义_第1页
YF-分类-贝叶斯分类讲义_第2页
YF-分类-贝叶斯分类讲义_第3页
YF-分类-贝叶斯分类讲义_第4页
YF-分类-贝叶斯分类讲义_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据挖掘 厦门大学云计算与大数据研究中心 杨帆 厦门大学云计算与大数据研究中心 2015年版杨帆杨帆厦门大学自动化系厦门大学自动化系E-mail: 第第2讲讲 分类方法分类方法-贝叶斯分类贝叶斯分类模式分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 提纲1.1 分类的概念分类的概念1.2 分类算法分类算法1.3 贝叶斯分类贝叶斯分类1.4 分类相关的问题分类相关的问题数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.1 分类的概念:什么是分类信用卡交易的分类癌症肿瘤的诊断蛋白质功能的预测新闻的分类人类识别能力与分类:父母识别出孩子的哭声在很多背影中认出自己的老友给定关于真实世界的测量数据

2、的样本以及其所对应的类别,对于未来的未知样本的类别进行正确的预测数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.1 分类的概念:真实世界数据的特点 聚集在模式空间中的某些区域聚集在模式空间中的某些区域因此我们可以对其进行划分 是部分的、带噪声的数据,在本质上是更大的、未知是部分的、带噪声的数据,在本质上是更大的、未知的分布的采样的分布的采样我们不可能获得所有样本数据我们也不可能得到关于样本的所有特征信息数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.1分类的概念:有监督分类分类有监督学习有监督学习 聚类聚类无监督学习无监督学习1类3类2类 样本标签信息数据挖掘 厦门大学云计算与大数据研

3、究中心 杨帆 1.1 分类的概念:天气预报数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.1 分类的概念:鸢尾花数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.1 分类的概念:要素样本 示例 训练集 测试集 特征 属性 变量类标 二分类 多分类分类器 模型预测精度数据挖掘 厦门大学云计算与大数据研究中心 杨帆 生成式模型 :联合概率分布 p(x,y) 朴素贝叶斯模型 高斯模型 混合高斯模型 马尔科夫随机场 隐马尔科夫模型从统计的角度揭示数据的分布规律反映同类数据之间的联系 1.2 分类算法:生成式 VS. 判别式判别式模型 :条件概率分布 p(y|x) 决策树 K近邻 Logistic

4、s 回归 神经网络 支持向量机 Adaboost和随机森林寻找不同类数据之间的最优分类面强调异类数据之间的差异数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.2 分类算法:最小误分概率 一个不犯错的分类器是完美的 由于存在“噪声数据”,在实际中并不可能构建不犯错的分类器 是否存在最小误分概率的分类器?“最优”的分类器数据挖掘 厦门大学云计算与大数据研究中心 杨帆 托马斯贝叶斯(Thomas Bayes,1702-1761),英国神学家、哲学家、数理统计学家 ?正向概率“逆概”1.3 分类算法:贝叶斯分类逆概问题数据挖掘 厦门大学云计算与大数据研究中心 杨帆 先验概率P(白粉笔)后验概率P(

5、埃博拉)P(白粉笔|白粉末)P(埃博拉|发热)手上沾染了白色粉末出现了发热症状证据1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 先验概率后验概率证据C类问题1,2,CP(1)+P(2)+P(C)=1P(i)xP(i|x) 更新1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 P(1) = 0.4二 分类问题 1 女生 2 男生x- 穿裤子P(1|x) 学校里 40% 女生, 60% 男生。迎面走来一位学生,他(她)穿着的是长裤,是女生的概率多大?1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 类条件 概率密度p

6、(X|1), p(X|2), , p(X|C)某种类别条件下, 模式样本出现的概率密度分布函数1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 类条件 概率密度女生一半穿长裤,一半穿裙子,男生总是穿长裤。x- 穿长裤P(x|1) = 0.5 P(x|2) = 1 1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1111122()( |)(| )()( |)()( |)pp xpxpp xpp x女生的比例女生中穿长裤的比例男生的比例男生中穿长裤的比例1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 (|)()(|)

7、iiip XPPp XXCiiiPXpXp1)()|()(全概率公式贝叶斯公式后验概率1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 最小错误的贝叶斯决策: 样本属于后验概率最高的那种类别两类问题的具体形式2211(|)(|)PXPXXX任意判别1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 已知先验概率和类条件概率密度,贝叶斯决策的平均错误率是最小的1.3 分类算法:贝叶斯分类2211(|)(|)PXPXXX任意判别111222(|) ( )(|) ()( )( )p XPp XPXXXXpp任意判别 112221(|) ()(|) (

8、)p XPp XPXX任意判别数据挖掘 厦门大学云计算与大数据研究中心 杨帆 R1R21.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 R1R21.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 R1R2R1R2数据挖掘 厦门大学云计算与大数据研究中心 杨帆 假设医生要根据病人的症状来判断其是否感染埃博拉病毒。医生判断结果为“患病”或者“不患病”,这是一个两类模式判别问题。1 表示患病,2表示不患病, X表示“发热症状”1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 一般人群中感染比例为0.5%先验概率P(1)=0.

9、5%P(2)=0.995类条件概率密度p(X| 1)=0.90感染人群出现“发热”症状的比例为90%人群中出现“发热症状”比例为5%p(X)=0.051.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 一个人出现了发热症状,医生该如何诊断?X1 or 2?111()( |)(| )( )0.005% 0.9 = 0.09%0.05pp xpxp x1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算与大数据研究中心 杨帆 不同判别错误带来的风险是不同的!健康人被错判别为患病病人被错判为不患病最小风险的Bayes决策理论1.3 分类算法:贝叶斯分类数据挖掘 厦门大学云计算

10、与大数据研究中心 杨帆 优点 理论上最小的误分率 产生概率值,预测的信度缺点 联合概率分布不可获得 维数灾难 计算效率1.3 分类算法:贝叶斯分类朴素贝叶斯分类器:假定特征之间相互独立数据挖掘 厦门大学云计算与大数据研究中心 杨帆 模型选择:选择合适的分类器及参数 数据噪声:防止过拟合 维数灾难:选择合适的特征及其变换 数据分布:数据分布的局部化和非平衡1.4 分类的相关问题数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.4 分类的相关问题:模型选择选择不同的分类器选择不同的参数预测精度的评估:交叉验证法数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.4 分类的相关问题:数据噪声数据挖

11、掘 厦门大学云计算与大数据研究中心 杨帆 1.4 分类的相关问题:维数灾难数据挖掘 厦门大学云计算与大数据研究中心 杨帆 分界面的偏移:小类的风险加大 采样方法:上采样和下采样 代价敏感方法1.4 分类的相关问题:非平衡问题数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.4 分类的相关问题:非平衡问题的准确率评估数据挖掘 厦门大学云计算与大数据研究中心 杨帆 把一个类的样本误分成某一类的后果会比分到其它类中的后果更严重。 例:把一个可能回应的家庭误分为不太可能对促销回应的家庭会比相反的情形导致更大的机会成本。在这种场景下,用误分率作为标准会产生误导。1.4 分类的相关问题:非平衡问题的不对

12、称风险数据挖掘 厦门大学云计算与大数据研究中心 杨帆 假设在邮件列表中接受促销的家庭在1左右。如果一个分类器简单的把所有的家庭都分为不作反应的家庭,那么这个分类器将只有1左右的误分率,但这在实际应用中没有任何意义。 一个把30的购买家庭误分为不购买的家庭并且把2不购买的家庭分类到购买的家庭的分类器,尽管误分率比较高,但如果从销售中得到的收益高于促销的费用,那么这个分类器还是要好些。1.4 分类的相关问题:非平衡问题的不对称风险数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1.估计两种类型的误分费用,可以在测试数据集中用混淆表计算出每种类型的期望误分成本,用机会成本作为标准去比较不同的分类器。

13、2.改变分类规则去反映不对称费用。存在一个解决不对称费用的贝叶斯分类器,它给出的规则可以最好地减小期望误分机会成本。就是贝叶斯风险分类器,并且最小的期望误分机会成本就是贝叶斯风险。1.4 分类的相关问题:非平衡问题的解决方案数据挖掘 厦门大学云计算与大数据研究中心 杨帆 1100001 ()()(0|1)()()(1|0) if p Cf xCp CfxCthen XC(0|1)C1(1|0)C0CC的误分成本的误分成本 (0|1)(1|0) ?If CCthen1.4 分类的相关问题:非平衡问题的解决方案数据挖掘 厦门大学云计算与大数据研究中心 杨帆 3.从一个类中额外抽样来加大这个类在误分

14、错误中的权重。如果把正类的例子误分为负类的机会成本是把负类的例子误分为正类的机会成本的10倍,那么我们从正类中进行随机抽样的次数也是从负类中抽样次数的10倍。1.4 分类的相关问题:非平衡问题的解决方案数据挖掘 厦门大学云计算与大数据研究中心 杨帆 01100100000,1,.,1 ,.,()()(|)()() ()()()() kjjjkiiijjiiikijjkCCCfxp Cp CXxfxp CIf fxp CMaxfxp Cthen XC假设有 个类别:贝叶斯公式:最小错误贝叶斯规则:1.4 分类的相关问题:非平衡问题的解决方案数据挖掘 厦门大学云计算与大数据研究中心 杨帆 000,1,.,1 () () (| )() () ( | ) jjiiikijjIffxp C Cj jMaxf xp C Ci ithen XC1.4 分类的相关问题:非平衡问题的解决方案数据挖掘 厦门大学云计算与大数据研究中心 杨帆 小

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论