朴素贝叶斯分类_第1页
朴素贝叶斯分类_第2页
朴素贝叶斯分类_第3页
朴素贝叶斯分类_第4页
朴素贝叶斯分类_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

朴素贝叶斯分类一、朴素贝叶斯分类方法描述设样本集有个属性:,可能类别为个:,待分类样本为:,分别计算条件概率:,〔1〕那么条件概率最大的对应的类就是的预测类。在公式〔1〕中,计算等式左边的每个条件概率时,右边的分母相同,因此只需要计算分子,然后比拟大小即可。其中另外,用朴素贝叶斯分类时还需假设各属性之间相互独立,此时:二、条件概率的估计方法如果属性为离散型随机变量,那么条件概率例1表1是用于构造分类模型的训练集,包含14个样本和5个属性:为Outlook〔天气〕,它的取值有三个:Sunny〔晴天〕、Overcast〔阴天〕、Rain〔下雨〕;为Temperature〔温度〕,它的取值有三个:Hot〔炎热〕、Mild〔适中〕、Cool〔凉爽〕;为Humidity〔湿度〕,它的取值有两个:Hign〔潮湿〕、Normal〔一般〕;为Windy〔风〕,它的取值有两个:Falsese〔无〕、Trueue〔有〕;为Play〔比赛〕,它是分类属性,取值有两个:Yes〔是〕、No〔否〕。表1训练样本集Table1Trueainingdataoutlooktemperaturehumiditywindyplaysunnyhothighfalsenosunnyhothightruenoovercasthothighfalseyesrainmildhighfalseyesraincoolnormalfalseyesraincoolnormaltruenoovercastcoolnormaltrueyessunnymildhighfalsenosunnycoolnormalfalseyesrainmildnormalfalseyesovercastmildnormaltrueyesovercastmildhightrueyesovercasthotnormalfalseyesrainmildhightrueno根据此训练样本集,用贝叶斯方法判断新样本所属类别。具体过程如下:这是一个二分类问题,即只有两个类别:Yes〔是〕或No〔否〕。先对类别汇总如下:训练集T类别类别Total9514因此,,;对于属性〔Outlook〕,数据汇总如下Outlook类别类别Sunny13Overcast50Rain32Total95各条件概率计算如下,,,类似的,其它个属性数据分别汇总,计算其条件概率如下:Temperature类别类别Hot22Mild42Cool31Total95,,,Humidity类别类别High34Normal61Total95,,Windy类别类别False62True33Total95,,对于待分类样本,分别计算以下两个概率:=0.333*0.22*0.33*0.3*0.643=0.0053=0.4*0.4*0.8*0.6*0.357=0.0274,因此为第二类,即不适合比赛。2、属性为连续型数据类型例2训练数据如表2,判断新样本所属的类别,即是否拖欠贷款。表2训练数据2Table2TrainingdataNo.2tid有房婚姻状况年收入拖欠贷款1是单身125否2否已婚100否3否但是70否4是已婚120否5否离婚95是6否已婚60否7是离婚220否8否单身85是9否已婚75否10否单身90是属性“年收入”为连续型数据类型,此时如果再用公式〔4〕来估计条件概率已不适宜,例如,假设新样本的“年收入”为110K,那么,类似的新样本将无法判别。有两种策略可以用了估计连续型属性的条件概率。把连续属性离散化如前面构造决策树的GiniIndex或信息增益方法,把连续属性划分成几个区间,即连续属性离散化。按前面所述,如果把“年收入”划分成两个区间,那么最正确的候选划分点为97K,对应区间为和,通过计算类中属性“年收入”落入对应区间的比例来估计条件概率,即把训练数据集修改为表3表3修改的训练数据Table3TrainingdataNo.2tid有房婚姻状况年收入拖欠贷款1是单身否否2否已婚否否3否但是是否4是已婚否否5否离婚是是6否已婚是否7是离婚否否8否单身是是9否已婚是否10否单身是是这样便可以按例1的方法来预测新样本所属的类别,此留做练习。用概率分布来估计条件概率假设连续型属性服从某种概率分布〔通常假设服从正态分布〕,然后用训练数据估计出分布的参数,进而计算相应的条件概率。如例2中,假设“年收入”属性为随机变量,对于每个类,属性属于类的条件概率为,分别为类中属性的期望和方差,可以用中属性的观察值的样本均值和方差来估计,如表2中训练数据,设类别=“否”,=“是”,对应的“年收入”如表4表4年收入125100701209560220857590拖欠贷款否否否否是否否是否是类别=“否”的两个参数估计如下:因此=“否”的两个参数分别为:同理可以估计=“是”的两个参数为:对于新样本,可以估计“年收入”属性相应的条件概率为:说明:公式〔5〕的解释有一定的误导性,因为如果为连续型随机变量,那么,取而代之,应计算落在区间上的概率〔为很小的正数〕:对于每个的取值,都用同一个,在比拟时,成为一个常数乘法因此,不影响比拟结果,因此公式〔5〕仍可以用了估计相应的条件概率。下面用上述方法来判别新样本所属的类别。离散属性数据汇总如下:训练集T类别类别73,属性“有房”类别类别是30否43Total73,,属性“婚姻状况”类别类别离婚11单身22已婚40Total73,,,对于属性“年输入”,已估计相应的条件概率为:,由以上概率计算样本相应的条件概率为:,因此新样本属于第二类,即“是”拖欠贷款。条件概率的m估计从上面的例子可以看出,用训练数据估计条件概率时有一个潜在的问题:如果有一个属性的类条件概率为0,那么整个类的后验概率就等于0,简单地使用记录比例来估计类条件概率的方法就显得脆弱了,尤其当训练样本很少而属性数目有很多时。如例2,如果训练数据中属性“婚姻状况”统计如下而其它数据不变:属性“婚姻状况”类别类别离婚01单身32已婚40Total73相应的类条件概率为:,给定一个新样本,判断其类别,计算如下:此时将无法识别新样本。解决该问题的途径是使用m估计〔m-estimate〕方法来估计条件概率:〔6〕为类中实例

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论