Matlab 数据分析 课件 康海刚 第8章 分类_第1页
Matlab 数据分析 课件 康海刚 第8章 分类_第2页
Matlab 数据分析 课件 康海刚 第8章 分类_第3页
Matlab 数据分析 课件 康海刚 第8章 分类_第4页
Matlab 数据分析 课件 康海刚 第8章 分类_第5页
已阅读5页,还剩39页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Matlab数据分析第8章分类8.1分类算法简介8.1.1逻辑回归分类算法1)y是一个定量的变量,这时就用通常的regress函数对y进行回归。2)y是一个定性的变量,如y=0或1,这时就不能用常规的regress函数对y进行回归,而要使用逻辑回归(LogisticRegression)。1.工作原理2.最佳使用时机8.1分类算法简介8.1.2K近邻分类算法1.エ作原理2.最佳使用时机3.K近邻分类算法的具体步骤1)初始化距离为最大值。2)计算未知样本和每个训练样本的距离dist。3)得到目前K个最邻近样本中的最大距离maxdist。4)如果dist<maxdist,则将训练样本作为k最近邻样本。5)重复步骤2)~4),直到来知样本和所有训练样本的距离都算完。6)统计k个最近邻样本中每个类别出现的次数。7)选择出现频率最大的类别作未知类别出现的次数。8.1分类算法简介8.1.3支持向量机分类算法1.工作原理2.最佳使用时机8.1分类算法简介8.1.4人工神经网络分类算法1.工作原理2.最佳使用时机8.1分类算法简介8.1.5朴素贝叶斯分类算法1.工作原理2.最佳使用时机8.1分类算法简介8.1.6判别分析分类算法1.工作原理2.最佳使用时机8.1分类算法简介8.1.7决策树分类算法1.工作原理2.最佳使用时机8.1分类算法简介8.1.8集成学习分类算法1)Bagging的训练集是随机的,各训练集是独立的;而Boosting训练集的选择不是独立的,每次选择的训练集都依赖于上一次学习的结果。2)Bagging的每个预测函数都没有权重;而Boosting根据每次训练的误差得到该次预测函数的权重。3)Bagging的各个预测函数可以并行生成;而Boosting只能顺序生成。1.工作原理2.最佳使用时机8.2分类的评判8.2.1评判指标1)TruePositive(TP):指模型预测为正(1)的,并且实际上也的确是正(1)的观察对象的数量。2)TrueNegative(TN):指模型预测为负(0)的,并且实际上也的确是负(0)的观察对象的数量。3)FalsePositive(FP):指模型预测为正(1)的,并且实际上是负(0)的观察对象的数量。4)FalseNegative(FN):指模型预测为负(0)的,并且实际上是正(1)的观察对象的数量。8.2分类的评判(1)AccuracyRate(正确率)模型总体正确率,是指模型能正确预测、识别1和0的对象数量与预测对象总数的比值,公式为(2)Errorrate(错误率)模型总体的错误率,是指模型错误预测、错误识别1和0观察对象与预测对象总数的比值,也即是1减去正确率,公式为(3)Sensitivity(灵敏性)又称击中率或真阳率,模型正确识别为正(1)的对象占全部观察对象中实际为正(1)的对象数量的比值,公式为8.2分类的评判(4)Specificity(特效性)又称为真负率,模型正确识别为负(0)的对象占全部观察对象中实际负(0)的对象数量的比值,公式为(5)Precision(精度)模型的精度是指模型正确识别正(1)的对象占模型识别正(1)的对象数量的比值,公式为(6)FalsePositiveRate(错正率)又称假阳率,模型错误识别为正(1)的对象占实际为负(0)的对象数量的比值,即1减去真负率,公式为8.2分类的评判(7)NegativePredictiveValue(负元正确率)模型正确识别力负(0)的对象占模型识别为负(0)的观察对象总数的比值,公式为(8)FalseDiscoveryValue(正元错误率)模型错误识别正(1)的对象占模型识别正(1)的观察对象总数的比值,公式为8.2分类的评判8.2.2ROC曲线和AUC8.3判别分析分类的具体应用8.3.1判别分析的定义、特点和类型1.定义2.特点3.判别分析类型(1)距离判别首先根据已知分类的数据,分别计算各类的重心,计算新个体到每类的距离,确定最短的距离(欧几里得距离、马哈拉诺比斯距离)。(2)Fisher判别利用已知类别个体的指标构造判别式(同类差别较小、不同类差别较大),按照判别式的值判断新个体的类别。(3)贝叶斯判别(Bayes判别)计算新样品属于各总体的条件概率,比较概率的大小,然后将新样品判归次来自概率最大的总体。8.3判别分析分类的具体应用8.3.2距离判别1.直接使用马哈拉诺比斯距离实现距离判别1)计算A、B两类的均值向量与协方差阵,即2)计算总体的协方差矩阵,即3)计算未知样本x到A、B两类马哈拉诺比斯平方距离之差4)作出结论:若d<0,则x属于A类;若d>0,则x属于B类。8.3判别分析分类的具体应用例8.1(1989年国际数学竞赛A题)蠓的分类。解:根据上述计算过程,Matlab代码如下:1)计算A、B两类的均值向量与协方差阵力8.3判别分析分类的具体应用2)计算总体的协方差矩阵,即3)计算未知样本×到A、B两类马哈拉诺比斯距离之差,即4)若d<0,则x属于A类;若d>0,则x属于B类。2.使用Matlab统计工具箱的函数实现距离判别1)class=classify(sample,training,group)2)class=classify(sample,training,group,type)3)class=classify(sample,training,group,type,prior)4)[class,err]=classify(......)8.3判别分析分类的具体应用5)[class,err,posterior]=classify(......)6)

[class,err,posterior,logp]=classify(⋯⋯.)8.3判别分析分类的具体应用例8.2对21个破产的企业收集它们在破产前两年的年度财务数据,同时对25个财务良好的企业也收集同一时期的数据,数据涉及4个变量,即X1=现金流量/总债务、X2=净收入/总资产、X3=流动资产/流动债务、X4=流动资产/净销售额。解:计算过程如下。1)读取exampl.xls表中的数据,Matlab代码如下:2)使用classify函数进行距离判别,代码如下:8.3判别分析分类的具体应用8.3判别分析分类的具体应用8.3.3贝叶斯判别1.贝叶斯判别准则2.使用Matlab统计工具箱的函数实现贝叶斯判别(1)fit方法用来根据训练样本创建一个朴素贝叶斯分类器对象,调用格式为(2)predict方法在用fit方法根据训练样本创建一个朴素贝叶斯分类器对象后,可以利用对象的predict方法对待判样品进行分类,调用格式为8.3判别分析分类的具体应用例8.3贝叶斯判别法案例分析:Fisher于1936年发表的鸢尾花数据被广泛作为分类的例子。解:计算过程如下。1)加载数据:2)查看数据:3)贝叶斯判别:8.3判别分析分类的具体应用8.3判别分析分类的具体应用8.3判别分析分类的具体应用4)查看误判样品编号:5)查看误判样品的误判情况:6)对未知类别样品进行判别:8.3判别分析分类的具体应用8.3判别分析分类的具体应用8.3判别分析分类的具体应用例8.4对全国30个省、直辖市、自治区于1994年影响各地区经济增长差异的制度变量:x1为经济增长率,x2为非国有化水平,x3开放度,x3市场化程度,依据表8-3中数据作贝叶斯判别分析。8.4使用ClassificationLearnerApp实现分类例8.5本节使用Fisher’siris数据来展示ClassificationLearnerApp的使用情況。步骤1从Matlab中导入fisheriris.csv格式数据:8.4使用ClassificationLearnerApp实现分类步骤2在“应用程序”选项卡上的“机器学习”组中,单击“ClassificationLeamer”按钮,如图8-17所示。8.4使用ClassificationLearnerApp实现分类步骤3在ClassificationLeamer中单击按钮,从工作空间列表中选择可fishertable的表,如图8-18所示。8.4使用ClassificationLearnerApp实现分类8.4使用ClassificationLearnerApp实现分类步骤4接受默认验证方案并继续,单击“StartSession”按钮。8.4使用ClassificationLearnerApp实现分类步骤5使用散点图来研究哪些变量对预测响应很有用。步骤6要创建分类树模型,应在“ModelType”选项卡的“模型类型”部分中,单击向下箭头以展开库,然后单击“CoarseTree”按钮,再单击“Train”按钮,如图8-21所示。8.4使用ClassificationLearnerApp实现分类步骤7训练不同的模型进行比较。单击“MediumTree”按钮,然后单击“Train”按钮。步骤8在“ClassificationLearner”选项卡上的“Features”组中,单击“FeatureSelection(特征选择)”按钮。步骤9训练另一个模型,仅包括花瓣测量。步骤10要检查每个类中预测的准确性,应在“ClassificationLeamer”选项卡的“Plots”组中,单击“ConfusionMatrix(混淆矩阵)”按钮。8.4使用ClassificationLearnerApp实现分类8.4使用ClassificationLearnerApp实现分类步骤11比较“History”列表中每个模型的混淆矩阵。步骤12要将经过最佳训练的模型导出到工作区,可在“ClassificationLearner”选项卡上的“Export”组中单击“ExportModel”按钮(见图8-24画圈部分)。步骤13要显示决策树(见图8-26)模型,可输入:view(trainedModel.Classification-Tree,'Mode','graph')。步骤14可以使用导出的分类器对新数据进行预测。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论