数据挖掘--分类_第1页
数据挖掘--分类_第2页
数据挖掘--分类_第3页
数据挖掘--分类_第4页
数据挖掘--分类_第5页
已阅读5页,还剩101页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2020/5/22,1,第3章分类方法的内容摘要,基于分类的基本概念和程序距离的分类算法决策树分类方法根据贝叶斯分类实绩预测与分类有关的问题,2020/5/22,2,分类的流程,根据现有知识获得与爬虫类和鸟类有关的信息,获得新发现的种类,如动物a、动物b 2020/5/22,3,分类流程,步骤1 :将样本转换为等维数据特征(特征提取)。 所有样本都必须具有相同数目的特征的综合性和独立性,2020/5/22,4,分类流程,步骤2 :选择与类别有关的特征(特征选择)。 例如,绿色的代表与类别非常关联,黑色的代表部分地关联,灰色的代表完全不关联的2020/5/22,5,分类流程(步骤3 ) :分类模型或分类器(分类)。 分类器通常可以被认为是将特征映射到类的空间的函数,2020/5/22,6,避免过度训练的方法,分类也被称为监督学习,而免监督学习是分簇的分类与集群的最大区别在于分类数据的某些类别是已知的,而集群数据的类别是未知的。 创建分类模型需要学习已知数据的一部分,在训练时间过长或者预测模型的参数过多样本少的情况下,会发生过度训练。2020/5/22、7,为了避免过度训练,最重要的是模型的参数量远少于样本的数量。 必须创建“培训集”(trainingset )和“测试集”(testset )。 训练集应用于分类模型测试集的建立,以评估分类模型的k -折叠交叉验证(K-foldcrossvalidation ) :将初始样本分割成k个子样本(S1、S2、Sk ),K-1个为训练集,另一个为测试集。 交叉验证被重复k次,每个子样本作为测试集合被执行一次,并且作为平均k次的结果,最终获得单个估计。 2020/5/22,8,分类模型评估真正性(TruePositive ) :实际阳性预测真正性(TrueNegative ) :实际阴性预测真正性(FalsePositive ) :实际阴性预测真正性(FalseNegative ) :实际上阳性预测是否正确的预测结果,例如未知动物代表鸟类或爬行动物,男性代表爬行动物,阴性代表非爬行动物,请说明TP=10、TN=8、FN=3、FP=2的含义。2020/5/22、9、分类模型评估、灵敏度(Sensitivity):TP/(TP FN )也称为检测完整率(Recall )的数据集中有13只爬虫,其中10只被正确预测为爬虫。灵敏度为10/13的奇异度:tn/(tnfp ) 数据集合有10只非爬虫,预测其中8只为非爬虫,特异性为8/10的精度:tp/(tpfp )分类器预测12只的动物为爬虫,其中10只确实为爬虫的精度为10/12精度(accuracy):(TPTNN)/(TPTNFP ) 数据集包括23只动物,其中18只被预测为正确的分类,针对精度为18/23,2020/5/22,10,分类模型评估,未平衡的数据集,上述指标不能很好地评估预测结果。 不平衡的数据集意味着阳性数据在整个数据集中所占的比例很小。 例如,数据集包括10只爬行动物和990只爬行动物,这种情况下,是否预测正确的爬行动物不太精确。 更平衡的评价标准有马修相关系数(matthewscorecoefficient )和ROC曲线。 马修相关系数是通过描述2020/5/22,11,分类模型的评估,ROC曲线是通过描述真正的正性因子(TPR )和假正性因子(FPR )而实现的,其中TPR=TP/(TP FN ),FPR=FP/(FP TN )。 大多数分类器输出一个实值(可看作概率),对阈值进行转换,从而得到多组TPR和FPR的值。 2020/5/22,12,第三章分类方法的内容反馈,基于分类的基本概念和步长距离的分类算法决策树分类方法根据贝叶斯分类结果预测分类的问题,2020/5/22,13,基于距离的分类算法的想法,有4-2的数据库d=。假定每个元组包含若干数值类型的属性值: ti=ti1,ti2,tik,并且每个类也包含数值属性值: Cj=Cj1,Cj2,Cjk,则分类问题产生于满足以下条件的类Cj:sim(ti,Cj)=sim(ti,Cl ) 在实际的计算中多用距离来表现,距离越近相似性越大,距离越远相似性越小。 距离的计算方法有很多种,最常见的是计算各类的中心。 在基于距离的分类算法的一般描述中,2020/5/22,14,算法4-1可以通过将每个样本与每个类的中心进行比较来发现其最接近类的中心,并且可以获得确定的类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论