版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1大数据计算方法Chap2:数据分析方法概述基本概念分类回归分析聚类分析和降维Outline2数据分析基本概念性能度量实验测试3
基本概念4
基本概念5性能度量查准率(又称精确率,Precision)和查全率(又称召回率,Recall)查准率:衡量预测模型预测正确的正(负)样本个数占该模型所有分类为正(负)样本个数的比例查全率:模型预测正确(错误)的正样本个数占所有的正(负)样本个数的比例通过混淆矩阵进行描述和计算表2.1二分类的混淆矩阵基本概念6预测为“正”的样本数预测为“负”的样本数真实为“正”的样本数TruePositive(TP)FalseNegative(FN)真实为“负”的样本数FalsePositive(FP)TrueNegative(TN)
基本概念7图2.1P-R曲线示意图性能度量F1-score通过计算查全率和查准率的调和平均值来对两者进行综合评价实际数据集中,会出现样本类别分布不平衡的情况,P-R曲线会受到样本分布变化而产生较大的震荡,由此引入:ROC曲线(ReceiverOperatingCharacteristic)被试者在不同判断标准下所得的虚报概率FPR为横坐标,以击中概率TPR为纵坐标当数据集正负样本的分布发生变化或正负样本不平衡时,该曲线能够保持不变基本概念8
性能度量AreaUnderrocCurve(AUC)ROC曲线下的面积,度量分类模型好坏的量化指标AUC值越接近于1.0,该模型的性能越好不受样本分布变化和不平衡的影响等错误率(EqualErrorRate,EER)衡量分类模型好坏的客观评价指标ROC曲线上错误分类一个正样本或负样本概率相等时的点基本概念9图2.2
ROC曲线示意图实验测试模型的泛化性能需要在实验测试过程中进行评估数据集充足情况下,可以被随机划分为训练集、验证集和测试集训练集数据用于模型的学习,验证集数据用于模型选择,而测试集数据用于对最终模型泛化性能的评估数据的划分需要尽量满足分布的一致性以及互斥性常用的训练-测试数据集的划分方法包括:留出法、交叉验证法及自助法基本概念10实验测试留出法(Hold-out)直接按比例将数据集划分为三个互斥的子数据集常见的划分方案是将2:3或4:5比例的样本用于训练,其余样本则用于验证集和测试集的划分基本概念11图2.3
用留出法进行数据划分示意图实验测试交叉验证法K折交叉验证(K-foldCrossValidation)和留一交叉验证(Leave
One-Out)基本概念12
图2.4
K折交叉验证示意图K折交叉验证的一种特例,令K=样本数m
基本概念13分类二分类K近邻法线性判别分析逻辑回归14
分类15
分类16
分类17
K近邻法(K-NearestNeighbor,KNN)实质上是对训练样本特征空间的划分,其中K值的选择、距离度量方法及分类的决策规则是该算法的三个要素(1)K值:算法的一个超参数。当K值较小时,x的类别只与它非常接近的样本有关。学习的近似误差会减小,但估计误差会增大。如果K值较大,x的类别就由较大范围的样本决定,可以减少估计误差,但近似误差增加。分类18
分类19K近邻法(K-NearestNeighbor,KNN)(3)决策规则:往往采用多数表决的决策策略,即由待分类样本的K个最邻近的训练样本中的多数类决定其类别K近邻算法的复杂度取决于训练集样本的个数。当算法应用于样本较多、特征维度较高的大数据场景时非常耗时,必须采用高效的数据结构存储训练数据,以减少距离计算次数。KD(K-DimensionalTree)树是一种能够实现快速K近邻检索的方法。它是一种对K维空间中的样本点进行存储以便对其进行快速检索的树形数据结构,即二叉树。分类20K近邻法(KNN)KD树
实质:对
K
维空间进行划分构造方法与二叉树类似构造过程:不断用垂直于坐标轴的超平面来切分K维空间,得到一系列K维超矩形区域,而最终KD树的每一个节点就对应于一个K维超矩形区域,如图2.5所示。KD树搜索将搜索范围限制在一个局部超巨型体区域,不需要计算距离,大大减少了距离计算次数,算法的时间复杂度可降低至O(nlogn)。分类21图2.5KD树示意图
分类22线性判别分析线性判别分析(LinearDiscriminantAnalysis,LDA)是一种经典的线性分类模型主要思想:在训练阶段,算法找到一条直线,使得所有训练样本投影到该直线上后,可以让同类样本的投影点尽可能接近,而异类样本的投影点尽可能远离;在测试阶段,将待分类样本同样投影到该直线上,再根据投影点的位置来确定样本的类别,如图2.6所示。分类23图2.6LDA算法原理示意图
分类24
分类25
分类26
分类27
分类28
分类29
分类30
分类31回归分析线性回归分析非线性回归分析欠拟合和过拟合32回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法按照涉及的因变量的多少,分为简单回归分析和多重回归分析按照自变量的多少,可分为一元回归分析和多元回归分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析回归分析33
回归分析34
回归分析35
回归分析36
欠拟合和过拟合衡量模型的好坏不仅要求模型对训练数据集有很好的拟合(训练误差小),更希望它可以对未知数据集(测试集)有很好的拟合结果(泛化误差小)。而模型的过拟合(overfitting)和欠拟合(underfitting)都是导致模型的泛化能力不高的两种常见原因,其中过拟合是机器在学习中经常面临的棘手问题。不同复杂度的模型会得到不同的训练误差和泛化误差回归分析37欠拟合和过拟合下图中,以线性式拟合的模型用直线去逼近各个训练样本点,得到了较大的训练误差和测试误差,这种情况就是“欠拟合”。38解决欠拟合问题较容易,可以通过增加模型复杂度或特征维度等方式。欠拟合和过拟合八次多项式模型的逼近比三次多项式模型更接近训练样本点,但与实线表示的目标函数已经产生了背离,产生了较大的测试误差。十六次多项式模型得到了非常小的训练误差,但测试误差非常大。这两种模型都是在训练集上表现很好,而在测试集上表现很差,这种情况称为“过拟合”问题。39欠拟合和过拟合造成过拟合的原因:训练数据集样本单一,样本不足训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。模型过于复杂(重要因素)。如模型太复杂,模型相当于可以做到“死记硬背”出训练数据的所有信息,但对没有见过的数据则不会变通,泛化能力太差。优化过于复杂模型过程就是寻找能够解释已知数据且最简单的模型的过程人们常采用正则化(Regularization)、早停(Early
stopping)、随机失活(Dropout)、数据增强等方法来抑制过拟合。回归分析40欠拟合和过拟合早停法:模型迭代训练过程中,在模型对训练数据集收敛之前就停止训练,以防止模型由于过度训练而产生过拟合。随机失活法:随机失活只应用于人工神经网络模型的过拟合抑制,它通过随机丢弃一些神经元连接来达到降低模型复杂度的目的。数据增强:让模型具有更好泛化能力的方法还可以从增加训练数据的角度。数据增强就是通过增加训练集的额外副本来增加训练集的大小,进而改进模型的泛化能力。回归分析41聚类分析和降维聚类算法的性能度量距离计算K均值聚类算法层次聚类密度聚类降维42聚类分析属于探索性的数据分析方法聚类(Clustering)
是针对大量数据,通过对无标记训练样本的学习来发现数据的内在性质及规律,再根据数据本身的特性将相似数据进行分组由于训练样本对应的类别是未知的,聚类是一种无监督学习方法聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个“簇”(cluster)聚类分析和降维43
聚类分析和降维44聚类算法的性能度量聚类应满足同一簇样本尽量彼此相近,而不同簇的样本则应尽可能不同分为两类指标:外部指标和内部指标外部指标是将聚类结果与某个“参考模型”预先给出的样本分组进行比较,即衡量聚类结果与预先分组情况的差异。内部指标只关注聚类的内部结构,即衡量簇内结构是否紧密,以及簇间距离是否拉开等。聚类分析和降维45
聚类分析和降维46
聚类分析和降维47
聚类分析和降维48
聚类分析和降维49
聚类分析和降维50
聚类分析和降维51
聚类分析和降维52
聚类分析和降维53K均值聚类算法(K-meansclusteringalgorithm)一种迭代求解的划分聚类方法(目前聚类中应用最广泛)其具体步骤如下:将数据随机分为K组,并随机选取K个对象作为每组的初始簇中心(或随机产生K个初始簇中心)对每一个样本,计算其与所有簇中心之间的距离,将其分配给距离它最近的簇中心如果没有点发生分配结果的改变或预先达到设定的收敛条件,则结束;否则进入下一步根据当前簇的样本重新计算并更新簇中心返回第2步聚类分析和降维54K均值聚类算法K均值算法的基本思想是让每个样本点离本簇中心的距离要小于与其他的距离优化目标是使每个样本点到本簇中心的距离平方和(sumofsquareddistance,SSD)尽量小。聚类分析和降维55
聚类分析和降维56层次聚类(HierarchicalClustering)一种很直观的算法它是假设类别之间存在层次结构,试图在不同层次实现对数据的划分,或将样本聚到层次化的类中层次聚类可以有聚合式或自下而上(用的比较多)对小的类别进行聚合的凝聚法,也有聚类自上向下把大的类别进行分割的分裂法聚类分析和降维57
聚类分析和降维58层次聚类聚类分析和降维59采用单链接方式的AGNES算法的具体流程:
聚类分析和降维60密度聚类密度聚类是基于密度(某样本点给定邻域内的其它样本点的数量)进行分簇思想:当邻域的密度达到指定阈值时,就将邻域内的样本点合并到本簇内,如果本簇内所有样本点的邻域密度都达不到指定阈值,则本簇划分完毕,进行下一个簇的划分。典型的密度聚类算法:DBSCAN(Density-BasedSpatialClusteringofApplicationswithNoise)及其派生算法密度聚类对非凸簇数据很有效聚类分析和降维61非凸簇数据示例图降维降维就是降低数据的维度,是缓解维数灾难的一个重要途径通过某种数学变换将高维数据空间转变到一个低维“子空间”,在这个子空间中样本的密度大幅提高,距离计算更为容易。可以实现在减少不相关或冗余特征的同时,提高模型精确度和运行效率聚类分析和降维62降维数据降维就是寻找一个映射函数f:x→y,将高维向量x映射成低维向量
y按照是否有使用样本标签,将降维算法分为有监督降维(LDA算法),和无监督降维(主成分分析法)按照降维算法使用的映射函数,可以将算法分为线性降维与非线性降维(奇异值分解),而核主成分分析方法则属于典型的非线性降维方法非线性降维(主要介绍)通常通过核映射和流形学习两种方式实现聚类分析和降维63
聚类分析和降维64降维非线形降维——流形学习(ManifoldLearning)传统欧式空间的度量难以用于真实世界的非线性数据,需要对数据的分布引入新的假设流形学习是从高维采样数据中恢复低维流形结构,即找到高维空间中的低维流形,并求出相应的嵌入映射,以实现维数约简或者数据可视化。流形学习基于这样一种假设:若低维流形嵌入到高维空间中,则数据样本在高维空间的分布虽然看上去十分复杂,但局部上仍具有欧氏空间的性质,可以在局部建立降维映射关系,然后再设法将局部映射关系推广到全局。聚类分析和降维65降维流形学习——等度量映射(Isomap)最经典的非线性映射降维方法之一主要目标:对于给定的高维流形,欲找到其对应的低维嵌入,使得高维流形上数据点间的近邻结构在低维嵌入中得以保持Isomap在计算高维流形上数据点间距离时,不是采用传统的欧式距离,而是采用微分几何中的测地线距离(或称为曲线距离),并且找到了一种用实际输入数据估计其测地线距离的算法。为了描述图2.9中两点A和B之间的距离,虚线为欧式距离,实线为测地
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 草莓的清洁方法及食用禁忌
- 2026汕头市护士招聘面试题及答案
- 2026日照市专职消防员招聘考试题库及答案
- 2026年山东省春季高考数学《解答题》专项训练(含逐题解析)
- 2026年幼儿园有趣的泥
- 2026年幼儿园放爆竹
- 2026年有关介绍幼儿园的
- 2026年幼儿园 数鸭子
- 2026年幼儿园玩教具方案
- 2026年幼儿园不抓咬人
- 2026年交管12123驾照学法减分完整版试卷附答案详解(轻巧夺冠)
- 2025-2030中国短肽型肠内营养剂行业市场现状分析及竞争格局与投资发展研究报告
- (二模)呼和浩特市2026年高三年级第二次模拟考试生物试卷(含答案)
- 2026年咸阳高新区管委会及下属公司招聘(32人)笔试参考题库及答案解析
- 2026年公立医院信息科工作人员招聘考试笔试试题(含答案)
- 内蒙古包头市2026届高三下学期二模考试(包头二模)物理+答案
- 江西省八所重点中学高三下学期联考历史试题
- 毕业设计(论文)-重锤式破碎机设计
- (二模)包头市2026年高三第二次模拟考试政治试卷(含答案)
- 管道完整性管理-洞察与解读
- 水利水电工程单元工程施工质量检验表与验收表(SLT631.5-2025)
评论
0/150
提交评论