版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
02红酒数据集可视化—数据预处理教学课件酒数据集可视化—数据预处理项目知识准备第一节项目实训第二节项目拓展第三节目录content项目知识准备第一节项目知识准备2.1.1数据处理2.1.2数据降维2.1.3数据集拆分2.1.1数据处理原始数据极易受到噪声(如缺失值、不一致数据)的侵扰,通常情况下量级越大的数据集包含的噪声越多,因此,在建模训练之前需要对数据进预处理。预处理分为数据处理、数据降维和数据集划分。这里的数值处理主要指的是机器学习scikit-learn库中的preprocessing模块中的数据预处理方法,将原始数据转换为适合机器学习的形式,用于改善机器学习的效果。常见的数据预处理方法包括标准化、离差标准化、二值化、归一化、独热编码处理。2.1.1数据处理原始数据极易受到噪声(如缺失值、不一致数据)的侵扰,通常情况下量级越大的数据集包含的噪声越多,因此,在建模训练之前需要对数据进预处理。预处理分为数据处理、数据降维和数据集划分。这里的数值处理主要指的是机器学习scikit-learn库中的preprocessing模块中的数据预处理方法,将原始数据转换为适合机器学习的形式,用于改善机器学习的效果。常见的数据预处理方法包括标准化、离差标准化、二值化、归一化、独热编码处理。2.1.1数据处理均值方差标准化是一种将数据转化为标准正态分布的标准化方法。在回归模型中,服从正态分布的自变量和因变量往往对应着较好的回归预测效果。标准差标准化使得经过处理的数据符合标准正态分布,即均值为0,标准差为1。StandardScaler将数据按其特征(按列进行)减去平均值和缩放到单位方差来标准化特征。得到的结果是,对于每个属性/每列来说所有数据都聚集在0附近,标准差为1,使得新的X数据集方差为1,均值为0。2.1.1数据处理如果数据的分布本身就服从正态分布,就适用于标准化处理。在进行标准化的过程中就将训练集的均值和方差当做是总体的均值和方差,因此对测试集使用训练集的均值和方差进行预处理。preprocessing模块中的StandardScaler类是一个用来将数据进行归一化和标准化的类。其基本语法格式如下:classsklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_std=True)2.1.1数据处理2.离差标准化(MinMaxScaler)有时数据中每个特征的数值范围可能变化很大,这个时候将特征的数值范围缩放到合理的大小对于算法模型学习数据就非常重要。如果数据分布在一个范围内,在不涉及距离度量、协方差计算、数据不符合正太分布的时候,就可以使用离差标准化处理。preprocessing模块中的MinMaxScaler类用于特征的离差标准化处理,使原始数据的数值映射到指定区间范围内,将每个特征的数值转换成给定范围的值。2.1.1数据处理3.二值化(Binarizer)二值化用于将数值特征向量转换为布尔型向量,通过设置阈值,将特征值大于阈值的转换为1,特征值小于或等于阈值的转换为0,二值化后的值会落在0或1上。preprocessing模块中的Binarizer类用于特征二值化。Binarizer类用于创建二值化转换器,其基本语法格式如下。classsklearn.preprocessing.Binarizer(threshold=0.0,copy=True)2.1.1数据处理4.归一化(Normalizer)
数据归一化用于需要对特征向量的值进行调整是,以确保每个特征向量的值都缩放到相同的数值范围,归一化是将样本在向量空间模型上的一个转换。这个方法经常被使用在分类与聚类中,用于确保数据点没有因为特征的基本性质而产生较大差异,即确保数据处于同一个数量级,提高不同特征数据的可比性。preprocessing模块中的Normalizer类用于特征归一化,常用的归一化形式是将特征向量调整为L1或L2范数。2.1.1数据处理5.独热编码(OneHotEncoder)在机器学习中,特征可能不是数值型而是分类型的,但某些模型要求为数值型,最简单的方法是将特征编码为整数,如已知分类“性别”为[‘男’,’女’],地点为[‘北京’,’上海’],令‘男’类别等于0,‘女’类别等于1,同理,令‘北京’类别等于0,令‘伤害’类别等于1。则[‘男’,’北京’]编码为[0,0],[‘女’,’北京’]编码为[1,0]。但是此处理方法可能使估计器认为类别(0,1)之间是有序的、有关联的,但实际上原始数据中的类别(男,女)是无序的、无关联的。独热编码可以解决这个问题。2.1.1数据处理独热编码即One-Hot编码,又称一位有效编码,其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都有它独立的寄存器位,并且在任意时候,其中只有一寄存器位有效。哑变量编码与独热编码类似,它任意地将一个状态位去除,使用N-1个状态位就足够反映N个类别的信息2.1.1数据处理6.转换器的使用说明为了实现大量的数据特征处理相关操作,scikit-learn把相关的功能封装为转换器,转换器(Transformer)主要有三个方法:fit():通过分析特征和目标值提取有价值的信息,并训练算法、拟合数据;
transform():主要用来对特征数据进行转换,实现标准化数据;
fit_transform():先调用fit方法拟合数据,再调用transform方法进行标准化。2.1.2数据降维生活中很难对高维数据具有直观的认识,如果把数据的维度降低到2维或3维,并且令数据点与原高维空间里的关系保持不变或近似,就可以将降维后的数据可视化。在做机器学习的过程中,我们有可能会遇到很复杂的数据。这样复杂的数据会增加计算资源的消耗,很可能一个算法下来要持续几天,甚至几周的时间,这样的时间成本会非常的大。另外,如果数据的维度过高,还会造成训练模型过度拟合,使得算法模型的泛化能力大大降低。所以我们需要降低数据的复杂性,减少算法训练过程中的存储量和计算时间,将高维的数据降低到低维的数据。2.1.2数据降维降维就是一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。数据经过降维以后,如果保留了原高维数据的主要特征,就可以用降维的数据进行机器学习模型训练和预测,由于数据量大大缩减,训练和预测的时间效率将大为提高。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为应用非常广泛的数据预处理方法。2.1.2数据降维1.主成分分析(PCA)简介PCA(PrincipalComponentAnalysis),即主成分分析方法,是一种使用最广泛的数据降维算法。通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。PCA的主要思想是将n维特征映射到k维上(k<n),映射的过程要求每个维度的样本方差最大化,达到尽量使新的k维特征向量之间互不相关的目的,这些数据中拥有方差最大的k个维度被称为主成分,是在原有n维特征的基础上重新构造出来的k维特征。2.1.2数据降维2.sklearn中PCA用法介绍scikit-learn库中的decomposition模块对PCA类进行了如下定义:classsklearn.decomposition.PCA(n_components=None,copy=True,whiten=False,svd_solver='auto',tol=0.0,iterated_power='auto',random_state=None)2.1.3数据集拆分在机器学习中,我们通常将原始数据按照比例分割为“训练集”和“测试集”。在学习算法中,一个由N个数字组成的大的集合{𝒙_1,𝒙_2,⋯,𝒙_𝑁}被称作训练集(TrainingSet),用来调节模型的参数。这些在训练过程中使用的数据也称为训练数据(TrainingData),其中每个样本称为一个训练样本(TrainingSample)。训练集就是所有训练样本组成的集合,一般我们在整体数据中随机采样获得训练集。而测试集则是整体数据中除去训练集的部分。项目实训第二节项目实训2.2.1数据标准化处理2.2.2数据离差标准化处理2.2.3数据二值化处理2.2.4数据归一化处理2.2.5独热编码处理2.2.6数据PCA降维处理2.2.1数据标准化处理1.数据准备首先我们需要准备一些数据,可以使用scikit-learn库中内置的一些API生成一些数据集,其中make_blobs函数会根据用户指定的特征数量、中心点数量、范围等来生成几类数据和相应的标签。2.2.1数据标准化处理2.数据标准化接下来,我们使用scikit-learn的preprocessing模块中的StandardScaler类对这个生成的数据集X进行预处理操作。2.2.2数据离差标准化处理MinMaxScaler类可以将所有数据点的特征数值都缩放到制定的数值范围内。2.2.3数据二值化处理特征的二值化主要是为了将数据特征转化为boolean布尔型变量,可以利用preprocessing模块的Binarizer类来实现。Binarizer类可以设置一个阈值参数threshold,数据结果值大于阈值的为1,小于或等于阈值的为0。2.2.4数据归一化处理数据归一化是将每个特征向量的值都缩放到相同的单位范数。preprocessing模块的normalizer类用于特征归一化处理,归一化的形式有L1、L2范数等。我们继续使用任务一生成的数据集X,对该数据集进行L2范数的归一化化处理。2.2.4数据归一化处理如果我们对数据进行L1范数的归一化化处理,将norm参数为范数L1。2.2.5独热编码处理如果要将分类型数据转换为数值型数据,就可以使用preprocessing模块的OneHotEncoder类创建独热编码转换器。目前OneHotEncoder只能用于整型数值的类型变量,如果遇到非整型的数据就需要先做数值转换,然后再进行独热编码。numpy模型提供了digitize函数将数值转换为分类型数组,也就是对数据进行离散化处理,或者称做装箱处理。2.2.6数据PCA降维处理1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025首尔GERD共识更新解读
- 2026年电动滚筒电机行业分析报告及未来发展趋势报告
- 2026年超导限流器行业分析报告及未来发展趋势报告
- 2026年快速换网器行业分析报告及未来发展趋势报告
- 2026年封杯机行业分析报告及未来发展趋势报告
- 2026年红薯种植行业分析报告及未来发展趋势报告
- 2026年真空计行业分析报告及未来发展趋势报告
- 2026年婴幼儿床上用品行业分析报告及未来发展趋势报告
- 银川市灵武市社区网格员招录考试真题库及完整答案
- 2026年青海农牧科技职业学院单招综合素质笔试参考题库带答案解析
- 2026中国广播影视出版社有限公司高校毕业生招聘3人备考题库含答案详解(完整版)
- 宜宾市筠连县国资国企系统2026年春季公开招聘管理培训生农业考试模拟试题及答案解析
- 2026年福建南平市八年级地生会考考试真题及答案
- 2025-2030非洲智能汽车零部件行业市场供需理解及投资潜力规划分析研究报告
- 2026季华实验室管理部门招聘3人(广东)建设笔试模拟试题及答案解析
- 2026年人教版八年级英语下册UNIT 6同步检测试卷及答案
- 2025重庆联交所集团所属单位招聘1人笔试历年难易错考点试卷带答案解析
- 广东省广州市2026年中考模拟数学试题七套附答案
- 《眼科临床诊疗指南(2025版)》
- 无人机防汛巡查监管规范
- 三年级数学下册第一单元两位数乘两位数导学案教学计划教案教学设计(2025-2026学年)
评论
0/150
提交评论