《数据挖掘与机器学习》 课件5.1.1 数据标准化_第1页
《数据挖掘与机器学习》 课件5.1.1 数据标准化_第2页
《数据挖掘与机器学习》 课件5.1.1 数据标准化_第3页
《数据挖掘与机器学习》 课件5.1.1 数据标准化_第4页
《数据挖掘与机器学习》 课件5.1.1 数据标准化_第5页
已阅读5页,还剩14页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

处理玻璃成分数据加工厂玻璃类别识别——决策树、随机森林任务描述数据预处理是数据分析的基础,基础不牢,地动山摇,因此,数据预处理是关键一步。打好坚实的基础才能为之后的腾飞做好准备。数据预处理的具体目标是将不同格式和单位的数据,整合为同一形式,便于之后的数据分析。本任务将主要对加工厂生产的玻璃进行数据的预处理,包括数据集的划分、数据的标准化,以及通过PCA降维,提取数据集的主要特征。任务要求利用sklearn库进行标准差标准化。利用sklearn库进行PCA降维。数据标准化数据降维数据标准化什么是数据标准化?数据标准化是将数据转换为统一的格式和结构,以便在不同系统和应用程序之间进行共享和交换,同时确保数据的一致性和可靠性。数据标准化标准化数据有何作用?在数据处理中进行标准化的意义在于消除数据的尺度影响,原始数据的尺度可能差异较大。数据标准化可以将所有特征的取值范围统一,消除尺度影响,提高模型的稳定性和准确性。数据标准化可以提高模型的收敛速度,在机器学习中,一些优化算法可能需要多次迭代才能达到最优解。如果数据的尺度不同,会导致算法在某些特征上迭代次数多,而在其他特征上则迭代次数少。提高数据质量,标准化可以帮助识别和消除数据中的异常值和错误,提高数据质量。常见的数据标准化方法如下。方法意义小数定标标准化将数据除以一个固定的基数,例如10的幂,以消除数据中的单位差异标准差标准化将数据转换为其标准分数,适用于正态分布的数据最大最小标准化将数据缩放到指定范围内,适用于数据分布在不同范围的情况下数据标准化最大最小标准化通过对原始数据进行线性变换,将数据缩放到指定的范围内,通常是[0,1]。最大最小标准化的公式如下所示。最大最小标准化x的最大值x的最小值使用sklearn库中的MinMaxScaler函数可以实现最大最小标准化,其基本使用格式如下。classsklearn.preprocessing.MinMaxScaler(feature_range=(0,1),copy=True)最大最小标准化MinMaxScaler函数常用参数及其说明如下。参数名称说明feature_range接收tuple,用于指定数据转换后的范围,默认值为(0,1)copy接收bool,表示是否复制输入数据,默认为True标准差标准化最常用的标准化方法是标准差标准化,也称为Z-score标准化,是一种将原始数据转换为均值为0,标准差为1的标准正态分布的方法。标准差标准化的公式如下所示。

均值标准差classsklearn.preprocessing.StandardScaler(copy=True,with_mean=True,with_std=True)使用sklearn库中的StandardScaler函数实现标准差标准化,其基本使用格式如下。标准差标准化StandardScaler函数的参数及说明如下。参数名称说明copy接收bool,表示是否复制输入数据,默认为Truewith_mean接收bool,表示是否进行中心化处理,默认为Truewith_std接收bool,表示是否对每个特征的标准差进行归一化处理,默认为True标准差标准化加强国家科普能力建设,深化全民阅读活动。广泛的阅读不仅可以开阔视野,还可以发现自己的兴趣导向。在阅读时,有时需要对一篇文献的词频进行分析。首先将文献中的每个词语作为一个特征,构造一个词频矩阵。词频矩阵可以便于快速的浏览一篇文章的主要内容。对这个词频矩阵进行标准差标准化处理,以消除词频之间的量级差异。最大最小标准化、标准差标准化下表是关于词频矩阵的数据集,其中每行表示一篇文章,每列表示一个词语的出现次数。最大最小标准化、标准差标准化数字中国网络51001042580670121025100将对该词频矩阵分别使用最大最小标准化和标准差标准化方法进行数据标准化处理。小数定标标准化,通过移动数据的小数点位置来进行标准化,将数据放缩到[0,1]之间,如下式所示。在具体标准化过程中,小数点移动多少位取决于数据系列中的最大绝对值大小。例如,[100,2,30]标准化为[0.1,0.002,0.03],可以明显的看出它的优点在于不改变原始数据的分布。小数定标标准化下表是某省市的旅游人数的数据集,包括日期及旅游人数两个特征。下面将对旅游人数的数据集进行小数定标标准化。日期旅游人数2022年10月1日3700682022年10月2日5900432022年10月3日2954032022年10月4日315698小数定标标准化最大最小标准化方法简单,便于理解,标准化后的数据限定在[0,1]区间内。标准差标

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论