版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
任务4.4数据转换Python数据分析学习目标及重难点学习目标:了解什么是数据转换素养目标:了解数据转换的意义学习重点:数据转换的三种形式目录学习内容1.数据转换基本概念2.数据转换的作用3.常见的三种数据转换01数据转换的基本概念1.什么是数据转换数据转换是指将数据从一种格式、结构或类型转换为另一种格式、结构或类型的过程现实世界信息纷繁复杂互联网数据多种多样实际客户各有所需业务环境不尽相同1.什么是数据转换数据转换的内容通常包括数据形态转换——分类字段与连续字段的相互转换数据一般化——原始数据的概念阶层向上抽象提升数据标准化——极值标准化和Z值标准化2.数据转换对数据存储和数据库性能影响存储空间如果数据量较大,转换后的数据可能会占用更多的存储空间,从而增加存储成本。
数据库性能在大数据量和高并发的情况下,可能会降低数据库的响应速度和处理能力。
数据质量可能会出现数据丢失、数据错误、数据不一致等问题。可能会导致数据质量下降,进而影响数据分析和决策的准确性和可靠性。
数据可读性转换后的数据可能包含更多的字段、更复杂的数据类型、更多的空值等,使得数据更难以理解和使用。02数据转换的作用1.数据转换有何作用?利用数据资料进行分析之前,最好能对资料进行适当的变换处理,因为:通过数据资料的变换,能够运用简单的方法开展分析。能够保证数据分析所需要的假定条件得到满足。有助于从原始资料中迅速获得更加清晰的信息。有利于选择和建立合适的分析模型,包括模型的函数形式、模型的结构简化等。有助于弱化乃至消除数据资料不准确对计量分析结论的影响,有助于减小模型受到的各种干扰,有利于减小预测和估计的误差。1.数据转换有何作用?数据转换可提高数据的可用性和可读性格式转换:将数据从一种格式转换为另一种格式数据清洗:删除重复或无用数据,填充缺失值,纠正错误数据,以确保数据的准确性和一致性数据归一化:将数据转换为标准化的形式,例如将温度从华氏度转换为摄氏度数据聚合:将数据转换为标准化的形式,例如将温度从华氏度转换为摄氏度数据重采样:将数据从高频率采样转换为低频率采样或反之,以适应不同的分析需求03常见的三种数据转换1.重命名轴索引Pandas中提供了一个rename()方法来重命名个别列索引或行索引的标签或名称。index,columns:表示对行索引名或列索引名的转换。inplace:布尔值,表示是否在原地修改DataFrame,默认为False,即创建并返回重命名后的副本,若设置为True,则在原DataFrame上进行修改。rename(mapper=None,index=None,columns=None,axis=None,copy=True,inplace=False,level=None)1.重命名轴索引例如,将df对象的每个列索引名称重命名为a、b、c。1.重命名轴索引使用PythonDataFrame重命名列名和行名的代码实例:2.数据离散化离散化,就是把无限空间中的有限个体映射到有限空间中。数据离散的操作大都针对连续数据进行,处理后的数据值域分布将从连续属性变为离散属性。
针对连续数据的离散化是主要的离散化应用,这些算法的结果以类型或属性标识为基础,而非数值标记。离散化通常分为两类:
将连续数据划分为特定区域
将连续数据划分为特定类,如类1、类2、类3等。2.数据离散化例如,将有关年龄的数据进行离散化(分桶)或拆分为“面元”,直白来说,就是将年龄分成几个区间2.数据离散化连续数据离散化的方法通常有:分位数法:使用四分位、五分位、十分位等分位数进行离散化处理,这种方法简单易行。距离区间法:可使用等距区间或自定义区间的方式进行离散化,这种操作更加灵活且能满足自定义需求,另外该方法(尤其是等距区间)能较好地保持数据原有的分布。频率区间法:将数据按照不同数据的频率分布进行排序,然后按照等频率或指定频率离散化,这种方法会把数据变换成均匀分布,好处是各区间的观察值是相同的,不足是已经改变了原有数据的分布形态。聚类法:例如使用K均值将样本集分为多个离散化地簇。卡方:通过使用基于卡方的离散化方法,找出数据的最佳临近区间并合并,形成较大的区间。2.数据离散化Pandas的
cut
()函数能够实现离散化操作x:表示要分箱的数组,必须是一维的。bins:接收int和序列类型的数据。right:是否包含右端点,决定区间的开闭,默认为True。pandas.cut(x,bins,right=True,labels=None,retbins=False,precision=3,include_lowest=False,duplicates='raise')2.数据离散化关于cut
()函数的几点说明cut()函数会返回一个Categorical对象,我们可以将其看作一组表示面元名称的字符串,它包含了分组的数量以及不同分类的名称。如果希望设置左闭右开区间,则可以在调用cut()函数时传入right=False进行修改。pd.cut(ages,bins=bins,right=False)Categories对象中的区间范围跟数学符号中的“区间”一样,都是用圆括号表示开区间,用方括号则表示闭区间3.哑变量处理类别型数据哑变量又称虚拟变量、名义变量,顾名思义,它是人为虚设的变量,用来反映某个变量的不同类别。使用哑变量处理类别转换,事实上就是将分类变量转换为哑变量矩阵或指标矩阵,矩阵的值通常用“0”或“1”表示。3.哑变量处理类别型数据假设变量“职业”的取值分别为司机、学生、导游、工人、教师共5种选项,如果使用哑变量表示,则可以用下图表示。3.哑变量处理类别型数据在Pandas中,可以使用get_dummies()函数对类别特征进行哑变量处理get_dummies用于机器学习的特征处理分类特征有两种:普通分类:性别、颜色顺序分类:评分、级别3.哑变量处理类别型数据get_dummies()函数的语法格式如下:data:表示哑变量处理的数据。prefix:表示列名的前缀,默认为None。prefix_sep:用于附加前缀作为分隔符使用,默认为“_”。pandas.get_dum
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2-Hydroxy-Imiquimod-R-842-生命科学试剂-MCE
- 常见的酸和碱 第2课时 表格式教学设计(人教版九年级下册)
- 2025 印度在线教育的课程体系优化课件
- 2025 六年级地理下册欧洲西部的环境保护课件
- 2026八年级上语文图书馆利用方法
- 2026一年级数学上 看图列减法算式
- 会员爱心活动策划方案(3篇)
- 国庆装饰-活动策划方案(3篇)
- 套路贷活动方案策划(3篇)
- 市政组织施工方案(3篇)
- 2026北京市公安局监所管理总队招聘勤务辅警300人笔试参考题库及答案解析
- 2026年张家界航空工业职业技术学院单招职业技能考试备考题库含详细答案解析
- 迟到考勤考核制度
- 民航地面服务操作规范与流程手册(标准版)
- 2025年番禺水务集团笔试及答案
- 中国军队被装集中洗消社会化保障模式分析报告
- 2025生产安全事故伤害损失工作日判定培训课件
- 2026年春季苏教版(2024)三年级下册数学教学计划附教学进度表
- 2025-2026学年人教版(新教材)小学数学一年级下册教学计划(附进度表)
- 招商局集团招聘笔试题库2026
- 2024年湖北十堰郧阳中学自主招生数学试题真题(含答案详解)
评论
0/150
提交评论