数据分析与可视化 课件 3.12转换数据_第1页
数据分析与可视化 课件 3.12转换数据_第2页
数据分析与可视化 课件 3.12转换数据_第3页
数据分析与可视化 课件 3.12转换数据_第4页
数据分析与可视化 课件 3.12转换数据_第5页
已阅读5页,还剩5页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

转换数据1.哑变量处理类别数据2.离散化连续型数据1.哑变量处理类别数据1.哑变量处理类别数据Pandas库中的get_dummies函数对类别型特征进行哑变量处理,语法规则如下所示。Pandas.get_dummies(data,prefix=None,prefix_sep:str|Iterable[str]|dict[str,str]="_",dummy_na:bool=False,columns=None,sparse:bool=False,drop_first:bool=False,dtype:NpDtype|None=None)->DataFrame1.哑变量处理类别数据示例:使用get_dummies函数计算哑变量。代码:df1=pd.DataFrame({'景区':['中央大街','圣索菲亚教堂','东北烈士纪念馆','防洪纪念塔','冰雪大世界','防洪纪念塔','圣索菲亚教堂','东北烈士纪念馆','中央大街','冰雪大世界']},

index=[i+1foriinrange(10)])

print('哑变量处理前的数据为:\n%s'%df1)

print('哑变量处理后的数据为:\n%s'%pd.get_dummies(df1))2.离散化连续型数据(1)离散化2.离散化连续型数据(2)等宽法Pandas提供了cut函数,可以进行连续型数据的等宽离散化,其基础语法格式如下。Pandas.cut(x,bins,right:bool=True,labels=None,retbins:bool=False,precision:int=3,include_lowest:bool=False,duplicates:str="raise",ordered:bool=True)2.离散化连续型数据运行结果:1)离散化为三个大小相等的bins:[(0.994,3.0],(5.0,7.0],(3.0,5.0],(3.0,5.0],(5.0,7.0],(0.994,3.0]]Categories(3,interval[float64,right]):[(0.994,3.0]<(3.0,5.0]<(5.0,7.0]]示例:使用cut函数实现等宽法离散化。代码:DataCut1=pd.cut(np.array([1,7,5,4,6,3]),3)

print('1)离散化为三个大小相等的bins:')

print(DataCut1)2.离散化连续型数据(8)等频法cut函数虽然不能够直接实现等频离散化,但是可以通过定义将相同数量的记录放进每个区间。等频法离散化的方法相比较于等宽法离散

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论