python使用dabl几行代码实现数据处理分析及ML自动化_第1页
python使用dabl几行代码实现数据处理分析及ML自动化_第2页
python使用dabl几行代码实现数据处理分析及ML自动化_第3页
python使用dabl几行代码实现数据处理分析及ML自动化_第4页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第python使用dabl几行代码实现数据处理分析及ML自动化目录dabl1、数据预处理2、探索性数据分析3、建模结论数据科学模型开发涉及各种组件,包括数据收集、数据处理、探索性数据分析、建模和部署。在训练机器学习或深度学习模型之前,必须清洗数据集并使其适合训练。通常这些过程是重复的,且占用了大部时间。

为了克服这个问题,今天我分享一个名为dabl的开源Python工具包,它可以自动化机器学习模型开发,包括数据预处理、特征可视化和分析、建模。欢迎收藏学习,喜欢点赞支持。

dabl

dabl是一个数据分析基线库,可以让机器学习建模更容易,它包括各种特性,我们只需几行Python代码就可以处理、分析和建模。

安装

pipinstalldabl

1、数据预处理

dabl在几行Python代码中自动执行数据预处理管道。dabl执行的预处理步骤包括识别缺失值、删除冗余特征以及理解特征的数据类型以进一步执行特征工程。

dabl检测到的特征类型列表包括:

continuous

categorical

date

Dirty_float

Low_card_int

free_string

Useless

dabl使用一行Python代码将所有数据集特征自动归类为上述数据类型。

df_clean=dabl.clean(df,verbose=1)

原始Titanic数据集有12个特征,dabl会自动将它们分类为上述数据类型,以便进行进一步的特征工程。dabl还提供了根据需求更改任何特性的数据类型的功能。

db_clean=dabl.clean(db,type_hints={"Cabin":"categorical"})

可以使用detect_types()函数查看为每个特征分配的数据类型。

2、探索性数据分析

EDA是数据科学模型开发生命周期的重要组成部分。Seaborn、Matplotlib等是执行各种分析以更好地理解数据集的可视化库。dabl使EDA变得非常简单且节省大量时间。

dabl.plot(df_clean,target_col="Survived")

dabl中plot()函数可以通过绘制各种图来实现可视化,包括:

目标分布的条形图

散点对图

线性判别分析

dabl自动对数据集执行PCA,并显示数据集中所有特征的判别PCA图。

3、建模

dabl在训练数据上训练各种基线机器学习算法来加速建模工作流程,并返回性能最佳的模型。dabl做出简单的假设并为基线模型生成指标。

可以使用dabl中SimpleClassifier()函数进行建模,它很快就可以返回最佳模型。

结论

Dabl是一个方便的工具,它使机器学习更易于容易和快速,你只需几行Python代码就可以完成数据清理、特征可视化和基线模型的开发。

如果你想了解更多,可以查看GitHub:

/amueller/dabl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论