版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目6
动态网页数据预处理使用Pandas实现新闻动态网页数据预处理目录Content1使用Pig实现浪潮云说网页数据预处理2使用ELK实现某官网日志数据预处理3项目导言零数据预处理是指将数据的缺失值、脏数据、数据格式等进行调整处理,由于数据采集过程中会因为数据的来源不统一造成数据格式的混乱,当使用这些原始数据进行数据分析时无法为决策提供有效的帮助,对数据进行预处理能够有效解决这些问题,那么如何对数据进行预处理,数据预处理使用的工具和方法有哪些呢?学习目标零知识目标了解什么是数据预处理;熟悉数据预处理的方法;掌握Pandas、Pig以及ELK进行数据预处理的方法;精通Pig以及ELK环境搭建方法;技能目标具备了解Pandas和Pig数据预处理的能力;具备熟悉Pandas和Pig数据预处理机制的能力;素养目标具备掌握Pandas和Pig数据预处理方法的能力;具备掌握ELK数据预处理方法及流程的能力;具备精通数据预处理的能力。技能目标具备团队意识;具备良好的解决问题的能力;具备较强的学习能力;使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于从CSV文件中读取数据,其必要参数为数据文件的存储路径,同时还可在读取文件时设置分隔符、编码、进行空值定义等操作。1.数据表获取(1)读取数据文件①read_csv()pd.read_csv(filepath_or_buffer,sep=',',header='infer',names=None,index_col=None,prefix=None,dtype=None,encoding=None,converters=None,skipinitialspace=False,na_values=None,na_filter=True,true_values=None,false_values=None)使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能1.数据表获取(1)读取数据文件①read_csv()参数描述filepath_or_buffer文件路径sep分隔符设置,默认值为‘,’header数据文件中用于表示列名部分的行数(数据开始的行),默认为0names用于为结果添加列名index_col指定索引列prefix自动生成的列名编号的前缀dtype指定列的数据类型encoding指定编码converters设置指定列的处理函数,可以用"序号"、“列名”进行列的指定skipinitialspace忽略分割符后面的空格na_values空值定义na_filter检测空值,值为Falsek时可以提供大文件的读取性能true_values将指定文本转换为truefalse_values将制定文本转换为false使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法主要用于从Excel文件中加载数据并以二维数据表的格式输出。1.数据表获取(1)读取数据文件②read_excel()d.read_excel(io,sheet_name=0,header=0,names=None,index_col=None,usecols=None,squeeze=False,dtype=None,true_values=None,false_values=None,skiprows=None,nrows=None)使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能1.数据表获取(1)读取数据文件②read_excel()参数描述io文件路径sheet_name指定表单名称header设置数据中为表头的行,默认为0names自定义表头的名称,值为数组类型。index_col指定作为索引的列usecols设置要获取的列的范围,值为str,则表示Excel列字母和列范围的逗号分隔列表,为int,则表示解析到第几列。为int列表,则表示解析列表中指定的列。squeeze默认为False。设置squeeze=True时表示如果解析的数据只包含一列,则返回一个Series。dtype指定列的数据类型,默认为None不改变数据类型。true_values将指定的文本转换为True,默认为Nonefalse_values将指定的文本转换为False,默认为Noneskiprows省略指定行数的数据nrows指定需要读取前多少行,通常用于较大的数据文件中。使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法主要用于从SQL数据库表获取数据,该方法需要创建与数据库的链接,通过SQL语句从表中获取数据。1.数据表获取(1)读取数据文件③read_sql()pandas.read_sql(sql,con,index_col=None,coerce_float=True,parse_dates=None,columns=None,chunksize)参数描述sql用于查询数据的sql语句,类型为strcon连接数据所需的引擎,使用对应的数据库链接库创建,如:index_col选择某一列作为indexcoerce_float将数字形字符串转为float读入parse_dates将某一列日期型字符串转换为datetime型数据columns要选取的列chunksize指定输出的行数使用Pandas实现新闻动态网页数据预处理壹3Pandas基本功能该方法用于加载JSON文件中的数据,与read_csv()和read_excel()使用方法一致,read_json()方法参数如下所示。1.数据表获取(1)读取数据文件④read_json()pd.read_json(path_or_buf=None,orient=None,typ='frame',dtype=Truekeep_default_dates=True,numpy=False,date_unit=None,encoding=None,lines=False)参数描述path_or_buf文件路径orient指示预期的JSON字符串格式ty
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人教部编版 (五四制)二年级下册语文园地五教案
- IT工程师项目管理系统应用指导书
- 新版房屋买卖合同范本解析
- 第1节 能源利用的现状和面临的挑战教学设计初中物理人教版2024九年级全一册-人教版2024
- 设备维护计划执行企业运维团队预案
- 制造业产品质检检测标准操作手册
- 宣传资料变更确认函(9篇)
- 环境评估与可持续发展规划模板
- 企业经济效益稳健发展承诺书(7篇)
- 企业整体风险防控承诺函(8篇)
- 2026四川德阳市什邡市教育和体育局选调高(职)中教师13人备考题库附答案详解
- 2026江西赣州市安远县东江水务集团有限公司第一批人员招聘10人备考题库含答案详解(b卷)
- 企业一般固废管理制度
- 2026年花样滑冰赛事品牌建设与营销创新案例研究
- 2026山东青岛海关缉私局警务辅助人员招聘10人考试参考题库及答案解析
- 2026年考研数学一模拟单套试卷(含解析)
- 旅馆防偷拍工作制度
- 2026贵州贵阳市信昌融合实业发展有限公司招聘16人笔试备考试题及答案解析
- 2026年北京市丰台区高三一模英语试卷(含答案)
- 山西晋城市2026届高三下学期一模历史试题(含答案)
- 建筑项目工程款审核流程模板
评论
0/150
提交评论