版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
项目10数据采集场景描述数据是数据分析的基础,电商数据可以从多个渠道进行获取,如后台的数据下载、生意参谋各模块的数据下载、网页数据采集等。学会如何在网页中采集目标数据是数据分析中不可或缺的一步。项目目标通过Excel的PowerQuery采集网页端的静态和动态数据。项目任务分析维度数据采集任务1:静态数据采集(一)如何使用PowerQuery数据清洗数据保存任务2:静态数据采集(二)获取静态数据的url在PowerQuery中输入公式及M函数数据清洗数据保存任务3:动态数据采集如何使用PowerQuery获取动态数据的url在PowerQuery中输入公式及M函数数据清洗数据保存分析思路判断方式:复制部分目标数据,进入网页源代码页面,利用快速查找(Ctrl+F)功能确定是否能够定位到目标数据,定位成功则目标数据属于静态数据,否则为动态数据。数据采集步骤判断目标数据是静态数据还是动态数据采集目标数据保存数据静态数据:在加载网页时,数据内容就已经存储在网页的源代码中,可以直接从源代码中提取出来。动态数据:在网页加载时,并不会立即显示出来,而是需要进行一些特定的动作,如滑动鼠标滚轮、点击按钮等,才会触发加载动作,将数据动态地加载到网页中。数据采集步骤判断目标数据是静态数据还是动态数据采集目标数据保存数据确定采集目标的url:静态数据的url与网址相同,而动态数据需要找到对应加载包中请求头页面下的RequestURL。明确目标所在位置:选中目标数据,鼠标右击选择“检查”,使用开发者工具(如浏览器的开发者工具)定位目标数据在网页中的位置,了解数据在网页中的呈现方式、存储形式。采集目标数据:编写代码,向网页发送请求,针对网页返回的内容并提取目标数据。将采集到的目标数据以文件的形式存储到本地电脑当中,也可以存储至云端数据库。项目10数据采集任务1静态数据采集(一)网址:/team/HOU.html(1)在NBA数据网页上采集休斯敦火箭队球员最新赛季的历史数据。静态数据采集(一)①利用Excel从“自网站”中获取数据。②选择目标数据“Table0”表,点击“编辑”进入PowerQuery编辑器。(1)在NBA数据网页上采集休斯敦火箭队球员最新赛季的历史数据。③删除第一列空列。④筛选数据。将“总计”“全队数据”“对手数据”的勾去掉,只选择需要的数据。静态数据采集(一)(1)在NBA数据网页上采集休斯敦火箭队球员最新赛季的历史数据。⑤关闭并上载数据。静态数据采集(一)项目10数据采集任务2静态数据采集(二)静态数据采集(二)①选中数据中任一单元格,选择“自表格/区域”,进入PowerQuery编辑器。(1)通过设置URL规则,一次性对多个球队的数据进行采集。(1)通过设置URL规则,一次性对多个球队的数据进行采集。②添加自定义列,创建url。静态数据采集(二)(1)通过设置URL规则,一次性对多个球队的数据进行采集。③再次添加自定义列。公式中的M函数说明:函数1:“Web.Page”是以网页的方式加载数据。函数2:“Web.Contents”是将网页以二进制文件的格式下载。{0}[Data]是打开网页中的第一张表格,也就是上一个采集的“Table0”。静态数据采集(二)静态数据采集(二)(1)通过设置URL规则,一次性对多个球队的数据进行采集。④展开table,空列可以直接取消勾选,并且取消勾选“使用原始列名作为前缀”复选框。⑤展开数据后,取消勾选“总计”“全队数据”“对手数据”复选框。⑥删除不需要的列。⑦关闭并上载数据。静态数据采集(二)(1)通过设置URL规则,一次性对多个球队的数据进行采集。项目10数据采集任务3动态数据采集网址:/team/HOU.html(1)在NBA数据网页上采集不同球队中不同球员的赛季比赛记录。动态数据采集①F12进入开发者模式NetWork(网络)界面,选择不同年份赛季,此时右侧的NetWork窗口的左侧会新增文件链接,单击该新增文件,在Preview窗口可查看文件内容。②单击“Headers”按钮,从“Headers”窗口可以看到请求RequestURL:/team/stat_box_team.php?team=HOU&season=2017&col=pts&order=1&isseason=1。(1)在NBA数据网页上采集不同球队中不同球员的赛季比赛记录。③将需要采集的球队和年份数据作为参数导入采集过程。选择“自表格/区域”选项,将数据导入PowerQuery编辑器。④将年份的格式设置为文本,方便参数传入URL中。动态数据采集(1)在NBA数据网页上采集不同球队中不同球员的赛季比赛记录。⑤添加自定义列,创建目标URL。动态数据采集⑥根据url下载文件,用自定义列实现。M函数说明:Text.FromBinary是将二进制文件转成文本,其语法结构为:Text.FromBinary(binaryasnullablebinary,optionalencodingasnullablenumber)asnullabletext。本例使用该函数是为了解决乱码问题,第二个参数65001表示UTF8编码。动态数据采集(1)在NBA数据网页上采集不同球队中不同球员的赛季比赛记录。⑦展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 两位数乘一位数(不进位)的笔算
- 放坡开挖施工工艺及施工方法
- 煤化工废水处理站施工方案及技术措施
- 水泥生产车间余热发电事故应急预案演练脚本
- 热水管道施工方案
- BA系统专项施工方案
- 2026年电工高级技师考试题库及答案
- 工会法知识竞赛题库工会法知识竞赛试题及答案
- 公路抗滑桩施工方案及技术措施
- 送风机隔声防护工程安装施工方案及技术措施
- 学堂在线 批判性思维-方法和实践 章节测试答案
- 《大米加工技术》课件
- DBJ50-T-086-2016重庆市城市桥梁工程施工质量验收规范
- 个人车辆抵押合同模板
- JGJ-T+141-2017通风管道技术规程
- 口腔科医疗废物培训
- 最优控制第三章课后习题答案
- 三体系内审检查表样本
- 县乡联系服务群众方案
- 少女乙女的恋爱革命全中文攻略
- 二氧化碳安全标签
评论
0/150
提交评论