商务智能与数据可视化分析基础 课件 第4章_第1页
商务智能与数据可视化分析基础 课件 第4章_第2页
商务智能与数据可视化分析基础 课件 第4章_第3页
商务智能与数据可视化分析基础 课件 第4章_第4页
商务智能与数据可视化分析基础 课件 第4章_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章数据预处理之PowerBI篇商务智能与数据可视化分析基础1本章内容PowerBIDesktop的主页与抓取网页数据PowerBIDesktop的主页

分析网址结构采集第一页的数据设置页码参数批量调用页码函数PowerBI数据预处理数据导入数据填充与筛选添加列数据的追加与合并查询201PowerBIDesktop的主页与抓取网页数据数据预处理之PowerBI篇PowerBIDesktop的主页PowerBI抓取网页数据分析网址结构采集第一页的数据设置页码参数批量调用页码函数PowerBIDesktop主页的布局与Excel类似,上方是各种功能的选项卡,右侧是一些PowerBI自带的可视化对象,单击即可方便地调用。1.1PowerBIDesktop主页31.2PowerBI抓取网页数据4分析网址结构使用鼠标将页面滚动到最下方,找到显示的页码,分别单击“第2页”、“第3页”和“第4页”按钮,观察网址变化。观察网址,可知“pg”后面的一个数字就是页码ID,是控制分页数据的变量。为了进一步确认,将网址中的“pg”后面的数字改为“1”,按回车键后确实能返到第一页。1.3PowerBI抓取网页数据5采集第一页的数据打开PowerBIDesktop,依次选择“主页”→“获取数据”→“Web”选项。1.4PowerBI抓取网页数据6从弹出的对话框中选中“高级”单选按钮,将之前分析的网址中的除页码ID外的网址输入“URL部分”的第一行输入框中,将“1”输入第二行输入框中,将“rs上海/”输入第三行输入框中。1.5PowerBI抓取网页数据7在“URL预览”输入框中可以看到,上面设置的三行的网址已经自动合并到一起,在“URL部分”中分开输入只是为了更清晰地区分页码变量。单击“确定”按钮后,使用“匿名”方式访问。1.6PowerBI抓取网页数据8单击“连接”按钮,等待运行一段时间后,自动进入“导航器”对话框,该对话框的左侧出现很多表。在对话框左侧的表中勾选某个表的复选框,在对话框右侧“表视图”区域中会显示其对应的数据。例如,勾选“表4”复选框,在右侧“表视图”区域中会显示“表4”的数据。1.7PowerBI抓取网页数据9单击“转换数据”按钮,等待运行一段时间后,进入“PowerQuery编辑器”界面的数据展示。1.8PowerBI抓取网页数据10设置页码参数在“PowerQuery编辑器”界面中,选择“高级编辑器”选项。1.9PowerBI抓取网页数据11在弹出的“高级编辑器”窗口中,在“let”的上一行输入“(pasnumber)astable=>”,并在“let”的下一行的网址中,将“&”后面的“1”改为“Number.ToText(p)”。更改后为“源=Web.BrowserContents(”/ershoufang/pg“&Number.ToText(p)&”rs上海/“)”。1.10PowerBI抓取网页数据12完成上述操作以后,刚才第一页数据的查询窗口变成了自定义函数的输入参数窗口,表格也变成了函数的样式。点击【完成】按钮后,可得到一个可以调用的函数窗口,在“输入参数”p下面的输入框,输入“5”,点击【调用】按钮。1.11PowerBI抓取网页数据13至此完成了自定义函数设定,p是该函数的变量,用来控制页码,随便输入一个数字,如:5,将抓取第5页的数据。1.12PowerBI抓取网页数据14

批量调用页码函数输入一次参数只能抓取一个网页中的数据,如果想批量抓取网页中的数据,则还需要批量调用该函数,因此需要执行以下步骤。选择“主页”→“新建源”→“空查询”选项,建立一个数字序列。例如,如果想抓取前10页的数据,需要建立从1到10的序列,在空查询中输入“={1..10}”,按回车键后,建立从1到10的数字序列。1.13PowerBI抓取网页数据15

批量调用页码函数单击“转换”→“到表”按钮。在弹出的“到表”对话框中,设置“如何处理附加列”为“显示为错误”,并单击“确定”按钮。1.14PowerBI抓取网页数据16

批量调用页码函数在“PowerQuery编辑器”界面中,单击“添加列”→“调用自定义函数”按钮在弹出的“调用自定义函数”对话框中,在“新列名”输入框中输入“表4”,设置“功能查询”为“表4”,设置“p”为“Column1”。1.15PowerBI抓取网页数据17

批量调用页码函数在单击“确定”按钮后,就开始批量抓取网页了,抓取10页的数据耗时大约几十秒,返回数据抓取结果。单击对话框右上角的,选中“展开”单选按钮,展开该表格。1.16PowerBI抓取网页数据18

批量调用页码函数单击“确定”按钮后,则显示这10页的数据。1.17PowerBI抓取网页数据192002PowerBI数据预处理数据预处理之PowerBI篇数据导入数据填充与筛选数据中添加列数据追加当从Excel向PowerBI导入数据时,第一步要做的是提升标题。在Excel中,第一行是标题行,从第二行开始才是数据,但在PowerQuery编辑器中,从第一行开始就要记录数据,标题行在数据之上,因此从Excel中导入数据的第一步就是提升标题行。单击“转换数据”按钮进入,单击“转换”→“将第一行用作标题”按钮,就完成了标题行提升。2.1数据导入21设置数据类型有以下两种方式。方法一:单击“转换”→“数据类型:文本”按钮,在弹出的下拉列表中进行设置。方法二:通过标题行中的按钮进行设置。单击标题行中的待设置列的左侧的图标按钮。2.2数据类型设置22错误值的处理大部分的数据报错是由数据格式引起的,对数据格式转换后依然报错的列,可以选择“删除错误”命令,或者将错误值替换为“空”或特定值“0”。具体的处理方式是,右击所在列,在弹出的快捷菜单中进行命令选择。2.3数据填充与筛选23空值的处理单击所在列的标题行的右侧的“”按钮,在弹出的下拉列表中选择“删除空”选项即可。2.4数据填充与筛选24在“PowerQuery编辑器”界面中添加列有四种方式,分别为重复列、索引列、条件列、自定义列2.5数据中添加列25重复列添加重复列就是复制选中的列并添加为新列,以便对该列的数据进行处理而不损坏原有列的数据。添加重复列的操作步骤如下:选中需要重复的列,选择“添加列”→“重复列”选项;或者右击需要重复的列的标题行,在弹出的快捷菜单中选择“重复列”命令2.6数据中添加列26索引列添加索引列就是添加每行都带有序号的列,方便记录每一行所在的位置,可以从0或1开始。添加索引列的操作步骤如下:选中需要索引的列,选择“添加列”→“索引列”→“从0”或“从1”选项。2.7数据中添加列27条件列添加条件列就是添加一列根据指定条件从其他列计算得出的数据列。添加条件列的操作步骤如下:单击“添加列”→“条件列”按钮,在弹出的“添加条件列”对话框中进行设置。例如,设置“列名”为“A0”,设置“运算符”为“等于”,设置“值”为“A1”,在“输出”输入框中输入“高级工程师”。2.8数据中添加列28条件列单击“确定”按钮后,将根据设置的条件得到新的一列。2.9数据中添加列29自定义列添加自定义列就是使用M函数生成新的一列。添加自定义列的操作步骤如下:单击“添加列”→“自定义列”按钮,弹出“自定义列”对话框。这里将“工号”列中的数值翻倍,在“自定义列公式”输入框中输入“=[10001]*2”。2.10数据中添加列30自定义列单击“确定”按钮后,显示添加的自定义列。2.11数据中添加列31在数据分析时,有时需要进行数据的追加。例如,当合并多个格式相同的表格时,需要使用追加查询。追加查询是在现有数据的基础上,在行的下边添加新的行,是一种纵向合并。要将两个格式相同的表,合并为一个表,则需要追加查询。数据加载导入PowerBI中后,单击“转换数据”按钮,进入“PowerQuery编辑器”界面,选中左侧“查询”窗格中的Sheet1,单击“主页”→“追加查询”按钮。2.12数据追加32在弹出的“追加”对话框中,选中“两个表”单选按钮,在“要追加的表”下拉列表选中“Sheet2”选项。2.13数据追加33最后单击“确定”按钮,完成追加查询。2.14数据追加34例如,要在Sheet1中找到每个员工工号对应的入职时间,首先将文件里的Sheet1中的数据导入Sheet3,然后在“查询”窗格中选中Sheet1并单击“主页”→“合并查询”按钮。在弹出的“合并”对话框中,选择需要匹配的字段,这两个表都选择“工号”列,在“联结种类”下拉列表中选择“左外部(第一个中的所有行,第二个中的匹配行)”选项。单击“确定”按钮,创建合并查询表。2.15合并查询35创建合并查询表。2.16合并查询36展开Sheet3,勾选需要字段的复选框,合并查询就完成了。增加了每个员工对应

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论