04R语言37 数据分析师p100R语言_第1页
04R语言37 数据分析师p100R语言_第2页
04R语言37 数据分析师p100R语言_第3页
04R语言37 数据分析师p100R语言_第4页
04R语言37 数据分析师p100R语言_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

本周导读(第1页/共1页)我的作业目录模式笔记模式本周,我们将开始学习一个在数据分析工作中非常重要的编程语言R。在上一周我们已经学了统计基础知识,如何将这些理论知识应用到实际的数据分析工作场景中呢?我们可以借助R语言来实现。R语言是一个用于统计计算和统计制图的非常优秀的工具。在本周,我们将继续使用共享单车案例探究更多问题。学完本章,你将会收获 系统学习R语言的基础知识、R语言在数据处理和数据分析中的应用方式; 重点:掌握五种基本数据结构(向量、数组、矩阵、列表、数据框)和以及基本的数据类型; 实践:通过实战案例的串讲,学会如何编写简单的R程序,实现工作中的基础数据分析需求; 可视化:掌握最常用的ggplot包,将分析结果可视化;关于视频如果同学认为老师语速较慢,建议1.25倍速观看1. R语言的简介(第1页/共1页)我的作业目录模式笔记模式R是专业的理解数据、探索数据和展示数据的语言,由于R的开源和自由,每个数据分析师在其中可发挥的作用都将被无限放大。那么,R语言到底是在什么背景下被开发出来,其自身又有什么特点呢?在课程的前几周,我们已经掌握了数据分析工具Excel、SQL以及数据可视化工具PowerBI。同学是否会有这样的疑惑:作为数据分析师为什么要学习R语言呢?同样是编程语言,Python和R在数据分析工作上有哪些区别呢?R在数据分析的应用中有哪些 独特的优势呢?视频问题反馈R和Python的比较(同学可以通过下方这张表区分Python和R的区别)R的安装(第1页/共1页)我的作业目录模式笔记模式在本节你需要重点掌握3个知识点:R的安装、变量赋值、R的脚本,这将有助于你之后的学习。R的安装在正式进入R语言的学习之前,你需要先做两件事情: R 的下载与安装 编程语言本身 RStudio 的下载与安装 R 的代码编辑器(用于编程的文本编辑器,好的编辑器可以大大提高编程效率)请参考下方安装文档,完成安装:Mac版R的安装:https:/shimo.im/docs/dcd3e3752324434eMac版RStudio的安装:https:/shimo.im/docs/adf446a015074c31/(感谢热心网友 道长助教提供Mac版R的安装文档)Windows版R的安装:https:/shimo.im/docs/e4994e7a28a3466a/Windows版RStudio的安装:https:/shimo.im/docs/aed2d87e11ab491f/视频问题反馈变量赋值在R中可以有“”、“=”三种赋值运算符为变量赋值。 “-”和“=”有细微区别,他们赋值之后的程序作用范围有所不同; 为了保持编程风格的一致,建议在赋值时候尽量用“ 7)、(6 * 7 = 42)判断结果的“和”运算。(2)(5 7)、(6 * 7 = 42)判断结果的“或”运算。我的回答请输入您的代码1重置代码运行练习题5、请完成以下操作:1) 将12赋值给变量time.factor,并输出time.factor。2)将2.5赋值给变量time.in.years,并输出time.in.years 与 time.factor的乘积。我的回答123. 基本数据结构(第1页/共1页)我的作业目录模式笔记模式在基本数据类型的基础上,我们再来了解一下R中的基本数据结构。以基本数据类型为单元,可以组成各种R基本数据结构:向量、列表、因子、矩阵、数据框。在这一节,你需要了解如何创建数据结构,以及每种数据结构之间的区别。(注意:本节课后有练习题!)同学如果看不清视频示例可以下载示例代码:【基本数据结构】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!视频问题反馈练习题6、请完成以下内容:1)将向量(5,6,3),(2,6,4)分别赋值给变量a、b。2)计算a+b、a-b、a*b、a/b 以及 ab。我的回答请输入您的代码1重置代码运行练习题7、请完成以下操作:1) 将含有参数Sean、Louisa、 Frank、 Farhad、 Li的向量赋值给变量students。2) 将含有参数80、90、 93、 82、95的向量赋值给变量midterm。3)输出students。我的回答请输入您的代码1重置代码运行练习题8、请完成以下操作:1)将向量(4,5,8)赋值给a变量,将向量(1,3,6)赋值给b变量。2)分别输出a大于b、a小于b、a大于等于b、a小与等于b的值。我的回答请输入您的代码1重置代码运行练习题9、创建一个由1-20的数字组成的行数为5,列数为4的矩阵,将该矩阵赋值给变量y并输出。我的回答请输入您的代码14. 读写数据(第1页/共1页)我的作业目录模式笔记模式在了解了R语言的基础知识即基本数据类型和基本数据结构之后,我们将正式进入数据处理和分析的环节。你可以下载本周课程示例数据并读取到R中。在数据分析师的日常工作中需要处理各种来源和格式的数据,在本节中,你将会了解到不同格式的数据如何导入以及如何创建R的工作目录。(注意:本节课后有练习题!)同学如果看不清视频示例可以下载示例代码:【读写数据】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!视频问题反馈本周示例数据:Shared Bike Sample Data (csv 文件)Shared Bike Sample Data.zip设置工作目录: 打开 RStudio,使用 setwd() 函数将R的工作目录,设在 Shared Bike Sample Data .csv 文件所在目录 setwd (Shared Bike Sample Data.csv 所在地址 )为方便本课程使用,建议同学把 Shared Bike Sample Data .csv文件下载到桌面并将工作目录设置为桌面;代码: getwd () #获取工作目录位置 setwd () #设置新的工作目录位置 例如:读取数据:这里给大家提供了R软件中常用的几种读取文本文件的方法:R读取文件方法 遇到新类型文件需要读取时,你可以在网上查询相关资料。在需要的时候,类似于w3cschool的相关练习材料,可以帮助我们尽快了解如上文件格式读取的基本操作:/r/r-k69s1w4s.html。戳开网址练习一下吧!练习题10、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”;2)查看数据前五行;我的回答1#提示:Cars- read.csv(sanjieke-r.csv)重置代码运行5. R的数据处理(第1页/共1页)我的作业目录模式笔记模式在第一周我们已经学习过数据分析工作的流程包括:数据获取、数据清理、数据转换、统计分析与建模、数据探索、分析呈现六个步骤,在每个步骤中其实都可以用R语言来实现。在这一节我们主要了解在数据清理、数据转换步骤中(统称为数据处理)R语言可以有哪些常见的应用。 取子集:选取特定数据子集; 强制类型转换:转换数据类型; 数据排序:对数据进行排序; 缺失值:处理缺失值及填补;(注意:本节课后有练习题!)同学如果看不清视频示例可以下载示例代码:【数据处理】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!视频问题反馈在进行缺失值填补时,我们可以将多个步骤合成一行代码来完成,总体思路是用除去缺失值的数据的均值补齐数据中的缺失值。实现代码如下所示:datais.na,分数-mean(data$分数,na.rm=TRUE)先看代码左侧,使用is.na用来判断是否为缺失值,后放到数据框“data”下用于索引出含缺失值的子集,并且着重标注了“分数”这一列。左侧代码整体表示的就是对含缺失值子集的提取。再看代码右侧,我们想用均值对缺失值补值,使用均值函数mean(),计算data$分数的均值,na.rm=TRUE表示除去缺失值。右侧代码整体表示的就是计算除去缺失值后分数的均值。将代码右侧赋值给代码左侧,就完成了用除去缺失值的均值对缺失值的填补。练习题11、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)用3种方法查看指定字段“价格”我的回答1#提示:Cars- read.csv(sanjieke-r.csv)重置代码运行练习题12、请将变量x转换成字符型数据。我的回答1x - 0:6 #生成0-6所有的整数2#class(x) 3#1 ingeter45重置代码运行查看数据(第1页/共1页)我的作业目录模式笔记模式在使用R语言进行数据分析的时候,无论是在刚刚读取了数据,还是对数据进行了一定的处理之后,我们都希望对当前数据对象 内容和结构有一个清晰了解。在R语言中给我们提供了一些非常方便和快捷的函数,让我们可以马上查看当前的数据对象的重要信息。(注意:本节课后有练习题!)同学如果看不清视频示例可以下载示例代码:【查看数据】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!视频问题反馈对数据对象的快速查看 str() 查看数据对象的结构摘要 summary () 查看各种数据对象的内容摘要练习题13、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)快速查看数据对象(可以使用str()和summary()函数)我的回答1#提示:Cars- read.csv(sanjieke-r.csv)23重置代码运行练习题14、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)统计数据集的行数、列数我的回答1#提示:Cars- read.csv(sanjieke-r.csv)重置代码运行函数的搜索和使用查询(第1页/共1页)我的作业目录模式笔记模式在使用R语言的过程中,当数据分析的任务变得更多更复杂时,我们无法记住所有的函数和操作方式,此时作为一名数据分析师你就需要主动搜索解决问题。在R语言软件内部给同学提供了许多帮助功能,此外同学还应善用搜索引擎。视频问题反馈R cheetsheat中文翻译版:建议同学可以将参照表下载或打印,在之后的项目练习中方便使用。base-r cheetsheat.pdf同学在遇到新的问题时,要主动搜索解决问题哦!6. R的数据分析(第1页/共1页)我的作业目录模式笔记模式在上一节,我们学会了R语言中常见的数据处理的方法。在本节中,你将通过函数的学习来处理一些更复杂的任务,这些函数分别是:数学类函数、分布类函数、A/B测试函数。学完本节,你需要了解并能够使用几种分析类函数,你可以参考课程中的示例在RStudio中进行练习。(注意:本节课后有练习题!)同学如果看不清视频示例可以下载示例代码:【数据分析函数】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!视频问题反馈常用的数学类函数 max/min 最大值/最小值 sum 求和 mean/median 平均值/中位数 sd - 标准方差 quantile 求四分位数或百分位数 round 进行四舍五入保留数字有效位数其他几种分布的分布函数练习题15、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)为“价格”字段计算一下平均值、中位数、标准差、四分位数。分别命名为:avg, md, std, quantile.25, quantile.50, quantile.753)构建一个数据框(data frame),将上述六个统计量结果放在一个一行六列的数据框中,并用names()函数及向量 c(平均数,中位数,标准差,25%四分位数,50%四分位数,75%四分位数)为每一列命名,最后输出数据框我的回答1#提示:Cars显著性水平?,原假设成立; * P值 显著性水平?,拒绝原假设,备择假设成立;练习题16、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)单样品平均值检测:基于行业报告,市场平均价格是16,样品平均价格是否统计显著大于市场平均价格?使用t检验对结论进行检验。我的回答1#提示:Cars- read.csv(sanjieke-r.csv)2#t.test函数用法:3t.test(x, alternative = c(two.sided, less,greater),4 mu= 0,paired = FALSE, var.equal = FALSE,5 conf.level = 0.95, .)6x:非空数据集向量7alternative:替代假设,双侧检验左侧检验右侧检验8mu:均值,默认mu=0,可指定任意值重置代码运行测试一下【单选题】16、基于行业报告,市场平均价格是16,检验样品平均价格是否统计显著大于市场平均价格。进行t检验,得到的结论是?A样品平均价格大于市场平均价格B样品平均价格没有大于市场平均价格提交答案练习题17、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)双样品平均值检测:产地为USA / non-USA的车辆平均价格是否有统计显著的差异?使用t.test()检验,使用usa_price、nonusa_price分别表示产地为USA / non-USA的车辆平均价格。我的回答1提示:Cars- read.csv(sanjieke-r.csv)2#t.test()函数使用方法:3t.test(x, y = NULL,alternative = c(two.sided, less,greater).)4x, y:非空数据集向量5alternative:替代假设,双侧检验左侧检验右侧检验重置代码运行测试一下【单选题】17、检验产地为USA / non-USA的车辆平均价格是否有统计显著的差异,进行t检验,得到的结论是?A产地为USA / non-USA的车辆平均价格有统计显著的差异B产地为USA / non-USA的车辆平均价格没有统计显著的差异提交答案练习题18、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)单样品比例检验:基于行业报告,市场手排比例为50%,样品手排比例 与市场手排比例是否有统计显著的差异?使用Z检验对假设进行检验。(样品:手排/所有=61/93)我的回答1提示:Cars- read.csv(sanjieke-r.csv)2函数使用方法:3prop.test(x, n, p = NULL,alternative = c(two.sided, less, greater)4重置代码运行测试一下【单选题】18、基于行业报告,市场手排比例为50%,检验样品手排比例与市场手排比例是否有统计显著的差异,进行Z检验,得到的结论是?A样品手排比例与市场手排比例有统计显著的差异B样品手排比例与市场手排比例没有统计显著的差异提交答案练习题19、按照要求完成下面操作:1)读取“sanjieke-r”数据集,命名为“Cars”2)双样品比例检验:比较产地为USA 与non-USA的手排比例是否有统计显著的差异?使用prop.test()进行Z检验我的回答1提示:Cars- read.csv(sanjieke-r.csv)重置代码运行测试一下【单选题】19、检验产地为USA 与non-USA的手排比例是否有统计显著的差异,进行Z检验,得到的结论是?A产地为USA 与non-USA的手排比例有统计显著的差异B产地为USA”与 non-USA的手排比例没有统计显著的差异提交答案上一节1/1下一节7. 控制流(第1页/共1页)我的作业目录模式笔记模式一般来说,R语言的执行顺序是自上而下完成的。但在某些特定的分析任务中,你可能需要重复循环执行某些语句,在这种情况下,控制流即条件运算和循环就可以发挥作用了。(注意:本节课后有练习题!)同学如果看不清视频示例可以下载示例代码:【控制流】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!视频问题反馈练习题20、用for循环语句输出从1到4的值。我的回答请输入您的代码1重置代码运行练习题21、利用for循环,依次输出Good Night and”、Good Night and Good、Good Night and Good Luck。提示:可以使用paste函数进行字符串的拼接。我的回答1# phrase - Good Night 将Good Night赋值给phrase变量2# paste(phrase, word) 作用是将word拼接到phrase后3重置代码运行练习题22、利用while循环,将变量day按照1、2、.、30依次输出我的回答请输入您的代码1重置代码运行上一节1/1下一节自定义函数与R软件包(第1页/共1页)我的作业目录模式笔记模式R语言最大的优点之一就是使用者除了可以使用R自带的丰富函数外,还可以根据分析需要自定义函数。你可以将自己常用的数据操作过程保存下来,再次重复类似操作时直接调用,省去重复命令的时间提高工作效率。同时,R语言给使用者提供了非常多功能强大的软件包,在R官方的软件包库 CRAN 里,有约13500个软件包。学完本节课程,你将掌握自定义函数的方法以及调用R的软件包的方法。同学如果看不清视频示例可以下载示例代码:【自定义函数】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!注意!软件包安装命令:install.packages( packagename ),软件包的名字需要使用英文双引号。视频问题反馈上一节1/1下一节8.1 R的可视化(ggplot2)(第1页/共1页)我的作业目录模式笔记模式数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通数据背后的信息。在第一周我们已经学习了Excel作图和使用PowerBI制作数据看板,这一周我们将重点学习R语言在数据可视化方面的独特功能。在R中有一个非常强大的软件包叫做ggplot2,你可以先将ggplot2软件包安装到R中,便于接下来的学习。安装方式:install.packages(ggplot2)。同学如果看不清视频示例可以下载示例代码:【数据可视化】示例代码.zip注意!提供示例代码只是为了让同学方便学习课程内容,建议同学边看课程边敲代码。同学可以在给定文件空白处自己重新敲一遍代码,自己多动手练习才能真正掌握哦!视频问题反馈使用Mac的小伙伴看过来!Mac系统可视化乱码问题解决方案:#方法一:使用 GBK格式读取文件: read.csv(file, header = TRUE, sep = ,,na.strings = NA,encoding=GBK)#方法二:在可视化部分添加指定字体代码: 使用 ggplot2进行可视化:theme(text=element_text(family = STKaiti) 其他:par(family=STKaiti)不同图形的Excel & ggplot2实现方式对比上一节1/1下一节8.2 案例R的数据可视化(第1页/共1页)我的作业目录模式笔记模式在上一节我们已经对ggplot2软件包有了简单了解,这一节我们再次基于共享单车用户满意分数调研案例来了解如何使用统计计算、多种图形风格等对多元数据进行可视化。在本节中,你还将掌握三种数据分析工作中最常见的可视化图形:直方图

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论