




免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
R语言基础1.在业界,用Stata的很少,不到百分之十,而用R的非常多,可以说是一种general analysis way。但是python也是众多人青睐的软件之一。2.R语言的优缺点: 优点:可以做任何想做的东西,比如:作图,做PPT,做动画,做网页,做模型等等。(PS:Spss和SAS都是 基于R上研发的,落后至少有三到四年,但是他们是基于硬盘运行的,而R是基于内存运行的) 缺点:1.前期难学,突破瓶颈比较难。 2.过多的安装包供选择,会使选择困难。 3.容易出错,而且还不知道错在哪里。 4.在内存中运行,不利于大数据运算。3.R语言找帮助:1.Quick-R(里面与很多练习的小例子,可以用来基础者学习) 2.R seek 3.Cross-validated4.R语言中Data存在的五种形式:1.Numeric(数值型):numericeg.1,2,3,pi 2.Integer(整数型):eg.1,types as 1L (L即为整数) 3.Complex(复数型):eg.1+2i,real+imaginary 4.Logical boolean(逻辑型):eg.TRUE or FALSE, T or F 5.Character(字符型):stringsEconomitric with R 例子:X-cR,2,FALSE class(X)#查看X,结果显示都为Character型,说明字符型优先于所有的型。 1 R 2 FALSE X-c2,FALSE class(X) 1 2 0 #显示全为数值型,说明数值型优先于逻辑型5.R语言中的向量 1.生成字母向量 a-c(letters1:4)#小写字母四个or A-c(LETTERS1:4) 1 a b c d 2.生成数值向量 a-c1:100#从一到一百 3.特征量 mean var a+1 4.向量里面的每个值的长度(尤其是字母向量) nchar(B) 1 1 1 1 1 B(2)-Bing#将B里面的第二个量改成Bing nchar(B) 1 1 4 1 1 5.输入变量有哪些 ls() 1 a b B 6.移除现有的变量 rm(a) 7.向量间隔 seq(1,100)#从一到一百,默认间隔为一 seq(1,100,by=3)#间隔为3 seq(1,100,length=1000)#在一到一百之间等间隔选出1000个数 8.重复向量 rep(10,10)#重复10,10遍 rep(x=1:5,times=3)#从一到五重复三遍 1 1 2 3 4 5 4 3 2 1 2 3 4 5 rep(x=1:5,each=3)#从一到五每个数重复三遍 1 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 rep(x=1:5,each=3,times=3)#从一到五每个数重复三遍后在重复三遍 1 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5 4 4 4 3 3 3 2 2 2 1 1 1 . 9.向量按正态分布抽取数据 x-rnorm(100)#从标准正太态布中随机抽一百个数 x-rnorm(100,175,8)#从均值为175以及标准差为8的正态分布中随机抽100个数 10.数据展现索引 x-1:10#展现一到十 head(1:10)#展示开头一到十个数据 tail(1:10)#展现结尾一到十个数据 x0.5#索引那些小于0.5的数据,小于的显示TRUE不小于的显示FALSE xx0.5#索引那些小于0.5的具体数据 length(xx0.5)#展示小于0.5的数据的个数 11.TRUE和FALSE的应用 y-1:5 yc(T,T,F,T,F)#为T的数据保留,为F的数据去除 1 1 2 4 yc(T,F,T)#后面未配有逻辑型的默认保留 1 1 3 4 5 12.逻辑语言“或”“且”“非”的应用 length(x-0.5x0.5)#不可行,R语言里面无法进行这样的逻辑运算 length(x-0.5x$x0.5)#这是“且”(and)的应用$ length(xx-0.5|0.5x)#这是“或”(or)的应用| xx!=0.5#不等于0.5,即“非”(No)的应用! eg. a-1:5 a!=2 1 TRUE FALSE TRUE TRUE TRUE6.R语言中的矩阵 1.生成矩阵 a-matrix(0,3,4)#构建三行四列的矩阵,数据都为0 1 0 0 0 0 0 0 0 0 0 0 0 0 a-matrix(0:11,3,4)#构建三行四列的矩阵,数据从零到十一(从上到下,后从左到右派数据) 1 0 3 6 9 1 4 7 10 2 5 8 11 a-matrix(0:11,3,4,byrow=T)#构建三行四列的矩阵,数据从零到十一(从左到右,后从上到下派数据) 1 0 1 2 3 4 5 6 7 8 9 10 11 2.矩阵的合并 a-0:2 b-3:5 c-8:10 cbind(a,b,c)#将他们以列绑起来 1 0 3 8 1 4 9 2 5 10 rbind(a,b,c)#将他们以行绑起来 3.矩阵里面的数据索引 a-matrix(1:30,5,6) a4,5#索引出第四行第五列元素 a,1#索引第一列所有的元素 a,c(2,4)#索引第二列和第四列的所有元素 a,2:4#索引第二列到第四列的所有元素 ac(2,5),c(2,5)#索引第二行和第五行与第二列和第五列相交的元素 4.矩阵的逆 a,-6#去掉第六列,矩阵变成正方形 solve(a)#得出a的逆 5.矩阵中字符矩阵加如数值型矩阵 a-matrix(letters1:25,5,5) a,6-1:5#不可行 cbind(a,1:5)#强制将1:5绑到矩阵的第六列,注意:此时数值型也变成了字符型 rbind(cbind(a,1:5),rep(F,6)#强制将F的六次重复绑到矩阵第六行,逻辑型变成了字符型 class(cbind) 1 character7.R语言中的数据框(每一列的可以是不同的数据型,不会被强行同化) 1.数据框的生成 a-data.frame(age=rnorm(120,20,2),sex=c(rep(M,50),rep(F,70) #生成年龄服从正态分布的120个数据,男为50个,女为70个的数据框 class(a) 1data,frame 2.数据框结构的查看 str(a) 1 data.frame $age:num $sex:Factor w/ 2 levels 3.将sex强制转换成Fector型(运行有问题)问老师怎么解决 a-data.frame(age=rnorm(120,20,2),sex=c(rep(M,50),rep(F,70),stringsasfactors) 4.从数据框中取数据 a$sex 5.查看数据维度 dim(a) 1 120 2 #120行,2列 names(a) 1 age sex 6.给数据框添加数据 a$height-c(rnorm(50,170,10),rnorm(70,162,6)#加入一组身高的数据 7.用数据框的数据作图(对于数据图的形式,R程序会自动给你挑选最适合的形式) attach(a) plot(factor(sex),height)#做出升高与性别的图像,注意:由于性别是字符型的,所以一定要加factor plot(age,height) plot(factor(sex),height,col=2)#添加2号颜色 8.数据框里每一列的长度都要一致 a$weight-rnorm(123,50,5)#不可行8.R语言中的列表 1.列表的生成 list(a=1:5,b=letters1:10,d=rep(TRUE,12) y-list y $a 1 1 2 3 4 5 $b 1 a b c d e f g h i j $d 1 TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE TRUE class(y) 1 list dim(y) 1 Null 2.列表中的索引 ya#单括号索引,保留list属性 $a 1 1 2 3 4 5 class(ya) 1list ya#双括号索引,不保留list属性 1 1 2 3 4 5 class(ya) 1integer 3.对列表中的相关数据进行分析 a$weight-c(rnorm(50,65,5),rnorm(70,45,10) with(a,cor(height,weight)#求这两者之间的相关性系数,with意为从列表中找,没有with是不可行的 with(a,plot(height,weight)#两者之间的图像 cor(a$height,a$weight)#求这两者之间的相关性系数 attach(a)#从a中 cor(weight,height)#求这两者之间的相关性系数 detach(a)#取消attach这步9.R语言中的回归模型基础 1.模型的构建 model1-lm(heightweight,data=a)#将height和weight做线性(lm)回归 model1 class(model1) 1 lm#线性 str(model1)#有12个列表关于模型的一些系数等等 summary(model1)#回归结果 b-summary(model1)#? str(b)#只有11个列表? 2.模型结果中一些系数的索引 summary(model1)$r.squared#从模型结果中找R的平方 names(model1) 1 coefficients residuals effects rank 5 fitted.values assign qr df.residual 9 xlevels call terms model names(summary(model1) 1 call terms residuals coefficients 5 aliased sigma df r.squared 9 adj.r.squared fstatistic cov.unscaled model1$residuals#从模型中找残差 3.用模型作图 hist(model1$residuals)#对模型中的残差项做直方图10.R语言中简单数据处理 1.常见错误型数据处理 1/0 1Inf log(0) 1Inf sqrt(-4) 1NaN 2.对于数据中有NA项的处理 a-c(1,2,3,NA) mean(a) 1 NA mean(a,na.rm=T)#移除NA项的结果 is.na(a)#从数据中寻找NA项,结果显示为NA项的为TRUE which(is,na(a)#具体哪一项为NA项 sum(is.na(a)#NA项总的个数 3.数据类型的查找(is.type为识别型) is.numeric(a)#从a中辨别数值型,是的为TRUE is.character(a)#从a中辨别字符型 4.数据类型强制转换(as.type为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 音乐史西方古典音乐知识点归纳梳理
- 应急消防考试试题及答案
- 六一公司举行活动方案
- 六一创意舞台活动方案
- 六一布置职场活动方案
- 六一幼儿结婚活动方案
- 六一活动互动策划方案
- 六一活动冷餐活动方案
- 六一活动小龙虾活动方案
- 六一活动美业活动方案
- 操作规程储气罐安全操作规程
- 电厂物资管理系统解决方案
- 初一数学(下)难题百道及答案
- 七年级下实数及实数的计算
- 中国古典文献学(全套)
- 《抖音平台商品销售策略研究10000字(论文)》
- 两用物项-最终用户用途证明
- 2023-2024学年贵州省铜仁市小学数学五年级下册期末高分预测题
- 会议记录(空白)
- GB/T 20624.2-2006色漆和清漆快速变形(耐冲击性)试验第2部分:落锤试验(小面积冲头)
- GB/T 15474-2010核电厂安全重要仪表和控制功能分类
评论
0/150
提交评论