




已阅读5页,还剩21页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计建模与数据分析,主讲人:李婷婷 西南大学数学与统计学院,参考书籍: 复杂数据统计方法基于R的应用,吴喜之编著,中国人民大学出版社,主要内容,引 言 横截面数据:因变量为实数轴上的数量变量 横截面数据:因变量为分类变量及因变量为计数变量的情况 纵向数据(多水平数据、面板数据) 多元分析(不分因变量和自变量) 路径建模(结构方程建模)数据的PLS分析 多元时间序列数据,引 言,统计是科学? 科学的基本特征是其方法论:对世界的认识源于观测或实验的信息(或者数据), 总结信息时会形成模型(亦称为假说或理论), 模型会指导进一步的探索, 直到遇到这些模型无法解释的现象, 这就导致对这些模型的更新和替代. 统计可以定义为收集、分析、展示和解释数据的科学, 或者称为数据科学(science of data). 统计应用于几乎所有领域.,统计与数学、计算机的关系,统计的思维方式是归纳(induction), 也就是从数据所反映的现实得到稍微一般的模型, 希望以此解释数据所代表的那部分世界. 这和以演绎(deduction)为主的数学思维方式相反, 演绎则是在一些人为的假定 (比如一个公理系统)之下, 推导出各种结论.,在统计发展的前期, 没有计算机, 只能在对数据加上一些数学假定后, 建立一些假定的数学模型, 推导出结果的性质, 诸如置信区间, 假设检验的p值, 相合性等等. 在数据分布与假定的正态分布相差甚远的情况, 人们又利用诸如中心极限定理或大样本定理得到渐近正态的结果. 据此又得到大样本时的各种性质, 包括置信区间或置信带, p值, 相合性等等. 统计的这种发展方式, 给统计打上了很深的数学烙印.,在现成的数学模型无法处理大量的复杂数据的情况下,计算机领域的研究人员和部分概率论及统计学家开发了许多计算方法,处理了传统统计无法解决的大量问题。诸如人工神经网络、决策树、boosting、随机森林、支持向量机等大量算法模型。 统计研究逐步由数据或者问题驱动,创造模型的目的是适应现实数据。,随着时代的前进, 院系现在也出现了诸如数据挖掘、机器学习等课程, 统计杂志也开始逐渐重视这些研究. 这些算法模型大都不是用封闭的数学公式来描述,而是体现在计算机算法或程序上. 参考书籍: The Elements of Statistical Learning:Data Mining, Inference, and Prediction. Second Edition. Trevor Hastie, Robert Tibshirani, Jerome Friedman, Springer,学术期刊,Top 期刊 The Annals of Statistics. Journal of the Royal Statistical Society, Series B. Journal of the American Statistical Association. Biometrika. Journal of Machine Learning Research Econometrika Biostatistics,文献检索,文献检索的一点经验 No sweat, No sweet.,数据分析的实践,数据收集. 首先要根据实际目的. 有数据不一定能够得到需要的结论, 我们需要的是与所关心问题充分有关的变量的数据. 数据预处理. 缺失值 寻找适合的模型:为了寻找模型,首先要对数据进行探索性分析,利用图形、各种统计量、或者比较复杂的探索方法来查看数据的关联性、线性性、异方差性、多重共线性、聚类特征、分布形状等。有了对数据的粗略认识之后,就寻找合适的模型。,数据分析的实践,比较模型的标准. 传统统计中: 各种判别准则(各种检验、一些统计量的临界值等等). 都是在对数据分布及描述变量之间关系的模型所做的假定之下得到的. 在使用算法模型时, 由于没有传统模型的那些假定, 判断模型好坏通常都用交叉验证(cross validation)。 对结果的解释. 选择模型并不是目的, 目的是解释模型所产生的结果, 而结果必须是应用领域的结果, 必须有实际意义. 仅仅用统计术语说某个模型较好, 某个变量显著之类的话是不够的.,R软件入门,R软件的安装 /CRAN/,最初几步,x=1:100#把1,2,.,100个整数向量赋值到x sample(x,20) #从1,.,100中随机不放回地抽取20个值作为样本 set.seed(0);sample(1:10,3)#先设随机种子再抽样. z=sample(1:200000,10000)#从1,.,200000中随机不放回地抽取10000个值作为样本 z1:10 #方括号中为向量z的下标 y=c(1,3,7,3,4,2) zy#以y为下标的z的元素值 (z=sample(x,100,rep=T)#从x放回地抽取100个随机样本 (z1=unique(z) length(z1)#z中不同的元素个数 xz=setdiff(x,z) #x和z之间的不同元素-集合差 sort(union(xz,z)#对xz及z的并的元素从小到大排序 setequal(union(xz,z),x) #对xz及z的并的元素与x是否一样 intersect(1:10,7:50) #两个数据的交 sample(1:100,20,prob=1:100)#从1:100中不等概率随机抽样, #各数目抽到的概率与1:100成比例,一些简单运算,pi *102 #能够用?”*”来看基本算术运算方法, pi是圆周率 pi * (1:10)-2.3#可以对向量求指数幂 x = pi * 102 x print(x) #和上面一样 (x=pi *102) #赋值带打印 pi(1:5) #指数也可以是向量 print(x, digits = 12)#输出x的12位数字,简单图形,x=rnorm(200)#200个随机正态数赋值到x hist(x, col = “light blue“)#直方图(histogram) rug(x) #在直方图下面加上实际点的大小 stem(x)#茎叶图 x - rnorm(500) y - x + rnorm(500) #构造一个线性关系 plot(y x) #散点图 a=lm(yx) #做回归 abline(a,col=“red“)#或者abline(lm(yx),col=“red“)在散点图上加拟合直线 print(“Hello World!“) paste(“x 的最小值= “, min(x) #打印,数据输入输出,x=scan()#从屏幕输入数据, 可以键入, 也可以粘贴,可多行输入,空行后Enter 1.5 2.6 3.7 2.1 8.9 12 -1.2 -4 x=c(1.5,2.6,3.7,2.1,8.9,12,-1.2,-4)#等价于上面 w=read.table(file.choose(),header=T)#从列表中选择带有变量名的数据文件 setwd(“f:/2010stat”)#或setwd(“f:2010stat“)#建立工作目录(你必须有这个目录) (x=rnorm(20) #给x赋值20个标准正态数据值 #(注:可以产生常见的各种分布的随机数, 也有各种分布的分布函数,密度函数及分位数函数) write(x,“f:/2010stat/test.txt“)#把数据写入文件(你没有这个目录则会有出错信息) y=scan(“f:/2010stat/test.txt“);y #扫描文件数值数据到y y=iris;y1:5,;str(y) #iris是R自带数据 write.table(y,“test.txt“,s=F)#把数据写入文本文件 w=read.table(“f:/2010stat/test.txt“,header=T)#读带有变量名的数据 write.csv(y,“test.csv“)#把数据写入csv文件 v=read.csv(“f:/2010stat/test.csv“)#读入csv数据文件 data=read.table(“clipboard”)#读入剪贴板的数据,序列等等,(z=seq(-1,10,length=100)#-1到10等间隔的100个数的序列 z=seq(-1,10,len=100)#和上面等价写法 (z=seq(10,-1,-0.1) #10到-1间隔为-0.1的序列 (x=rep(1:3,3) #三次重复1:3 (x=rep(3:5,1:3) #自己看, 这又是什么呢? x=rep(c(1,10),c(4,5) w=c(1,3,x,z);w3#把数据(包括向量)组合(combine)成一个向量 x=rep(0,10);z=1:3;x+z #向量加法(如果长度不同, R如何给出警告和结果?) x*z #向量乘法 rev(x)#颠倒次序 z=c(“no cat“,“has “,“nine“,“tails“) #字符向量 z1=“no cat“ #双等号为逻辑等式 z=1:5 z7=8;z #什么结果? 注:NA为缺失值(not available) z=NULL;zc(1,3,5)=1:3;z rnorm(10)c(2,5) z-c(1,3)#去掉第1、3元素 z=sample(1:100,10);z which(z=max(z)#给出最大值的下标,矩阵,x=sample(1:100,12);x #抽样 x=matrix(1:20,4,5);x #矩阵的构造 x=matrix(1:20,4,5,byrow=T);x#矩阵的构造, 按行排列 t(x) #矩阵转置 x=matrix(sample(1:100,20),4,5) 2*x x+5 y=matrix(sample(1:100,20),5,4) x+t(y) #矩阵之间相加 (z=x%*%y) #矩阵乘法 z1=solve(z) # solve(a,b)可以解ax=b方程 z1%*%z #应该是单位向量, 但浮点运算不可能得到干净的0 round(z1%*%z,14) #四舍五入 b=solve(z,1:4); b #解联立方程,矩阵继续,nrow(x);ncol(x);dim(x)#行列数目 x=matrix(rnorm(24),4,6) xc(2,1),#第2和第1行 x,c(1,3) #第1和第3列 x2,1 #第2,1元素 xx,10,1 #第1列大于0的元素 sum(x,10) #第1列大于0的元素的个数 sum(x,10x #得到上三角阵, #为得到下三角阵, 用xupper.tri(x)=0),矩阵与向量之间的运算,x=matrix(1:20,5,4) #5乘4矩阵 sweep(x,1,1:5,“*“)#把向量1:5的每个元素乘到每一行 sweep(x,2,1:4,“+“)#把向量1:4的每个元素加到每一列 x*1:5 sweep(x,2,1:4,“+“)#scale是标准化,即每一列元素减去该列均值,除以该列标准差: (x=matrix(sample(1:100,24),6,4);(x1=scale(x) (x2=scale(x,scale=F)#自己观察并总结结果 (x3=scale(x,center=F) #自己观察并总结结果 round(apply(x1,2,mean),14) #自己观察并总结结果 apply(x1,2,sd)#自己观察并总结结果 round(apply(x2,2,mean),14);apply(x2,2,sd)#自己观察并总结结果 round(apply(x3,2,mean),14);apply(x3,2,sd)#自己观察并总结结果,缺失值, 数据的合并,airquality #有缺失值(NA)的R自带数据 complete.cases(airquality)#没有缺失值的那些行中那些是缺失的 which(complete.cases(airquality)=F) #没有缺失值的行号 sum(complete.cases(airquality) #完整观测值的个数 na.omit(airquality) #删去缺失值的数据 #附加, 横或竖合并数据: append,cbind,rbind x=1:10;x12=3 (x1=append(x,77,after=5) cbind(1:5,rnorm(5) rbind(1:5,rnorm(5) cbind(1:3,4:6);rbind(1:3,4:6) #去掉矩阵重复的行 (x=rbind(1:5,runif(5),runif(5),1:5,7:11) x!duplicated(x), unique(x),list,#list可以是任何对象(包括list本身)的集合 z=list(1:3,Tom=c(1:2,a=list(“R“,letters1:5),w=“hi!“) z1;z2 z$T z$T$a2 z$T
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 农牧业合作协议合同范本
- 企业员工内部服务协议书
- 取消往期合同条款协议书
- 厂房翻新合同协议书范本
- 合作挖掘机出租合同协议
- 厕所改造安全协议书范本
- 厦门麻辣烫加盟合同范本
- 仓库搬迁转运协议书模板
- ktv供货协议合同范本
- 合同外增加工程量的协议
- 2025秋人教版(2024)二年级上册数学教学计划
- 辽宁省抚顺县2025年上半年公开招聘辅警试题含答案分析
- 2024年福建浦开集团有限公司招聘考试真题
- 2025四川内江市法院系统招聘聘用制审判辅助人员120人笔试参考题库附答案解析
- 养老院安全培训课件
- 2025年内江市总工会公开招聘工会社会工作者(14人)笔试备考试题及答案解析
- 医药代表开发医院经验分享
- LYTZW-GW-001《公司文件编号管理规定》
- GB/T 45993-2025元宇宙参考架构
- 2025年部编版新教材语文八年级上册教学计划(含进度表)
- 企业内训师考核与激励制度
评论
0/150
提交评论