付费下载
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、R语言许美玲统计分析中常用函数描述统计量 (descriptive statistics)数据集单点信息提取函数max(x) 返回向量x中最大的元素min(x) 返回向量x中最小的元素which.max(x) 返回向量x中最大的元素的下标which.min(x) 返回向量x中最小的元素的下标mean(x) 计算样本(向量)x的均值median(x)计算样本(向量)x的中位数描述统计量 (descriptive statistics)数据集分布结构提取函数mad(x) 计算中位绝对离差var(x)计算样本(向量)x的方差sd(x)计算样本(向量)x的标准差range(x) 返回长度为2的向量:c
2、(min(x),max(x)IQR(x) 计算样本x的四分位数极差quantile(x) 计算样本x常用的分位数summary(x) 计算常用的描述统计量,返回样本的最小值、最大值、中位数(50%分位数)、25%分位数,75%分位数、平均值数据集间关系提取函数var(x, y) 计算向量x与y的方差cov(x, y)计算向量x与y的协方差cor(x, y)计算向量x与y的相关系数cov( )与cor( )作用于矩阵或者数据框分别求其协方差阵和相关系数矩阵1 4 6 9 9 10 11 12 12 13 13 14 15 18 10 25median=(12+12)/2 =12 25%分位数:
3、(9+9)/2=975%分位数: (14+15)/2=14.54 6 9 9 10 11 12 12 13 13 14 15 18 10 25 28median: 12 25%分位数: 975%分位数: 15其他函数sum(x) 返回向量x的总和prod(x) 返回向量x中元素的乘积rev(x) 取向量x的逆序sort(x) 将向量x按升序排列,选项decreasing=TRUE表示降序order(x) 返回x的秩(升序),选项decreasing=TRUE得到降序的秩rank(x) 返回x的秩描述统计量 (descriptive statistics)其他函数cumsum(x) 返回向量x和
4、累积和(其第i个元素是从x1到xi的和)cumprod(x) 返回向量x和累积积(其第i个元素是从x1到xi的积)cummin(x) 返回向量x和累积最小值(其第i个元素是从x1到xi的最小值)cummax(x) 返回向量x和累积最大值(其第i个元素是从x1到xi的最大值)outer(x, y) 计算样本(向量)x与y的外积描述统计量 (descriptive statistics)代码页x-rnorm(10)max(x);min(x)which.max(x);which.min(x)mean(x);median(x)mad(x);sd(x);var(x);range(x)quantile(x
5、=x,probs=0.5)quantile(x=x,probs=c(.25, .5, .75)IQR(x)IQR-quantile(x=x, probs=.75)-quantile(x=x,probs=.25)summary(x)plot(mtcars$mpg,mtcars$wt)var(mtcars$mpg,mtcars$wt);cov(mtcars$mpg,mtcars$wt)cor(mtcars$mpg,mtcars$wt)A0 为正相关,r 0 为负相关;|r|=0 表示不存在线性关系;|r|1 表示完全线性相关;0|r|1表示存在不同程度线性相关: |r|0.3为不存在线性相关 0.
6、3 |r| 0.5 为低度线性相关; 0.5 |r| 0.8为显著线性相关; |r| 0.8为高度线性相关。2022/9/121是相关系数的平方,用 表示;用来衡量回归方程对y的解释程度。判定系数取值范围: 越接近于1,表明x与y之间的相关性越强; 越接近于0,表明两个变量之间几乎没有直线相关关系.判定系数正 相 关负 相 关曲 线相关不 相 关xyxyxyxy又称散点图,用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。相关图多元数据的相关矩阵及相关性检验相关性检验cor.test(x,y, alternative,
7、method, conf.level,)x,y: 是数据长度相同的量alternative: 备择假设method: 选择检验的方法conf.level: 置信水平,默认0.95cor.test(formula,data,subset,)问题:X%67547264392258434634Y%24152319161120161713矿石中含有用成分含量的百分数并对两组数据进行相关性检验。代码页mean(ore)cov(ore)cor(ore)setwd(D:/Rdata/)colMeans(ore) #求均值。cov(ore) #求协方差矩阵。cor(ore) #求相关矩阵。cor.test(X
8、1+X2,data=ore)问题:求x,y,z的线性相关性。x=c(65,70,70,69,66,67,68,72,66,68)y=c(45,45,48,46,50,46,47,43,47,48)z=c(27.6,30.7,31.8,32.6,31.0,31.3,37.0,33.6,33.1,34.2)问题:模型数据分析简单线性回归模型多元线性回归模型截距斜率一元线性回归方程的可能形态为正为负为0一元线性回归方程的几何意义简单线性回归模型一个完整的模型建立过程通过探索性数据分析发现两个连续型变量存在较强的线性关系(数字特征与图形特征)尝试建立简单线性模型使用函数lm( formula, dat
9、a=dataframe)回归诊断检查正态性,独立性,线性,方差齐性模型应用-预测使用函数predict( object, newdata, interval, level)可给出单点预测与区间预测用lm()拟合回归模型myfit-lm( formula, data=dataframe)formula指要拟合的模型形式data是一个数据框,包含了用于拟合模型的数据。结果对象(本例中是myfit)存储在一个列表中,包含了所拟合模型的大量信息。表达式(formula)形式如下: YX1+X2+XK代码页#简单线性回归模型#plot(women$height, women$weight, main =
10、 Women Age 30-39, xlab = Height (in inches), ylab = Weight (in pounds)cor(women$height, women$weight)fit - lm(weight height, data = women)abline(fit)summary(fit)women$weightfitted(fit)residuals(fit)多项式回归模型代码页#多项式回归模型#fit2 - lm(weight height + I(height2), data = women)summary(fit2)plot(women$height,
11、women$weight, main = Women Age 30-39, xlab = Height (in inches), ylab = Weight (in lbs)lines(women$height, fitted(fit2)多元线性回归模型#多元线性回归模型#检测二元关系states - as.data.frame(state.x77, c(Murder, Population, Illiteracy, e, Frost) cor(states)fit - lm(Murder Population + Illiteracy + e + Frost, data = states)s
12、ummary(fit)有交互项的多元线性回归#有显著交互项的多元线性回归fit - lm(mpg hp + wt + hp:wt, data = mtcars)summary(fit)回归诊断检查正态性独立性线性方差齐性对lm()函数返回的对象使用plot函数,可以生成评价模型拟合情况的四幅图形代码页#简单线性回归诊断#fit - lm(weight height, data = women)par(mfrow = c(2, 2)plot(fit)par(opar)#二次拟合诊断图#newfit - lm(weight height + I(height2), data = women)par
13、(mfrow = c(2, 2)plot(newfit)par(opar)#删除观测点13和15newfit - lm(weight height + I(height2), data = women-c(13, 15),)par(mfrow = c(2, 2)plot(newfit)par(opar)问题:以基础包中的state.x77数据集为例,请用回归分析对犯罪率和其他因素进行分析,得出结论。其他因素包括人口、文盲率、平均收入和结霜天数(温度在冰点以下的平均天数)。提示:因为lm()函数需要一个数据框(state.x77数据集是矩阵),为了以后处理方便,你需要做如下转化:statesas
14、.data.frame(state.x77,c(Murder,Population,Illiteracy, e,Frost)选择“最佳”的回归模型:用AIC来比较模型fit1 - lm(Murder Population + Illiteracy + e + Frost, data = states)fit2 - lm(Murder Population + Illiteracy, data = states)AIC(fit1, fit2)选择“最佳”的回归模型:用AIC来比较模型fit1 - lm(Murder Population + Illiteracy + e + Frost, data = states)fit2 - lm(Murder Population + Illiteracy, data = states)AI
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财务管理部部门职责
- XX建筑工程有限公司办公室内勤岗位职责
- 金融危机下就业前景分析
- 人工智能的名字:AI命名背后的故事
- 防癌抗癌健康知识普及
- 乳房手术康复指导
- 电动多功能护理床全球前十强生产商排名及市场份额(by QYResearch)
- 2026年公办中小学编制教师招聘面试语文预测题
- 2026年医院招聘护理岗笔试题库
- 2026年物流师中级考试重点复习资料
- 2026年春季学期人教版小学数学五年级下册期末质量检测卷含答案
- 2025陕西省中考历史真题(原卷版)
- 浙江省Z20联盟2026届高三年级第三次学情诊断地理+答案
- T-CPA 006-2024 造纸用湿强剂 聚酰胺环氧氯丙烷PAE
- 创业管理(上海财经大学)智慧树知到期末考试答案章节答案2024年上海财经大学
- GB/T 3880.2-2024一般工业用铝及铝合金板、带材第2部分:力学性能
- 墨西哥与中美洲古代文明:考古与文化史
- 《道路勘测设计》 课件 4-1道路横断面组成
- 2023年重庆市中考化学试卷(A卷及解析)
- 基因功能研究技术之基因敲除及基因编辑技术-课件
- 示波器的原理和使用课件
评论
0/150
提交评论