版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
两变量间的相关分析与回归分析两变量间的相关分析与回归分析两变量间的相关分析与回归分析两变量间的相关分析——直线相关分析
变量之间的关系相关关系与确定性关系的比较两变量间的相关分析——直线相关分析相关分析的基本概念两变量间的相关分析——直线相关分析直线相关分析的基本概念当两个数值变量之间出现如下情况:当一个变量增大,另一个也随之增大(或减少),我们称这种现象为共变,也就是有相关关系。若两个变量同时增加或减少,变化趋势是同向的,则两变量之间的关系为正相关(positivecorrelation);若一个变量增加时,另一个变量减少,变化趋势是反向的,则称为负相关(negativecorrelation)。
——相关的方向两变量间的相关分析——直线相关分析两个相关关系的图示(散点图)yx两变量间的相关分析——直线相关分析直线相关分析的资料要求两变量间的相关分析——直线相关分析相关系数(直线相关关系的测度)用以说明具有直线关系的两个变量间相关关系的密切程度和相关方向的指标,称为相关系数(correlationcoefficient),又称为积差相关系数(coefficientofproduct-momentcorrelation),Pearson相关系数。两变量间的相关分析——直线相关分析相关系数(直线相关关系的测度)两变量间的相关分析——直线相关分析相关系数(直线相关关系的测度)两变量间的相关分析——直线相关分析相关系数没有量纲,且-1r1。当r>0,且H0(ρ=0)被拒绝时,认为两变量之间呈正相关关系;当r<0,且H0(ρ=0)被拒绝时,认为两变量之间呈负相关关系。当r值接近于零,且H0(ρ=0)被接受时,认为两变量之间不呈直线关系,但不能排除两变量之间可能存在某种曲线关系。相关系数(直线相关关系的测度)两变量间的相关分析——直线相关分析相关系数(直线相关关系的测度)两变量间的相关分析——直线相关分析直线相关分析的资料要求(双变量X,Y正态分布)(单变量X量正态分布)xf(x)f(x,y)两变量间的相关分析——直线相关分析相关分析的步骤例题1:某克山病区10名健康儿童头发与全血中的硒含量1000ppm(百万分之一)如下:问发硒与血硒之间有无直线相关关系?两变量间的相关分析——直线相关分析相关分析的步骤(1)绘制散点图:在直角坐标系内绘制x,y散点图。①若散点图呈直线趋势时,计算相关系数;②若散点图呈曲线趋势,进行曲线拟合;③若散点图显示无任何趋势,则不必进行分析。本例散点图为:散点图呈直线趋势,可计算直线相关系数,进行直线相关分析。两变量间的相关分析——直线相关分析相关分析的步骤(2)计算相关系数:r=0.872两变量间的相关分析——直线相关分析相关分析的步骤(3)相关系数的假设检验
:也就是说,根据样本计算出的相关系数r,是总体相关系数ρ的估计值。从ρ=0(无直线相关)的总体中抽取样本,其r不一定为0。因此,得到r≠0后,由于存在抽样误差,则有必要检验r是否来自ρ=0的总体,以判定两变量间是否有直线相关关系。两变量间的相关分析——直线相关分析相关分析的步骤(3)相关系数的假设检验
:1)
建立假设,确定检验水准2)
计算统计量本例:两变量间的相关分析——直线相关分析相关分析的步骤(3)相关系数的假设检验
:3)
确定P值,做出推断结论本例,r=0.872,发硒与血硒高度相关。两变量间的相关分析——直线相关分析相关分析的步骤(4)总体相关系数ρ的可信区间估计
:总体相关系数ρ≠0时,从这样的总体中抽样计算出的样本相关系数r不服从正态分布,此时,若对r按下式作Z变换(反双曲正切变换),则Z近似服从标准差为的正态分布。故可以按正态分布原理求出Z的1-α可信区间,再对Z的可信区间作反变换(双曲正切变换)得总体相关系数ρ的1-α可信区间。两变量间的相关分析——直线相关分析ρ相关分析的步骤(4)总体相关系数ρ的可信区间估计
:两变量间的相关分析——直线相关分析ρ相关分析的步骤(4)总体相关系数ρ的可信区间估计
:反变换两变量间的相关分析——直线相关分析直线相关分析中的注意事项两变量间的相关分析——直线相关分析(1)在进行相关分析(Pearson相关)前,需作散点图,从散点图的趋势判断是否可以作线性相关分析;
(2)样本相关系数与总体相关系数间存在抽样误差,所以求得样本相关系数后应进行假设检验。
(3)相关关系是一种共变关系,不一定是因果关系;因此,有相关关系不等于因果关系。有无因果关系还需结合专业知识进一步研究。
(4)在实际工作中要区别相关的统计学意义与相关强度。相关有统计学意义指该样本相关系数r来自ρ=0的总体概率很小,而相关强度表示两变量间相互关系的密切程度,用r值的大小来反映。直线相关分析中的注意事项两变量间的相关分析——直线相关分析
(5)有些研究中,一个变量的数值随机变动,另一个变量的数值却是人为选定的。如研究药物的剂量-反应关系时,一般是选定n种剂量,然后观察每种剂量下动物的反应,此时得到的观察值就不是随机样本,算得的相关系数r会因剂量的选择方案不同而不同。故一个变量的数值人为选定时不应作相关分析。(6)作相关分析时,必须剔除异常点。异常点就是一些特大或特小的离群值,相关系数的数值受这些点的影响较大,有此点时两变量相关,无此点时可能就不相关了。所以,应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。
直线相关分析中的注意事项两变量间的相关分析——直线相关分析
(7)应排除样本的间杂性对相关性的误导。
(8)分层资料不宜盲目合并进行相关分析。若将分层资料合并进行分析,可能会出现各层内均不相关而合并后出现相关的假象,也可能本来各层内两变量均有相关而合并后掩盖了其真实的相关性。因此,进行相关分析时,如果不能确定各层研究对象具有同质基础,不宜盲目合并。等级相关分析的基本概念两变量间的相关分析——等级相关分析前述的直线相关分析要求两变量来自双变量正态分布资料,当不能满足此条件时,需用等级相关又称秩相关(rankcorrelation)来分析两变量间的关系。等级相关属于非参数统计方法,常用的方法有Spearman秩相关。它是用等级相关系数(rankcorrelationcoefficient)来反映两变量间相关关系的密切程度和方向的。两变量间的相关分析——等级相关分析等级相关分析的基本概念两变量间的相关分析——等级相关分析数值变量资料的等级相关分析例题2:在肝癌病因研究中,调查了某地10个乡的肝癌死亡率(1/10万)与玉米中黄曲霉毒素相对含量,资料见下表。试作相关分析。两变量间的相关分析——等级相关分析该资料不服从双变量正态分布,用等级相关分析。数值变量资料的等级相关分析(1)求等级相关系数本例:两变量间的相关分析——等级相关分析该资料不服从双变量正态分布,用等级相关分析。数值变量资料的等级相关分析(2)对等级相关系数做假设检验两变量间的相关分析——等级相关分析双向有序R×C表资料的等级相关分析例题3
观察依沙酰胺治疗皮肤真菌感染效果的临床试验结果见表3,试分析该病的疗效是否与病程有关?两变量间的相关分析——等级相关分析双向有序R×C表资料的等级相关分析Spearman等级相关:Ho:总体等级相关系数等于0H1:总体等级相关系数不等于0α=0.0500(双侧)对子数=435
差值平方和=8894802.0000,Tx=972115.0000,Ty=1421112.5000
等级相关系数rs=0.3516,P=0.0000
等级相关系数rs′=0.2148,P=0.0000
结论:经检验,按α=0.0500水准拒绝Ho.两变量间的回归分析——直线回归分析“回归”一词的由来及其生物学意义
“回归”一词最早由Golton(戈尔顿)在一项有关父亲与儿子身高的关系的研究中提出。儿子身高(Y)与父亲身高(X)自然是相关的,他发现身材高大的父亲所生儿子的身高有不少要比父亲矮,而身材矮小的父亲所生儿子的身高有不少要比父亲高。进一步研究表明:虽然高个子的父亲常生高个子的儿子,但儿子身高超过父亲的概率要小于比父亲矮的概率;同样,虽然矮个子的父亲常生矮个子的儿子,但儿子身高比父亲更矮的概率要小于比父亲高的概率。也就是说不可能无限制的一代比一代高,或一代比一代矮。后代的高度有向人群中个体的平均高度“回归”的趋势;离开均值越远,所受到回归的压力也越大。两变量间的回归分析——直线回归分析无论是身材高还是身材矮的父亲所生儿子的身高都有向人群的平均身高“回归”的趋势,这就是回归的生物学含义。后来人们借用“回归”这个词来描述通过自变量(independentvariable)的数值预测因变量(dependentvariable)的平均水平。即通过可测或易测的变量对未知或难测或不可测变量的状态进行估计叫做回归分析(regressionanalysis)。
F.Galton“回归”一词的由来及其生物学意义两变量间的回归分析——直线回归分析这项研究由
F·Galton(1822——1911年)和他的学生、现代统计学的奠基者之一K·Pearson(1856——1936年)在研究父母身高与其子女身高的遗传问题时,观察了1078对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为:
F.GaltonK.Pearson“回归”一词的由来及其生物学意义Galton数据散点图(英寸)回归分析指根据相关关系的数量表达式(回归方程式)与给定的自变量x,揭示因变量y在数量上的平均变化和求得因变量的预测值的统计分析方法回归:退回regression两变量间的回归分析——直线回归分析回归分析的种类一元回归(简单回归)多元回归(复回归)线性回归非线性回归一元线性回归SimpleLinearregression按自变量的个数分⒈按回归曲线的形态分⒉直线回归分析的基本概念两变量间的回归分析——直线回归分析直线回归分析的示意图XY 两变量间的回归分析——直线回归分析对于经判断具有线性关系的两个变量y与x,构造一元线性回归模型为:假定E()=0,有总体一元线性回归方程:一元线性回归模型(直线回归模型)两变量间的回归分析——直线回归分析
Y应变量,响应变量
(dependentvariable,responsevariable)
X自变量,解释变量
(independentvariable,explanatoryvariable)
b回归系数
(regressioncoefficient,slope)
a截距
(intercept,constant)样本线性回归模型的几个概念两变量间的回归分析——直线回归分析总体样本“Yhat”表示估计值,给定x时y的条件均数的估计值。两变量间的回归分析——直线回归分析总体与样本一元线性回归模型总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距截距a表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;回归系数b表明自变量x每变动一个单位,因变量y平均变动b个单位。(要估计的回归方程)(实际计算的回归方程)总体与样本一元线性回归模型两变量间的回归分析——直线回归分析随机干扰:各种偶然因素、观察误差和其他被忽视因素的影响X对y的线性影响而形成的系统部分,反映两变量的平均变动关系,即本质特征。两变量间的回归分析——直线回归分析残差(Residual):e两变量间的回归分析——直线回归分析几何意义a>0:回归线与纵轴交点在原点上方。a<0:回归线与纵轴交点在原点下方。a=0:回归线通过原点。统计学意义a表示自变量X取值为0时相应Y条件均数的估计值。a的单位与Y值相同当X可能取0时,a才有实际意义。线性回归模型中参数的几何意义截距a:两变量间的回归分析——直线相关分析XY回归系数:线性回归模型中参数的几何意义两变量间的回归分析——直线回归分析b表示自变量X变化一个单位时应变量Y的平均改变量。|b|越大,表示Y随X变化越快,直线越陡峭LINE假定xy
等方差(equalvariance)或标准差相等:对于任何X值,随机变量Y的标准差Y|X相等;隐含着不论x取何值,y都具有相同的方差(对于所有的自变量x,残差的条件方差为2,且为常数)。
独立INDEPENDENCE
每一观察值之间彼此独立(在给定自变量x的条件下,残差的条件期望值为零,本假设又称零均值假设);该条件实际上隐含着:各随机误差项互不相关;随机误差项与相应的自变量x不相关。y|X=α+x线性LINEARITY:
反应变量均数与X间呈直线关系Y|X=α+X
给定X时,Y正态分布(normal):对于任何给定的X,Y服从正态分布,均数为Y|X,标准差为Y|X,该条件实际隐含着误差项服从正态分布(随机误差,即残差服从均值为零,方差为2的正态分布)。线性回归模型的建模假设两变量间的回归分析——直线回归分析线性回归模型的建模假设给定X时,Y是正态分布、不等方差示意图两变量间的回归分析——直线回归分析线性回归模型的建模假设——不满足的情形LINE假定xy
等方差性:如果这一条件不满足,回归系数的估计有偏性置信区间估计及检验的结论均无效。可通过x,y散点图和残差散点图判断等方差性。若数据不满足等方差性,首先考虑对原始数据进行变量变换,使其达到方差相等,或采用加权回归的方法。独立:如果该条件不成立,导致回归估计值不够准确和精确。通常利用专业知识来判断这项假设是否满足。
y|X=α+x线性:如果该条件不成立(总体是非线性的),用线性模型拟合时,会导致所获得的回归方程、检验、预测与估计等失去意义。通常可通过散点图和残差分析来判断线性假设是否成立。如果线性假设得不到满足,则应寻求适当的非线性模型。
Y的正态性:若该条件得不到满足,在正态分布假设下对的假设和置信区间估计的结论均无效。通常可利用残差直方图、正态概率图来考察这一假设是否成立。若不成立,首先考虑对原始数据进行变量变换,使其正态化后进行线性模型的拟合与分析。
线性回归模型的建模假设不不足的后果及其处理方法两变量间的回归分析——直线回归分析直线回归分析的步骤例题1:某克山病区10名健康儿童头发与全血中的硒含量1000ppm(百万分之一)如下,试建立发硒(x)与血硒(y)之间的回归模型?两变量间的回归分析——直线回归分析直线回归分析的步骤两变量间的回归分析——直线回归分析1绘制散点图:同相关分析,即在直角坐标系内绘制散点图。①若散点图呈直线趋势时,建立直线回归方程;②若散点图呈曲线趋势,进行曲线拟合;③若散点图显示无任何趋势,则不必进行分析。本例,散点图呈直线趋势时,可建立直线回归方程。直线回归分析的步骤两变量间的回归分析——直线回归分析2建立直线回归方程实际上是求出回归方程中的回归系数b和截距a:求回归系数b和截距a的方法有最小二乘法、高斯牛顿法、麦夸特法、牛顿法、梯度法、正割法等等。这里重点给大家介绍最小二乘法。从上图得知,要使能够最好地代表y和x在数量上的互变关系,必须使yx0xiyi(yi-)实际观察值与估计值之差两变量间的回归分析——直线回归分析直线回归分析的步骤2建立直线回归方程最小二乘法的基本原理:分别对上式的a和b求偏导:两变量间的回归分析——直线回归分析直线回归分析的步骤2建立直线回归方程用最小二乘法求回归方程:解方程组,得到回归系数b和截距a:直线回归分析的步骤两变量间的回归分析——直线回归分析2建立直线回归方程直线回归分析的步骤两变量间的回归分析——直线回归分析2建立直线回归方程本例:直线回归分析的步骤两变量间的回归分析——直线回归分析3绘制回归线
本例:总体一元线性回归方程:样本一元线性回归方程:以样本统计量估计总体参数斜率(回归系数)截距对于直线回归分析,回归系数的假设检验,也是直线回归方程的假设检验。由于抽样误差的存在,回归系数b往往不等于总体回归系数,要判断是否来自=0的总体,也必须进行假设检验。常用的回归系数的假设检验有方差分析和t检验。(要估计的回归方程)(实际计算的回归方程)两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验
总体β=0总体β≠0样本b≠0两变量有直线关系两变量无直线关系??两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验
两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法
Y总变异的分解(1)建立假设,确定H0:=0,即两变量无直线关系H1:0,即两变量有直线关系=0.05(2)求统计量F剩余(误差)平方和回归平方和总离差平方和两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法
(2)求统计量F两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法
(2)求统计量F三个平方和的意义:两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——方差分析法
(2)求统计量F本例:(3)确定P值,做出结论两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——t检验法
(2)求统计量t两变量间的回归分析——直线回归分析直线回归分析的步骤4回归系数的假设检验——t检验法
(2)求统计量t本例:(3)确定P值,做出结论查t界值表,得到P<0.05两种方法的等价性:两变量间的回归分析——直线回归分析直线回归分析的步骤5直线回归方程拟合效果评价本例:R2=
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 【正版授权】 IEC 63296-3:2025 EN Portable multimedia equipment - Determination of battery duration - Part 3: Wearable powered loudspeaker equipment
- 2025年二级建造师《建筑工程管理与实务》真题试题及参考答案
- 冲件压件行业深度研究报告
- 串接式双孔终端用户盒行业深度研究报告
- 中国手机机壳的项目投资可行性研究报告
- 青纶混纺机织衫行业深度研究报告
- 中国水轮机调制器项目投资可行性研究报告
- 平面活性炭防毒口罩行业深度研究报告
- 2026年牛街集镇供水工程可研设计报告
- 双虎线行业深度研究报告
- 《SEM基础知识培训》课件
- 痈病的护理常规
- 三年心理健康课:好好生气-小学-情绪管理
- Unit4 Body Language Using Language 说课稿-2024-2025学年高中英语人教版(2019)选择性必修第一册
- 兼职工作协议书模板2024年
- 焊接机器人操作技术第3章 焊接机器人在线操作
- 2024-2030年中国卷烟市场销售渠道及未来营销策略可行性报告
- 输变电工程施工质量验收统一表式附件1:线路工程填写示例
- 牲畜购买居间合同
- 糖尿病大血管病变
- 《DB32T 3979-2021实验用 斑马鱼 饲育技术条件》
评论
0/150
提交评论