双变量相关与回归-课件_第1页
双变量相关与回归-课件_第2页
双变量相关与回归-课件_第3页
双变量相关与回归-课件_第4页
双变量相关与回归-课件_第5页
已阅读5页,还剩37页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医药统计学与软件应用

1PPT课件第8讲双变量相关与回归

直线相关秩相关直线回归曲线回归双变量相关与回归电脑实验2PPT课件第8讲双变量相关与回归—引言世界上万事万物是相互联系的,相互联系着的事物(变量)间的关系有确定性关系和非确定性关系。确定性关系既变量间的函数关系,是指一个变量的每个可能取值,另外的变量都有完全确定的值与之对应;如路程速度时间的关系为。非确定性关系是指变量在宏观上存在关系,但并未精确到可以用函数关系来表达,也称随机性关系。在医药研究中,常常要分析变量间的非确定性关系,如糖尿病患者的血糖与胰岛素水平、降糖药剂量与疗效的关系等。本章介绍研究变量间的非确定性关系的统计分析方法——相关(correlation)与回归(regression)。相关分析是研究事物或现象之间有无相关、相关的方向和密切程度如何,一般不区别自变量或因变量。3PPT课件第一节直线相关一、直线相关的概念

直线相关是分析两个变量间是否存在线性相关关系的方法。(非确定关系,如身高和体重)适用于双变量正态分布资料直线相关的性质可由散点图说明4PPT课件第一节直线相关受试者号123456789101112131415凝血酶浓度(单位/毫升)1.11.21.00.91.21.10.90.61.00.91.10.91.110.7凝血时间(秒)141315151314161714161516141517表8-115例健康成人凝血时间与凝血酶浓度测量值记录5PPT课件6PPT课件第一节直线相关正相关:x、y同向变化,即x增大y也增大。完全正相关负相关:x、y反向变化,即x增大,y减小。完全负相关零相关:x、y变化无规律相关类型7PPT课件第一节直线相关——Pearson相关系数相关系数是描述两个变量间相关关系的密切程度与相关方向的指标。总体相关系数ρ,样本相关系数r8PPT课件第一节直线相关——Pearson相关系数9PPT课件第一节直线相关——总体相关系数检验相关系数的假设检验由于存在抽样误差,要判断总体X、Y间是否有相关关系,就要对相关系数进行检验。H0:ρ=0,H1:ρ≠0t检验查附表7,相关系数r界值表。10PPT课件第一节直线相关——直线相关分析的步骤考察资料是否满足双变量正态性

作散点图(scatterplot),考察两变量间有无直线趋势

计算相关系数r

相关系数的假设检验与下结论

11PPT课件H0:ρ=0H1:ρ≠0a=0.05据自由度=15-2=13查t临界值表,P<0.001,故拒绝H0,接受H1,差异有统计学意义。可以认为凝血酶浓度与凝血时间之间存在负相关。12PPT课件第一节直线相关——直线相关分析的注意事项要有实际意义,不能把毫无关联的现象都去做相关分析。样本的相关系数接近零并不意味着两变量间一定无相关性,绘制散点图一个变量的数值人为选定时莫作相关两变量间存在直线相关关系,并不表示一定是因果关系,可能是伴随关系。相关系数的假设检验中,概率p不能说明相关关系的密切程度13PPT课件第一节直线相关——直线相关分析的注意事项出现异常值时慎用相关分层资料盲目合并易出假象14PPT课件不满足双变量正态分布,或总体分布类型未知,或等级资料,则进行等级相关分析,等级相关分析主要有Spearman法和Kendall’stau-u法。Spearman等级相关即秩相关(rankcorrelation),是一种非参数统计方法。Spearman等级相关系数,或称秩相关系数

第二节秩相关15PPT课件第二节秩相关秩相关系数无量纲,且。表示变量和之间的相关程度。的符号表示相关方向,称为正相关,称为负相关。若的值越接近1,则相关性越强;若的值越接近0,则相关性越弱;当称为零相关;称为完全相关。

Pearson相关系数是度量变量间的线性相关关系指标,秩相关系数是作为双变量之间单调关系强弱的统计指标。因此,不管变量之间的关系是不是线性的,只要变量之间具有严格的单调增加(或减少)的关系,变量之间的秩相关系数就是1(或-1),即完全相关。16PPT课件第二节秩相关17PPT课件第二节秩相关——秩相关假设检验18PPT课件第二节秩相关【例9-2】调查正常成年人脉象,记录各年龄组弦脉阳性率,资料见表9-2,试讨论年龄与弦脉阳性率之间是否存在秩相关关系?19PPT课件第二节秩相关20PPT课件第三节直线回归——引言“回归”一词最早由英国统计学家弗朗西斯·高尔顿爵士(FrancisGalton,1822-1911,达尔文的表兄弟)和他的学生、现代统计学的奠基者之一卡尔·皮尔逊(Karl·Pearson,1856-1936年)在研究父母身高与其子女身高的遗传问题时提出的。他们研究发现身材高的父亲,他们的孩子也高,但这些孩子平均起来并不像他们的父亲那样高。对于比较矮的父亲情形也类似,他们的孩子比较矮,但这些孩子的平均身高要比他们的父亲的平均身高高。高尔顿和皮尔逊把这种孩子的身高向中间值靠近的趋势称之为一种回归效应,而他们创立的研究计量变量依存关系的方法称为回归分析。21PPT课件第三节直线回归——概念直线回归(linearregression)又称简单线性回归(simplelinearregression),是反映两变量间的线性依存关系,它采用最小二乘法原理找出最能描述变量间非确定性关系的一条直线,此直线为回归直线或经验直线,相应的方程为直线回归方程或经验方程。直线回归分析中两个变量的地位不同,其中一个变量是依赖另一个变量而变化的,因此分别称为因变量(dependentvariable)和自变量(independentvariable),习惯上分别用y来x表示。直线回归分Ⅰ型回归与Ⅱ型回归两种,y依存于x为Ⅰ型回归,y与x相互依存为Ⅱ型回归。22PPT课件第三节直线回归——应用条件线性回归模型成立需要满足4个前提条件,即线性(linearity)、独立(independency)、正态(normal)和等方差性(equalvariance),简记为Line。2.独立是指各例观测值yi(i=1,2…,n)相互独立通常利用专业知识或残差分析来判断这项假定是否满足。1.线性是指因变量的总体平均值与自变量具有线性关系。通过观察散点的分布来判断有无线性趋势。23PPT课件第三节直线回归——应用条件3.正态是指因变量值服从正态分布即要求线性模型的随机误差项ε服从正态分布。如果该条件不成立,在正态分布假设下对总体回归系数的假设检验和可信区间估计的结论均无效。可通过专业知识、对变量进行正态性检验或利用残差分析来考察这一条件是否满足。4.等方差性是指对任意一组自变量x1、x2、…、xm值,因变量y具有相同方差如果该条件不成立,总体回归系数的估计有偏性,可信区间估计及假设检验的结论均无效。通常可利用(xi,yi)散点图或残差分析判断等方差性。

24PPT课件第三节直线回归——应用条件资料不满足这四个条件时,常用的处理方法有:修改模型或者采用曲线拟合,也可变量转换。常用的变量转换有对数转换、平方根转换、倒数转换等。变量转换对自变量或(和)因变量均适宜;如果方差不齐,可采用加权最小二乘法估计回归系数。25PPT课件第三节直线回归——一般步骤1.绘制散点图,看有无直线趋势,有无异常点有直线趋势无异常点方可考虑直线回归分析,否则,查找异常点的缘故,剔除过失误差所致的异常点,保留客观存在的异常点进行曲线回归。2.考察资料是否满足直线回归分析的条件除线性外,可通过残差分析结果来考察资料是否满足其应用条件。3.求回归系数b和常数项a4.写出回归方程,

26PPT课件第三节直线回归——一般步骤5.对回归方程和回归系数进行假设检验6.绘制回归直线7.残差分析8.统计预测,有必要时还可进行统计控制9.回归分析效果评价27PPT课件第三节直线回归——直线回归模型若随机变量y和确定性变量x(其值是可以精确测量或控制的)存在直线依存关系,则可设其回归模型为:为待估参数,为随机误差。28PPT课件第三节直线回归——直线回归模型实际中仅能获取有限的样本数据,用直线方程建立关于的近似表达式:其中,是对应的随机变量y的总体均值的一个估计值,、分别是、的估计值。

b为回归系数(regressionoefficient),又称斜率(slope),表示当x变动一个单位时,y平均变动b个单位。29PPT课件第三节直线回归——直线回归方程的建立参数一般只能通过样本数据来估计。当X取值为Xi时,Y的平均值的估计值

应为a+bXi,而实际观察值却是Yi

。两者之差称为残差(residual)。a和b取不同的数值获得不同的候选直线。如果我们得到了a和b的适宜值,能使所有n个数据点的残差平方和达到最小值,则称这一对a和b为

的最小二乘估计(leastsquaredestimation,LSE)。上述使回归残差平方和最小的策略称为最小二乘原则。最小二乘法:各个散点到直线的纵向距离平方和最小。30PPT课件第三节直线回归——直线回归模型31PPT课件第三节直线回归——直线回归模型的检验(一)回归方程的假设检验:用样本资料建立的直线回归方程是否能反映总体上两个变量之间存在直线回归关系,即直线回归方程在总体中是否成立,这就需要进行直线回归方程的假设检验。回归方程的假设检验常采用方差分析。

32PPT课件第三节直线回归——直线回归模型的检验

33PPT课件第三节直线回归——直线回归模型的检验(二)回归系数的假设检验:由于抽样误差的原因,即使x、y的总体回归系数β为零,其样本回归系数b也不一定为零,因此需要进行是否为零的假设检验。回归系数的假设检验常采用t检验.

34PPT课件第三节直线回归——直线回归模型的检验在直线回归方程中,由于只有一个自变量,所以回归模型的方差分析等价于对回归系数进行的t检验,且。但在多元线性回归分析中回归模型的方差分析与(偏)回归系数的t检验是有区别的。(三)总体回归系数的可信区间估计

:回归系数b是总体回归系数β的点估计,由于存在抽样误差,需要进行β的(1-α)可信区间估计。

35PPT课件第三节直线回归——直线回归模型的检验(四)回归方程的拟合优度1.决定系数(determiningcoefficient,R2)就是相关系数的平方r2,是回归平方和在总的离均差平方和中所占的比例,反映因变量的总变异中可由回归因素解释的部分。36PPT课件第三节直线回归——直线回归模型的检验,值越接近于1,表示回归平方和在的总离均差平方和中所占的比重越大,模型对数据的拟合程度越好,表明利用回归方程进行预测也越有意义。反之,值越接近于0,表示回归平方和在y的总离均差平方和中所占的比重越小,模型对数据的拟合程度越差。所以,是评价回归效果的一个重要指标。37PPT课件第三节直线回归——直线回归模型的检验2.估计标准误差(standarderrorofemtimate)

是残差平方和的均方根,即回归的剩余标准差,用来表示,是指扣除了x对y的线性影响后,y的变异,可用于说明估计值的精确性。它越小,表示回归方程的估计精度越高。若各观察点都落在回归直线上,则它等于0,此时用自变量来预测因变量是没有误差的。因此,也是考究回归直线拟合优度的一个统计量。

38PPT课件第三节直线回归——绘制回归直线可在坐标轴上任意取相距较远且易读的两值,根据所求直线回归方程算得对应值,用直线连接两点。应注意的是,回归直线可适当延长,但不应超过的实测值范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论