




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、世间万物是普遍联系的世间万物是普遍联系的 直线相关直线相关 直线回归直线回归 相关与回归分析的关系相关与回归分析的关系 SpearmanSpearman等级相关等级相关 1 1、掌握直线相关与回归的基本概念。、掌握直线相关与回归的基本概念。 2 2、掌握相关系数与回归系数的意义及计算。、掌握相关系数与回归系数的意义及计算。 3 3、熟悉相关系数与回归系数的假设检验。、熟悉相关系数与回归系数的假设检验。 4 4、掌握相关系数与回归系数相互的区别与联系。、掌握相关系数与回归系数相互的区别与联系。 5 5、熟悉直线回归方程的应用。、熟悉直线回归方程的应用。 6 6、了解、了解spearmanspea
2、rman等级相关的应用。等级相关的应用。 因果关系:乙肝病毒感染和乙肝因果关系:乙肝病毒感染和乙肝 伴随关系:丈夫的身高和妻子的身高伴随关系:丈夫的身高和妻子的身高 相关分析:研究变量间相互关系的密切程相关分析:研究变量间相互关系的密切程 度和变化趋势,并用适当的统计指标加以度和变化趋势,并用适当的统计指标加以 表示。表示。 回归分析:研究变量间数量上的依存关系,回归分析:研究变量间数量上的依存关系, 用函数形式将其表现出来,并用一个或多用函数形式将其表现出来,并用一个或多 个变量来推测另一个变量的估计值及波动个变量来推测另一个变量的估计值及波动 范围。范围。 第一节第一节 直线相关直线相关
3、相关就是用于研究和解释两个相关就是用于研究和解释两个 变量之间变量之间相互相互关系的。关系的。 相关分析:研究变量间相互关相关分析:研究变量间相互关 系的密切程度和变化趋势,并用适系的密切程度和变化趋势,并用适 当的统计指标加以表示。当的统计指标加以表示。 相关系数相关系数(r) 资料性资料性 质质 直直 线线 相相 关关 分析分析正态分布正态分布的两个随机变量的两个随机变量x x与与y y是是 否有直线相关关系以及相关的性质和相否有直线相关关系以及相关的性质和相 关的密切程度。关的密切程度。 审核资料的性质审核资料的性质 绘制散点图,判断是否存在相关关系绘制散点图,判断是否存在相关关系 求出
4、相关系数,判断相关的强度和性质求出相关系数,判断相关的强度和性质 进行假设检验,判断是本质因素还是抽样进行假设检验,判断是本质因素还是抽样 误差误差 为了确定相关变量之间的关系,首先应该为了确定相关变量之间的关系,首先应该 收集一些数据,这些数据应该是成对的。收集一些数据,这些数据应该是成对的。 例如,每人的身高和体重。然后在直角坐例如,每人的身高和体重。然后在直角坐 标系上描述这些点,这一组点集称为散点标系上描述这些点,这一组点集称为散点 图。图。 为了研究父亲与成年儿子身高之间的关系,卡尔为了研究父亲与成年儿子身高之间的关系,卡尔.皮尔逊测皮尔逊测 量了量了1078对父子的身高。把对父子的
5、身高。把1078对数字表示在坐标上,对数字表示在坐标上, 它的形状象一块橄榄状的云,中间的点密集,边沿的点稀它的形状象一块橄榄状的云,中间的点密集,边沿的点稀 少,其主要部分是一个椭圆。少,其主要部分是一个椭圆。 A B y x 一、相关系数一、相关系数r(r() )及其意义及其意义 它反映具有直线关系的两个变量之它反映具有直线关系的两个变量之 间,相关的性质和密切程度的指标。样间,相关的性质和密切程度的指标。样 本相关系用本相关系用r r来表示,总体相关系用来表示,总体相关系用来来 表示表示其取值范围是其取值范围是-1r1-1r1。 r r为正表示正相关关系,为正表示正相关关系,x x与与y
6、 y同向变化;同向变化; r r为负表示负相关关系,为负表示负相关关系,x x与与y y反向变化。反向变化。 r r的绝对值越接近的绝对值越接近1 1,线性关系越密切;,线性关系越密切; r r的绝对值越接近的绝对值越接近0 0,线性关系越不密切。,线性关系越不密切。 r=1r=1,为完全相关;,为完全相关;r=0r=0,为零相关。,为零相关。 r0.7:高度相关(强相关):高度相关(强相关) 0.4r0.7:中度相关(中相关):中度相关(中相关) 0.2r0.4:低相关(弱相关):低相关(弱相关) r0.2:可乎略不计:可乎略不计 正相关 负相关 完全正相关 零相关 (相关背景知识) y x
7、 二、 相关系数的计算 r的大小的大小 变量之间关联的密切程度变量之间关联的密切程度 符号的正负符号的正负 关联的性质关联的性质 一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中雌三醇含量雌三醇含量与产儿的与产儿的 体重体重有关。于是设想,通过测量待产妇尿中雌三有关。于是设想,通过测量待产妇尿中雌三 醇含量,可以预测产儿体重,以便对低出生体重醇含量,可以预测产儿体重,以便对低出生体重 进行预防。因此收集了进行预防。因此收集了31例待产妇例待产妇24小时的尿,小时的尿, 测量其中的雌三醇含量,同时记录产儿的体重。测量其中的雌三醇含量,同时记录产儿的体重。 问如何进行统计学分析?问如何进行统计学分
8、析? 分析问题:目的、变量、关系分析问题:目的、变量、关系 编号编号 (1) 尿雌三醇尿雌三醇 mg/24h(2) 产儿体重产儿体重 kg(3) 编号编号 (1) 尿雌三醇尿雌三醇 mg/24h(2) 产儿体重产儿体重 kg(3) 172.517173.2 292.518253.2 392.519273.4 4122.720153.4 5142.721153.4 6162.722153.5 7162.423163.5 8143.024193.4 9163.025183.5 10163.126173.6 11173.027183.7 12193.128203.8 13213.029224.0 1
9、4242.830253.9 15153.231244.3 16163.2 1 2 3 4 5 51015202530 尿雌三醇含量(mg/24h)尿雌三醇含量(mg/24h) 产儿体重(kg)产儿体重(kg) 待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系 X=534 Y=99.2 X2=9876 Y2=324.8 XY=1750 n=31 从计算结果可以知道,从计算结果可以知道,31例待产妇尿中雌三醇含例待产妇尿中雌三醇含 量与产儿体重之间程正相关,相关系数是量与产儿体重之间程正相关,相关系数是0.61。 问题:我们能否得出结论:问题:我们能否得出结论:待产待产 妇尿中雌三
10、醇含量与产儿体重之妇尿中雌三醇含量与产儿体重之 间成正相关,相关系数是间成正相关,相关系数是0.61? 为什么?为什么? 上例中的相关系数上例中的相关系数r等于等于0.61,说明了,说明了31例样本中雌三例样本中雌三 醇含量与出生体重之间存在相关关系。但是,这醇含量与出生体重之间存在相关关系。但是,这31例只例只 是是总体总体中的中的一个样本一个样本,由此得到的相关系数会存在抽样,由此得到的相关系数会存在抽样 误差。误差。 因为,总体相关系数因为,总体相关系数( )为零时,由于抽样误差,从为零时,由于抽样误差,从 总体抽出的总体抽出的31例,其例,其r可能不等于零。可能不等于零。 这就要对这就
11、要对r进行假设检验,判断进行假设检验,判断r不等于零是由于抽样误不等于零是由于抽样误 差所致,还是两个变量之间确实存在相关关系。差所致,还是两个变量之间确实存在相关关系。 y t t 检验检验 查表法查表法 对相关系数的假设检验,常用对相关系数的假设检验,常用t检验,选检验,选 用统计量用统计量t的计算公式如下:的计算公式如下: =n-2 zH0 : =0 H1 : 0 =0.05 r=0.61, n=31, 代入公式代入公式t= =n-2=31-2=29 查查t值表,值表,t0.05(29)=2.045 上述计算上述计算t=4.142.045,由,由t所推断的所推断的P值小于值小于0.05,
12、按,按 =0.05水准拒绝水准拒绝H0,接受,接受H1认为临产妇认为临产妇2424小时内尿中小时内尿中 雌三醇浓度与产儿体重之间有正相关关系。雌三醇浓度与产儿体重之间有正相关关系。 根据自由度查相关系数根据自由度查相关系数r界值表:界值表: 课本课本P343页表页表13-3 =n-2=31-2=29,=0.05 r0.05( (29)=0.355 r=0.61r0.05( (29)=0.355 P100n100),并对),并对r r进进 行假设检验,有统计学意义时,行假设检验,有统计学意义时,r r的绝对值大于的绝对值大于 等于等于0.70.7,则表示两个变量高度相关;,则表示两个变量高度相关
13、;r r的绝对的绝对 值大于等于值大于等于0.40.4,小于,小于0.70.7时,则表示两个变量时,则表示两个变量 之间中度相关;之间中度相关;r r的绝对值大于等于的绝对值大于等于0.20.2,小于,小于 0.40.4时,则两个变量低度相关。时,则两个变量低度相关。 r0.7:高度相关(强相关):高度相关(强相关) 0.4r0.7:中度相关(中相关):中度相关(中相关) 0.2r0.4:低相关(弱相关):低相关(弱相关) r0.2:可忽略不计:可忽略不计 存在相关关系,存在相关关系, 一定是因果关系吗?一定是因果关系吗? 识字数,鞋大小识字数,鞋大小 游泳票与冰激凌销售量游泳票与冰激凌销售量
14、 排除其它变量的干扰排除其它变量的干扰 前面我们讨论了待产妇尿中雌三醇含量和产儿体前面我们讨论了待产妇尿中雌三醇含量和产儿体 重之间的关系,知道了二者之间成正相关。那么,重之间的关系,知道了二者之间成正相关。那么, 如果我们知道了一位待产妇的尿雌三醇含量,能如果我们知道了一位待产妇的尿雌三醇含量,能 推断出产儿的体重吗?推断出产儿的体重吗?或产儿的体重可能在什么或产儿的体重可能在什么 范围内呢?范围内呢? 还有,随着身高的增加,体重也在增大,它们之还有,随着身高的增加,体重也在增大,它们之 间也成正相关关系。那么,身高每增加间也成正相关关系。那么,身高每增加1 1厘米,厘米, 体重增加多少克呢
15、?体重增加多少克呢? 上面的相关关系分析不能提供给我们需要的答案上面的相关关系分析不能提供给我们需要的答案, , 这些要用直线回归的方法来解决。这些要用直线回归的方法来解决。 当我们知道了两个变量之间有直线相关关系,当我们知道了两个变量之间有直线相关关系, 并且一个变量的变化会引起另一个变量的变化,并且一个变量的变化会引起另一个变量的变化, 这时,如果它们之间存在准确、严格的关系,这时,如果它们之间存在准确、严格的关系, 它们的变化可用函数方程来表示,叫它们是函它们的变化可用函数方程来表示,叫它们是函 数关系,它们之间的关系式叫函数方程。数关系,它们之间的关系式叫函数方程。 但在实际生活当中,
16、由于其它因素的干扰,许但在实际生活当中,由于其它因素的干扰,许 多双变量之间的关系并不是严格的函数关系,多双变量之间的关系并不是严格的函数关系, 不能用函数方程反映,为了区别于两变量间的不能用函数方程反映,为了区别于两变量间的 函数方程,我们称这种关系式为函数方程,我们称这种关系式为直线回归方程直线回归方程, 这种关系为直线回归这种关系为直线回归. . 直线回归就是用来描述直线回归就是用来描述 一个变量如何一个变量如何依赖于依赖于另一个变量另一个变量 自变量(自变量(independent variableindependent variable):在一对变):在一对变 量中,一个变量的数据变
17、化引起另一变量数据量中,一个变量的数据变化引起另一变量数据 发生相应的变动发生相应的变动, ,这一变量数据的变动是另一这一变量数据的变动是另一 变量数据变动的前提条件,称此变量为自变量。变量数据变动的前提条件,称此变量为自变量。 常用常用X X表示。表示。 应变量(应变量( dependent variabledependent variable):因自变量):因自变量 的改变而改变的变量。常用的改变而改变的变量。常用Y Y表示。表示。 直线回归的任务就是要找出一个变量随直线回归的任务就是要找出一个变量随 另一个变量变化的直线方程,我们把这另一个变量变化的直线方程,我们把这 个直线方程叫做直线
18、回归方程个直线方程叫做直线回归方程。 式中的式中的X X为自变量为自变量 式中的式中的是由自变量是由自变量X X推算应变量推算应变量Y Y的估计值,的估计值, a a是回归直线在是回归直线在Y Y 轴上的截距,即轴上的截距,即X=0X=0时的时的Y Y值;值; b b为样本的回归系数,即回归直线的斜率,表示为样本的回归系数,即回归直线的斜率,表示 当当X X变动一个单位时,变动一个单位时,Y Y平均变动平均变动b b个单位。个单位。 如果如果a a、b b已知,代入上式,就可求得直线回归已知,代入上式,就可求得直线回归 方程。方程。 b b0 0,表示,表示Xy Xy b b0 0,表示,表示
19、X yX y b=0 b=0 ,表示直线与,表示直线与X X轴平行,即轴平行,即X X与与Y Y无直无直 线回归关系线回归关系 x x(自变量):(自变量):一般是可以精确测量和严一般是可以精确测量和严 格控制的变量(如年龄、药物剂量)。格控制的变量(如年龄、药物剂量)。 y y(应变量):(应变量):为依赖于为依赖于x x呈正态分布的呈正态分布的 随机变量。随机变量。 注意:注意:收集资料时,收集资料时,x x与与y y是成对观察的是成对观察的 审核资料的性质审核资料的性质 在普通坐标系中作散点图在普通坐标系中作散点图 求求b b和和a a,列出回归方程:,列出回归方程: =a+bx=a+b
20、x 画出回归直线画出回归直线 回归系数的假设检验回归系数的假设检验 求回归系数求回归系数 求常数求常数 a a 和和 b b 的估计常用最小二乘原则的估计常用最小二乘原则 所有的点离回归线的纵向距离最近所有的点离回归线的纵向距离最近 回归线必然通过回归线必然通过 p(x,y) x, 0,a 一个产科医师发现孕妇尿中一个产科医师发现孕妇尿中雌三醇含量雌三醇含量与与 产儿的产儿的体重体重有关。于是设想,通过测量待有关。于是设想,通过测量待 产妇尿中雌三醇含量,可以预测产儿体重,产妇尿中雌三醇含量,可以预测产儿体重, 以便对低出生体重进行预防。因此收集了以便对低出生体重进行预防。因此收集了 31例待
21、产妇例待产妇24小时的尿,测量其中的雌小时的尿,测量其中的雌 三醇含量,同时记录产儿的体重。问如何三醇含量,同时记录产儿的体重。问如何 进行统计学分析?进行统计学分析? 编号编号 (1) 尿雌三醇尿雌三醇 mg/24h(2) 产儿体重产儿体重 kg(3) 编号编号 (1) 尿雌三醇尿雌三醇 mg/24h(2) 产儿体重产儿体重 kg(3) 172.517173.2 292.518253.2 392.519273.4 4122.720153.4 5142.721153.4 6162.722153.5 7162.423163.5 8143.024193.4 9163.025183.5 10163.
22、126173.6 11173.027183.7 12193.128203.8 13213.029224.0 14242.830253.9 15153.231244.3 16163.2 1 2 3 4 5 51015202530 尿雌三醇含量(mg/24h)尿雌三醇含量(mg/24h) 产儿体重(kg)产儿体重(kg) 待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系 求出求出X X与与Y Y的离均差积和的离均差积和( (l lxy xy) ); ;求出求出X X的离均的离均 差平方和差平方和( (l lxx xx) ) 求出求出b b值值:b= :b= l lxy xy/ l
23、/ lxx xx 求求a a值值: :根据直线必然通过根据直线必然通过 列出回归方程:列出回归方程: =a+bx=a+bx ),(YX 在自变量在自变量X的实测全距范围内任取相距较的实测全距范围内任取相距较 远且易读的两远且易读的两X值,代入回归方程,求出值,代入回归方程,求出 1、 2 在坐标系中找出(在坐标系中找出( X1, 1 )()( X2 , 2 )两点)两点 两点确定一条直线两点确定一条直线 回归直线一定经过(回归直线一定经过(0 0,a a ),), 这两这两 点可以用来核对图线绘制是否正确点可以用来核对图线绘制是否正确 1 2 3 4 5 51015202530 尿雌三醇含量(
24、mg/24h)尿雌三醇含量(mg/24h) 产儿体重(kg)产儿体重(kg) 待产妇尿雌三醇含量与产儿体重关系待产妇尿雌三醇含量与产儿体重关系 =a+bx=a+bx ( X X2 2 , , 2 2 ) ( X X1 1, , 1 1 ) 与直线相关一样,直线回归方程也是从样本资与直线相关一样,直线回归方程也是从样本资 料计算而得的,同样也存在着抽样误差问题。料计算而得的,同样也存在着抽样误差问题。 所以,需要对样本的回归系数所以,需要对样本的回归系数b进行假设检验,进行假设检验, 以判断以判断b是否从回归系数为零的总体中抽得。是否从回归系数为零的总体中抽得。 为了判断抽样误差的影响,需对回归
25、系数进行为了判断抽样误差的影响,需对回归系数进行 假设检验。总体的回归系数一般用假设检验。总体的回归系数一般用表示。表示。 t检验 方差分析 F=MS回归/MS剩余 H H0 0:=0=0 H H1 1:00 =0.05=0.05 选择合适的假设检验选择合适的假设检验 方法,计算统计量方法,计算统计量 计算概率值计算概率值P,P,做出推做出推 论:统计学结论和专论:统计学结论和专 业结论业结论 其中其中Sy.x(剩余标准差剩余标准差) 为各观察值为各观察值Y到回归到回归 直线的距离的标准差,直线的距离的标准差, 表示去除表示去除X影响后影响后Y 的变异程度的变异程度 回归系数的回归系数的t检验
26、检验 判断判断b是否来自回归系数为是否来自回归系数为0 (=0 )的总体。)的总体。 1、建立检验假设:、建立检验假设: H0: =0 H1: 0 =0.05 2 2、计算统计量、计算统计量 =31-2=29=31-2=29 查查t t值表,值表,t t0.05(29) 0.05(29)=2.045, P0.05, =2.045, P50时,计算检验统计量时,计算检验统计量Z 查查r rs s界值表(课本界值表(课本343343页,表页,表13-413-4) 根据根据n n和和得到得到r rs s界值:界值:n=10n=10, =0.05=0.05, r rs s( (1010,0.050.0
27、5)=0.648 =0.648 比较:比较:r rs s =0.903r=0.903rs s( (1010,0.050.05),则 ,则 p0.05p0.05,按,按=0.05=0.05水准,拒绝水准,拒绝H H0 0,接受,接受H H1 1, 认为认为r rs s有统计学意义,即子痫抽搐次数与有统计学意义,即子痫抽搐次数与 新生儿窒息之间有负向的等级相关关系。新生儿窒息之间有负向的等级相关关系。 病例编号病例编号1 12 23 34 45 56 67 78 89 91010 血小板数血小板数130130160160310310420420540540740740106010601230123
28、01260126014401440 出血症出血症+ 编号编号 血小板数血小板数 x 出血症出血症 y X的秩次的秩次Y的秩次的秩次dd2 1130+110-981 216026-416 3310-3300 4420+48-416 5540+58-39 6740-6339 71060-73416 81230-83525 91260-93636 101440+10824 合计合计-212 查表查表13-4:n=10,=0.05, rs( (10,0.05)=0.648 得出结论:得出结论: 相关分析:研究变量间相互关系的密切程相关分析:研究变量间相互关系的密切程 度和变化趋势,并用适当的统计指标加
29、以度和变化趋势,并用适当的统计指标加以 表示。表示。 回归分析:研究变量间数量上的依存关系,回归分析:研究变量间数量上的依存关系, 用函数形式将其表现出来,并用一个或多用函数形式将其表现出来,并用一个或多 个变量来推测另一个变量的估计值及波动个变量来推测另一个变量的估计值及波动 范围。范围。 直线相关:分析正态分布的两个随机变量直线相关:分析正态分布的两个随机变量x x 与与y y是否有直线相关关系以及是否有直线相关关系以及相关的性质和相关的性质和 相关的密切程度相关的密切程度。 直线回归:探讨两个连续变量直线回归:探讨两个连续变量X X和和Y Y间间依存依存 关系关系的一种统计学方法。的一种
30、统计学方法。 审核资料的性质审核资料的性质 绘制散点图,判断是否存在相关关系绘制散点图,判断是否存在相关关系 求出相关系数,判断相关的强度和性质求出相关系数,判断相关的强度和性质 进行假设检验,判断是本质因素还是抽样进行假设检验,判断是本质因素还是抽样 误差误差 审核资料的性质审核资料的性质 在普通坐标系中作散点图在普通坐标系中作散点图 求求b和和 a 列出回归方程:列出回归方程: =a+bx 画出回归直线画出回归直线 回归系数的假设检验回归系数的假设检验 r的大小的大小 变量之间关联的密切程度变量之间关联的密切程度 符号的正负符号的正负 关联的性质关联的性质 b的大小的大小 斜率的大小斜率的大小 符号的正负符号的正负 关联的性质关联的性质 区别区别 资料性质资料性质 应用应用 r r与与b b的取值不同的取值不同 联系联系 方向一致方向一致 假设检验等价:假设检验等价:t tr r=t=tb b 可以用回归解释相关可以用回归解释相关 1.实际意义实际意义 进行相关回归分析要有实际意义,进行相关回归分析要有实际意义,不可把毫无关系不可把毫无关系 的两个事物或现象用来作相关回归分析。例如,有的两个事物或现象用来作相关回归分析。例如,有 人说,孩子长,公园里的小树也在长。求孩子和小人说,孩子长,公园里的小树也
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年缝纫业环保标准制定及实施指导服务合同
- 2025年现代化茶楼智能家具配置与室内设计工程合同
- 2025年连锁便利店商品退换货标准及服务保障合同
- 2025款物流行业区块链物流信息追踪与安全保障合同
- 金色的鱼钩课件绿色圃网
- 2025年度校园营养餐配送安全质量保障及服务合作协议
- 2025年城市综合体地下车库车位购置及物业管理服务合同
- 2025年人工智能技术与应用市场调研项目合作协议
- 2025年度豪华轿车租赁及定制化保养服务合同
- 2025年工业锅炉安全安装及租赁一体化服务协议
- 无菌物品有效期课件
- 新媒体礼仪知识培训总结
- 2025 年小升初成都市初一新生分班考试语文试卷(带答案解析)-(部编版)
- 人教版七年级上册数学教学计划
- 护理事业十五五发展规划(2026-2030年)
- 重庆市七校联盟2024-2025学年高一下学期期末考试物理试卷(含解析)
- 2024年河北科技师范学院招聘真题
- 2025版网络直播临时促销员劳务合同
- 培训班校长述职报告课件
- 传染病信息报告管理规范2025年版培训试题及答案
- 临床患者身份识别管理标准
评论
0/150
提交评论