版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、直线回归与相关,复习,检验、 检验; 检验; 秩和检验; 直线回归与相关;,连续性变量与分类变量,分类变量,双变量可以是连续性变量,但实际上处理的是再生的等级变量,双变量可以是连续性变量,变量之间的关系,1.确定性关系,2.非确定性关系,确定性关系,圆的周长公式 R=2r,圆的面积公式 S=r2,一一对应,非常明确,自变量取某一数值时,应变量有一个完全确定的数值与之对应,如函数关系。,确定 性关系,非确定性关系,身高,体重,165cm,60kg,50kg,65kg,变量间虽然存在一定的关系,但关系不是十分确定。,既是必然的又是不确定的关系称为相关关系(correlation),确定性关系,非确
2、定性关系,医学上,许多现象之间也都有相互联系,其表现形式多样,关系有疏密程度的不同,相互间可能有因果关系,也可能有伴随关系。 密切程度:体温与脉搏身高与体重产前检查与婴儿体重 因果关系:乙肝病毒 乙肝 伴随关系:丈夫的身高和妻子的身高,相关与回归就是用于研究和解释两个变量之间 相互关系的。,研究方法,相关分析:反应变量间的密切程度与变化趋势 回归分析:变量间数量上的依存关系,回归分析分类,按变量间的关系可分为:直线回归和曲线回归。 按研究变量的数量可分为:一元回归与多元回归。,相关分析分类,按变量间的关系:线性相关与曲线相关 按资料的分布分析方法:Pearson相关与等级相关,第一节 直线回归
3、,(linear regression),直线回归是用于研究两个连续性变量 x与y之间的线性依存关系的一种统计 分析方法。,回归,F.Galton,英国统计学家FGalton(18221911 年)和他的学生、现代统计学的奠基者之一KPearson(18561936 年)在研究父母身高与其子女身高的遗传问题时,观察了1078 对夫妇,以每对夫妇中父亲的身高作为解释变量X,而取他们的一个成年儿子的身高作为被解释变量Y(应变量),将结果在平面直角坐标系上绘成散点图,发现趋势近乎一条直线。计算出的回归直线方程为 :,Galton数据散点图(英寸),例:在脑血管疾病的诊断治疗中,脑脊液白细胞介素-6(
4、IL-6)水平是影响诊断与预后分析的一项重要指标,但脑脊液临床上有时又不容易采集到。某医生欲用容易测定的血清IL-6含量,来了解急性脑血管病病人脑脊液IL-6水平,随机抽取了某医院确诊的10例蛛网膜下腔出血(SAH)患者24小时内血清IL-6(pg/ml)和脑脊液IL-6(pg/ml)数据,试就脑脊液IL-6对血清IL-6作回归分析。,一. 直线回归方程及其计算,SAH患者第一天血清和脑脊液IL-6(pg/ml)检测结果,血清IL-6 (pg/ml),100,80,60,40,20,脑脊液IL-6 (pg/ml),220,200,180,160,140,120,100,80,60,Y,X,X,
5、Y,称为自变量。 (independent variable),称为因变量。(dependent variable),可以精确测量或严格控制,依赖性,P119,P121,自变量,因变量,直线在y轴上的截距,直线的斜率,a0表示直线与纵轴的交点在原点上方 a0表示直线与纵轴的交点在原点下方 a=0表示直线通过原点,a:截距(intercept),直线与Y轴交点的纵坐标。,P119,P121,b:斜率(slope),回归系数(regression coefficient)。 意义:X每改变一个单位,Y平均改变b个单位。 b0,Y随X的增大而增大(减少而减少) 斜上; b0,Y随X的增大而减小(减少
6、而增加) 斜下; b=0,Y与X无直线关系 水平。 b越大,表示Y随X变化越快,直线越陡峭。,P119,P121,b0:X每增加(减少)一个观测单位, 增加(减少)b个单位。 b0:X每增加(减少)一个观测单位, 减少(增加)|b|个单位。 b=0:X与Y没有直线回归关系。,b0,b0,b=0,表示给定X时Y的平均值的估计值。,其涵义是均数不同X时Y均数的估计值,与一般的均数的计算方法不同,这里的均数是给定X的条件下,由回归方程估计得到的,故又称条件均数(conditional mean)。,即Y估计值之均数等于Y观察值之总平均。且当自变量 时,Y的估计值等于 。,P121,回归方程参数的计算
7、,最小二乘法原则(least square method):使各散点到直线的纵向距离的平方和最小。即使 最小。,残差:点到直线的纵向距离,P120,例10.1 某医院测量了10名3岁男童体重(X,kg)与体表面积(Y,103cm2),数据见表10.1,试作回归分析 。,实 例,表10.1 男童体重(X,kg)与体表面积(Y,103cm2),(1) 画散点图,判断是否有线性趋势。按(X,Y)实测值在直角坐标图上画出10个点,见图10.2。由散点图判断,两变量间有线性趋势,可以作直线回归分析。,(2) 求直线回归方程。在例10.1中已算得X和Y的均数、离均差平方和与离均差积和lXX,lXY,lYY
8、。,=13.44,=5.7266,lXX=24.9040,lYY=1.5439,lXY=5.9396 按公式(11.2),(11.3)得回归系数和截距分别为: (103cm2/kg) a=5.7266-13.440.2385=2.5212(103cm2) 由此,可列出直线回归方程:,二. 回归直线,根据求得的回归方程,可以在自变量X的实测范围内任取两个值,代入方程中,求得相应的两个Y值,以这两对数据找出对应的两个坐标点,将两点连接为一条直线,就是该方程的回归直线。 回归直线一定经过(0,a ),( )。这两点可以用来核对图线绘制是否正确。,(3) 绘制回归直线。在自变量X的实测范围内任取相距较
9、远且易读数的两X值,代入直线回归方程求得两点(X1, ),(X2, ),过这两点作直线即为所求回归直线。本例取X1=12, 得 =5.3832;取X2=15, 得 =6.0987。,(0,a ),( ),与其它假设检验一样,直线回归方程也是从样本资料计算而得的,同样也存在着抽样误差问题。所以,需要对样本的回归系数b进行假设检验,以判断b是否从回归系数为零的总体中抽得。为了判断抽样误差的影响,需对回归系数进行假设检验。总体的回归系数一般用表示。,三.回归系数的假设检验,b0原因: 由于抽样误差引起,总体回归系数=0 存在回归关系,总体回归系数 0,假设检验方法: (一) t 检验; (二) 方差
10、分析,(一) t 检验,Sb为回归系数的标准误,SYX为Y的剩余标准差各观察值Y到回归直线的距离的标准差,表示扣除X的影响后Y的变异程度。,H0:总体回归系数0; H1:总体回归系数0。,=0.05,=n-2=8,查表得,故按=0.05的水准拒绝H0,接受H1,可以认为认为体重与体表面积之间有回归关系。,(二) 方差分析,应变量变异的分解,X,Y,Y的离均差平方和的分解,几个平方和的意义,统计量F服从自由度为 的F分布。,(二) 方差分析,例:检验体重与体表面积间无直线回归关系是否成立?,计算检验统计量F:,注意:两种检验是完全等价的,即,H0:体重与体表面积间无直线回归关系; H1:体重与体
11、表面积间有直线回归关系。,得F=89.01,今1=1,2=8,查附表4,F界值表,得P0.01,按 =0.05水准拒绝H0,接受H1,故可认为3岁男童的体重与体表面积之间有线性回归关系。,具体步骤,(1)用实测数据绘制散点图(scatter diagram) (2) 计算回归系数b与截距a (3)列出回归方程 (4)作出回归直线:在X值实际范围内任取 两点 (5)假设检验,注意事项,(1)直线通过点( ) (2) 实际意义:从专业角度对两个变量内在联系有一定认识,不能把毫无关联的两种现象勉强作回归分析。,(3)适用条件: Y为数值变量且服从正态分布,X为人为控制或精确测量,一般称为型回归。 若
12、X,Y服从双变量正态分布,则对这种资料进行的回归称为型回归。可计算两个回归方程:,(4)散点图:必需有直线趋势时,才适宜作直线回归分析。应注意资料有无异常点(outlier)及异常点的处理。,(5)范围:直线回归方程范围一般以自变量的取值范围为限,X不能偏离实测范围太远。 例: 设中学生身高Y(米)与年龄X(岁)的回归方程为 ,则初生婴儿的平均身高为0.5米。,(6)回归系数的意义 回归系数b称为斜率(slope),表示自变量增加一个单位时,应变量的平均改变量。在例11.1中,b=0.2385(103cm2/kg),表示体重增加1(kg),则体表面积平均递增0.2385(103cm2 )。或者
13、说,体重为X1(kg)的3岁男童,其平均体表面积比体重为X(kg)的3岁男童之平均体表面积多0.2385(103cm2)。,直线回归的区间估计,回归系数 的可信区间估计 估计总体回归系数 的100(1- )%可信限为: 本例sb=0.02528, =10-2=8,查附表2,t界值表,得t0.05,8=2.306,故 的95%可信区间为: (0.2385-2.306*0.02528,0.2385+2.306*0.02528) =( 0.1802,0.2968) (103cm2/kg),的可信区间估计 点估计: 是在给定X下的条件平均值 的点估计 是当X固定时Y的总体中的条件均数 ,是有抽样误差的
14、,其标准误 按下式计算: 的100(1- )%可信限: ,当X=12时, =5.3832 当X=12kg时, 的95%可信限为: 5.38322.3060.0540=5.25875.5077 即体重为12kg的3岁男童,估计其平均体表面积为5.3832(103cm2),95可信区间为(5.2587,5.5077) (103cm2)。,个体Y值的容许区间估计,容许区间就是总体中当X固定时,个体Y值的波动范围,其标准差sY按下式计算: 个体Y值的100(1- )% 容许限可按下式计算:,当X=12kg时,体表面积个体值的95%容许限为: 5.38322.3060.1372=5.06665.6998
15、 即体重为12kg的3岁男童,估计有95的人体表面积在5.0666到5.6998 (103cm2)之间。,体表面积(103cm2),图11.3,的95可信区间与个体Y值的95容许区间,体重(kg),四.回归方程的应用,利用回归方程进行预测 : 把自变量代入回归方程,对应变量进行估计,可求出应变量的波动范围。例如,已知母血的TSH水平,代入回归方程,再用区间估计的方法,即可知道新生儿脐带血TSH水平的范围。,利用回归方程进行统计控制,常用于描述两个事物之间的 数量关系是否密切,相关分析,linear correlation,第二节 直线相关,P108,当两个变量之间出现如下关系,一个增大,另一个
16、也同时增大,或缩小,我们称这种现象为共变,也就是说两个变量之间有相关关系。,P108,直线相关,当一个变量X由小到大,另一个变量Y亦相应地由小到大,或由大到小,而同时,两个变量的散点图呈直线趋势,说明两变量间有直线关系。,一.相关系数及其意义,身高 X,体重 Y,这种直线关系,或分析这种直线关系的理论和方法,统称为直线相关,X,Y,零 相 关,直线相关系数,(coefficient of correlation),简称为相关系数,用符号 r表示,是用于说明具有直线关系两个变,量之间,相关关系的密切程度和,相关方向的指标。,总体相关系数用希腊字母 表示,1. -1 r 1,没有单位,r 的特征,
17、2. r 的绝对值大小表示相关关系的密切程度,3. r 的符号表示相关的方向,X,Y,X和Y的离差积和,X的离差平方和,Y的离差平方和,二.相关系数的计算,例10.1 某医院测量了10名3岁男童体重(X,kg)与体表面积(Y,103cm2),数据见表10.1,试作相关分析 。,实 例,表10.1 男童体重(X,kg)与体表面积(Y,103cm2),(1) 画散点图,判断是否有线性趋势。按(X,Y)实测值在直角坐标图上画出10个点,见图10.2。由散点图判断,两变量间有线性趋势,且为正相关。可以作相关分析。,。,r =0. 9579,三.相关系数的假设检验,对相关系数的假设检验,常用t检验,选用
18、统计量t的计算公式如下:,=n-2,Sr- 相关系数的标准误,解:(1)建立检验假设,确定检验水准 H0:=0 H1:0 =0.05,查t0.05,8=2.306,P0.05,按=0.05的水准拒绝H0,接受H1,认为一年级女大学生的体重与肺活量间呈正的直线相关。,(2)计算检验统计量 : r =0.9597,n=10,(3)确定P值,下结论,注意:对于同一资料,tbtr,检验完全等价,直线相关的特征,1. 相关关系可以是因果关系,也可以是伴随关系。相关系数只能说明两现象的数量之间存在直线关系,可以从数量上给理论研究提供线索。,2. r的范围: 。相关系数r多在-1和+1之间。 r 的绝对值越
19、接近于1,相关越密切,越接近于0,相关越不密切。但两变量是否有密切的关系,首先要从本质上考虑,而不单纯取决于相关系数的大小。,3. 相关系数和其他的统计指标一样,也有抽样误差。我们所求的仅仅是样本相关系数,必须进行假设检验。,直线回归分析和相关分析的区别与联系,1.区别,在资料要求上: 研究回归时要求因变量Y服从正态分布,X是可以精确测量和严格控制的变量,一般称为I型回归; 研究相关时要求X和Y均服从双变量正态分布,若用回归称为II型回归。,在应用上: 说明两变量的依存变化的数量关系用回归, 说明变量间相关关系用相关。,2.联系,1)对一组数据同时计算r和b,它们的正负号一致,r为+说明两变量
20、间相互关系是同向的,b为+说明X增一个单位,Y平均增b个单位。,2)回归系数b的假设检验等价于相关 系数r的假设检验,3) r与b可以互相换算:,4)可以用回归解释相关: r2又称为确定系数R2(determinant coefficient) ,它说明应变量Y的总变异中归因于X的部分。 注:当遇到两变量之间的相关系数具有统计学意义但r值不大时,下结论要特别慎重。 如:r =0.20, n=100,直线回归与相关的应用注意事项,1.实际意义 进行相关回归分析要有实际意义,不可把毫无关系的两个事物或现象用来作相关回归分析。,相关关系不一定是因果关系,也可能是伴随关系,并不能证明事物间有内在联系,
21、例如,有人发现,对于在校儿童,鞋的大小与阅读技能有很强的相关关系。然而,学会新词并不能使脚变大,而是涉及到第三个因素 年龄。当儿童长大一些,他们的阅读能力会提高而且由于长大也穿不下原来的鞋。,2.利用散点图 对于性质不明确的两组数据,可先做散点图,在图上看它们有无关系、关系的密切程度、是正相关还是负相关,然后再进行相关回归分析。,3.零相关 相关系数或直线回归系数为零仅说明两变量不存在线性关系,有可能存在非线性关系。,4.不宜“外延” 相关分析和回归方程仅适用于样本的原始数据范围之内,出了这个范围,我们不能得出两变量的相关关系和原来的回归关系。,5.线性回归的应用条件(LINE),线性(lin
22、ear):即X和Y间的关系为线性关系,独立(independent):即n个个体的观察资料间必须独立,正态(normal):即给定X后,Y的分布为正态分布,等方差(equal variance):即不同X值所对应的Y之分布具有相同的方差,换句话说,Y的方差与X无关,秩相关(等级相关)rank correlation,问题的提出,例 为研究饮水中氟含量与氟中毒患病率之间的关系,测定了9个居民点井水中的氟含量X(mg/L),并同时通过体检得到这些居民点中常住居民的氟中毒患病率 Y(%),资料列于下表。,井水中氟含量(X)与氟中毒患病率(Y)的资料,例10.6 某研究所用野百合治疗白血病,并作 抗白
23、血病指数(简称抗白指数)及疗效的分析, 结果见表10.6,问抗白指数与临床疗效间 有无关系?,表10.6 12名白血病患者的抗白指数与临床疗效,秩相关的适用条件,不服从双变量正态分布; 用等级资料表示的原始资料; 总体分布型末知。,基本思想,对于不符合正态分布的资料,不用原始数据计算相关系数,而是按其取值由小到大排秩, 然后根据这种秩次来计算秩相关系数。,方法一:设有n例观察对象,对每一例观察对象同时取得两个测定值(Xi,Yi), 分别按Xi, Yi (i=1,2, ,n) 的值由小到大排秩为1, 2, , n。它们的秩分别为 和 ,利用公式 得,将表10.6有关数据代入上式得:,方法二:令
24、( i=1,2,n) 可得到简化公式 注: |rs|,具体步骤,将X,Y分别排秩(当测定值相等时,取平均秩),它们的秩分别记为 求每一对 的差值,例10.6 某研究所用野百合治疗白血病,并作抗白血病指数(简称抗白指数)及疗效的分析,结果见表10.6,问抗白指数与临床疗效间有无关系?,计算di2并求和 计算秩相关系数 =-0.8891,若相同秩次较多时,可直接按(2)式计算或按下式较正 ,t为X(或Y)中相同秩次的个数。当 时,上式与(3)式相等。,建立假设检验,确定检验水准 H0: H1:,计算检验统计量 查表法: , 根据样本含量n查附表15, 例10.6查表得到rs0.05(12)=0.587 , | |(0.05,12),P0.05。 计算法:,自由度n-,确定P值并作出统计推断 本例,n12,查rS界值表,得P0.05,按 0.05水准拒绝 H0 ,接受 H 1 , 可认为抗白指数与临床疗效间存在等级相关关系。,注意事项,两个变量之间相关关系具有统计学意义,只能从统计学上反映出它们之间的变化存在某种规律性,不能直接把这种相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 初中2025早睡早起习惯说课稿
- 初中“专注习惯”主题班会说课稿
- 2026中学教资学生规则意识培养课件
- 不限说课稿2025学年中职专业课-外贸制单(国际商务单证)-国际商务-财经商贸大类
- 房产交易中心设备清单及预算
- 2026年西门豹说课稿图软件app
- 驾校科目一考试及答案
- 建材生产能耗控制细则
- 山东滨州市2025-2026学年高一上学期期末物理试题(A)(解析版)
- 机械加工车间安全操作细则
- 2026中广核白鹭综合服务(深圳)有限公司招远分公司招聘1人笔试历年典型考点题库附带答案详解
- 2026广东惠州惠城区桥东街道招聘党建联络员和村(社区)“两委”班子储备人选11人笔试参考题库及答案详解
- 2026年医师考核笔检测卷(重点)附答案详解
- 江苏省泰州市兴化市重点名校2026届中考历史最后冲刺模拟试卷含解析
- 2026年北京各区高三语文一模作文题汇编(高考趋势题附标杆文)
- 储能电站电池热失控火灾应急演练脚本
- 2025-2026学年五年级语文下册第七单元综合素养测评卷(含答案)
- 模版-2026年2月市场销售经营分析月报看板
- 2026年供热知识试题题库及答案
- 高考化学主观题重点突破策略
- 试件留置方案和试验计划
评论
0/150
提交评论