第12章简单回归分析2_第1页
第12章简单回归分析2_第2页
第12章简单回归分析2_第3页
第12章简单回归分析2_第4页
第12章简单回归分析2_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、田玉慧田玉慧新乡医学院公共卫生学院新乡医学院公共卫生学院3831801第一节第一节 简单线性回归简单线性回归(linear regression) v一、线性回归的概念一、线性回归的概念回归模型的类型回归模型的类型回归模型回归模型多元回归多元回归一元回归一元回归线性线性回归回归非线性非线性回归回归线性回线性回归归非线性非线性回归回归实例实例v 例:为探讨某地饮水中氟含量与例:为探讨某地饮水中氟含量与 氟骨症氟骨症的关系,试对测量得到的下列的关系,试对测量得到的下列8对数据进对数据进行直线回归分析。行直线回归分析。v氟含量氟含量(mg/l)x:v0.48, 0.64, 1.00, 1.47, 1

2、.60, 2.86, 3.21, 4.71v患病率患病率(%)y:v22.37,23.31, 25.32,22.29,28.57,35.00,46.07,46.08v 由上图可以看出:氟含量与氟骨症患病由上图可以看出:氟含量与氟骨症患病率之间存在着一种依存变化的关系,氟骨症患率之间存在着一种依存变化的关系,氟骨症患病率随氟含量的增长而增高,并且呈直线趋势,病率随氟含量的增长而增高,并且呈直线趋势,但各点并非但各点并非都在直线上。都在直线上。v 强调这一区别,统计上称这是氟骨症患强调这一区别,统计上称这是氟骨症患病率在氟含量上的回归,即线性回归,也称简病率在氟含量上的回归,即线性回归,也称简单回

3、归单回归(simple regression)(simple regression)。v 线性回归分析的任务就是建立一个描述线性回归分析的任务就是建立一个描述应变量依自变量而变化的直线方程应变量依自变量而变化的直线方程(linear (linear equation)equation)。 一元线性回归模型一元线性回归模型 (概念要点)(概念要点) 对于只涉及一个自变量的简单线性回归模型可表示为对于只涉及一个自变量的简单线性回归模型可表示为= 0 0 + + 1 1 + + 由样本得到的一元回归模型由样本得到的一元回归模型bxay+线性回归分析线性回归分析(放后边讲)三、回归参数的估计三、回归参

4、数的估计v(一)直线回归方程的概念:一般形式是:(一)直线回归方程的概念:一般形式是: v式中:式中:为由为由 推算得来的推算得来的 值,即值,即 的估计的估计值;值;称为截距称为截距(intercept),它是当,它是当 =0时的值,时的值,即回归直线与纵轴的交点;即回归直线与纵轴的交点;称为回归系数称为回归系数(regression coefficient),即,即回归直线的斜率回归直线的斜率(slope),其含意是当,其含意是当 每增加每增加一个单位时,一个单位时,y相应增(或减)相应增(或减) 个单位。个单位。 bxay+y(二)直线回归方程的求法(二)直线回归方程的求法v 求直线回归

5、方程就是确定一条直线,使求直线回归方程就是确定一条直线,使各点与该直线纵向距离的平方和为最小各点与该直线纵向距离的平方和为最小,即,即yx,yyy原则原则:最小二乘法:最小二乘法(least sum of squares)(least sum of squares),即可,即可保证各实测点至直线的纵向距离的平方和最小。保证各实测点至直线的纵向距离的平方和最小。最小二乘法最小二乘法(图示(图示)v1.1.画散点图,由散点图可看出:画散点图,由散点图可看出:v1 1). .两个变量间关系的性质(是正相关还是负两个变量间关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切);相关)和程度(是

6、相关密切还是不密切);v2 2). .两个变量间关系的类型,是直线型还是曲两个变量间关系的类型,是直线型还是曲线型;线型;v3 3). .是否有异常观测值的干扰。是否有异常观测值的干扰。v2.用最小二乘法原理确定两个系数用最小二乘法原理确定两个系数a,b,得到:,得到:当当a与与b求得后,直线回归方程就确定了。求得后,直线回归方程就确定了。 xbyallxxyyxxbxxxy2实例实例v 例:为探讨某地饮水中氟含量与例:为探讨某地饮水中氟含量与 氟骨症氟骨症的关系,试对测量得到的下列的关系,试对测量得到的下列8对数据进对数据进行直线回归分析。行直线回归分析。v氟含量氟含量(mg/l)x:v0.

7、48, 0.64, 1.00, 1.47, 1.60, 2.86, 3.21, 4.71v患病率患病率(%)y:v22.37,23.31, 25.32,22.29,28.57,35.00,46.07,46.08v求直线回归方程:求直线回归方程:v1.由原始数据绘制散点图,观察两变量间是否有直线趋势;由原始数据绘制散点图,观察两变量间是否有直线趋势;v2.求求 、 、 v 、v 、39.97801.24997.1548.59403.718801.24978.846815.15897.1503.4713.31801.24900. 2879.1522 xyyyxxxyyyxxlllyxlllyx,求

8、求求求:=/ =97.39/15.15=6.43=31.13-6.432.00=18.27v故所求直线回归方程为:故所求直线回归方程为:xy43. 627.18+5.画回归直线:在自变量范围内取两点不能太近直线回归方程的图示直线回归方程的图示 四、总体回归系数四、总体回归系数 v 回归系数的检验即回归方程的检验,其目的是回归系数的检验即回归方程的检验,其目的是推断总体中推断总体中两变量间是否存在直线回归关系。两变量间是否存在直线回归关系。v 因为,即使总体回归系数因为,即使总体回归系数直线回归的变异来源直线回归的变异来源 p(x,y) 的分解图(一)(一)f f 检验检验应变量应变量y y的总

9、变异的总变异 , ,由由y y与与x x间存在直线间存在直线关系所引起的变异关系所引起的变异 , ,与偏差与偏差 两部分构成,即:两部分构成,即:上式两端平方,然后对所有的上式两端平方,然后对所有的n n点求和,则有点求和,则有)(yy )(yy ) (yy ) ()()(yyyyyy+2)(yy2)()( yyyy+离差平方和的分解离差平方和的分解 (三个平方和的关系)(三个平方和的关系)v2. 两端平方后求和有两端平方后求和有1.从图上看有从图上看有sst = ssr + sse总变差平方和总变差平方和(sst) 回归平方和回归平方和(ssr) 残差平方和残差平方和(sse) 直线回归的变

10、异来源直线回归的变异来源 p(x,y) 的分解图(一)(一)f f 检验检验离差平方和的分解离差平方和的分解 (三个平方和的意义)(三个平方和的意义)v总平方和总平方和( () )反映因变量的反映因变量的 个观察值与其均值的总离差个观察值与其均值的总离差v 表明表明 的总平方和剖分为回归平方和与的总平方和剖分为回归平方和与剩余平方和两部分。剩余平方和两部分。v 要比较必需考虑自由度要比较必需考虑自由度,上述上述3个平方和个平方和的自由度的自由度 的关系为:的关系为:剩剩回回总总 + + 总=n-1 =1 = n-2 回剩回归方程的显著性检验回归方程的显著性检验 (线性关系的检验(线性关系的检验

11、 )v 检验自变量和因变量之间的线性关系是否显著检验自变量和因变量之间的线性关系是否显著. .v 具体方法是将平均回归离差平方和具体方法是将平均回归离差平方和( () )同剩余离差平同剩余离差平方和方和( () )加以比较,应用加以比较,应用 检验来分析二者之间的差别是否检验来分析二者之间的差别是否显著性意义显著性意义. .回归方程的显著性检验回归方程的显著性检验 (检验的步骤)(检验的步骤)v1.提出假设提出假设 nyyyysst222)()(xxxyyyxxxyxylllssrsstssellblssr22 v 例:例: 医生为了探医生为了探讨缺碘地区母婴讨缺碘地区母婴tsh(促甲状腺激促

12、甲状腺激素素) )水平的关系,水平的关系,随机抽取随机抽取1010对数据对数据如下如下: :母血母血tshtsh水平水平脐带血脐带血tshtsh水平水平1.211.211.301.301.391.391.421.421.471.471.561.561.681.681.721.721.981.982.102.103.903.904.504.504.204.204.834.834.164.164.934.934.324.324.994.994.704.705.205.20 由原始数据绘散点图由原始数据绘散点图v 将母血将母血tshtsh水平作为自变量水平作为自变量(independent vari

13、able)(independent variable),用,用 表示,脐带表示,脐带血中血中tshtsh水平作为应变量水平作为应变量(dependent (dependent variable)variable),用,用 表示。脐带血表示。脐带血tshtsh水平有随水平有随母血母血tshtsh水平增加而增大且呈直线趋势,但并水平增加而增大且呈直线趋势,但并非非1010个点子恰好全都在一直线上。个点子恰好全都在一直线上。v 计算回归方程计算回归方程 由前面已知:由前面已知: =0.74740.7494=0.9973 =4.573-(0.9973)(1.583)=2.9943v 直线回归方程直线回

14、归方程xy9973. 09943. 2+ + 假设检验假设检验v例:例: 用上例资料检验脐带血用上例资料检验脐带血tsh水平对母血水平对母血tsh水水平的直线关系是否成立平的直线关系是否成立? v : 0 即母血即母血tsh水平与脐带血水平与脐带血tsh水平之间水平之间无线性关系无线性关系 : 0 即母血即母血tsh水平与脐带血水平与脐带血tsh水平之间有水平之间有线性关系线性关系 0.05 方差分析表方差分析表 v已知已知 11, 28,查,查 界值表,得界值表,得 0.05,按,按0.05水准拒绝水准拒绝,接受,接受,故可以认为脐带血,故可以认为脐带血tsh水平与母血水平与母血tsh水平之

15、间有线性关系水平之间有线性关系(二)(二)t 检验检验 22:2,022. nlllnyyslssbnsbtxxxxxyxyxxxybb剩余标准差剩余标准差的标准误:的标准误: v 例:检验饮用水氟含量与氟骨症关系求得的例:检验饮用水氟含量与氟骨症关系求得的直线回归方程是否成立?直线回归方程是否成立?v :37. 601. 143. 601. 115.1592. 392. 32897.91. tssbxyv v 如我们求得回归方为如我们求得回归方为 。这里回归系数这里回归系数 =6.43=6.43是由样本求出的,根据参数是由样本求出的,根据参数原理,回归系数原理,回归系数 是总体回归系数是总体

16、回归系数的点值估计,的点值估计,象样本均数不一定恰好等于总体均数象样本均数不一定恰好等于总体均数 一样,需一样,需要对总体回归系数要对总体回归系数的区间估计,回归系数的区间估计,回归系数b b得得误差可以用标准误表示之。计算公式为:误差可以用标准误表示之。计算公式为:xy43.627.18+bnstb2,2(三)总体回归系数(三)总体回归系数 的置信区间的置信区间v 例:检验饮用水氟含量与氟骨症关系例:检验饮用水氟含量与氟骨症关系=6.43,现估计总体回归系数,现估计总体回归系数 的的95%可信区可信区间。间。v已知已知 =6.43,=1.01,0.05/2,(6)=2.447,v则总体回归系

17、数则总体回归系数 的的95%可信区间可信区间v(6.43-2.4471.01,6.43+2.4471.01)=(3.96 8.90) (一)总体回归线置信区间估计(一)总体回归线置信区间估计v 的的点估计的的点估计n利用估计的回归方程,对于自变量利用估计的回归方程,对于自变量 的一的一个给定值个给定值 p,求出因变量,求出因变量 的平均值的一的平均值的一个估计值,就是平均值的点估计个估计值,就是平均值的点估计pppbxayxx+ + (一)总体回归线置信区间估计(一)总体回归线置信区间估计v 的总体均数的置信区间估计的总体均数的置信区间估计 p, 的总体均数的的总体均数的 1- + + nii

18、pxyyxxxxnssp122.1pynpsty2,2 (一)总体回归线置信区间估计(一)总体回归线置信区间估计pppbxayxx+ + pynpsty2,2 一次抽样研究一次抽样研究5050岁年龄组舒张压得总体均数岁年龄组舒张压得总体均数估计值估计值82 mmhg82 mmhg另一次抽样研究另一次抽样研究50岁年龄组舒张压得总体均数估岁年龄组舒张压得总体均数估计值计值83 mmhgmmhg考虑到抽样误差所以要用考虑到抽样误差所以要用总体均数的区间估计总体均数的区间估计置信区间置信区间、预测区间预测区间、回归方程回归方程(二)(二)个体个体y预测区间估计预测区间估计的个别值的点估计的个别值的点

19、估计当当 时,时, bxay+(二)个体(二)个体y预测区间估计预测区间估计v 的个别值的预测区间估计的个别值的预测区间估计 p, 的一个个别值的估计区间,这一区的一个个别值的估计区间,这一区间称为间称为 n在在1- 置信水平下的预测区间为置信水平下的预测区间为(二)(二)个体个体y的预测区间带的预测区间带一次抽样研究一次抽样研究同样是同样是5050岁年龄组,他们的舒张压是岁年龄组,他们的舒张压是不同的,如不同的,如82mmhg82mmhg,83mmhg83mmhg,75mmhg75mmhg,78mmhg78mmhg,要了解包括要了解包括95%的的50岁年龄组的人岁年龄组的人的舒张压得区间有多

20、大,(与的舒张压得区间有多大,(与95%的正常值范围意义相同)的正常值范围意义相同)bxay+ + 置信区间置信区间、预测区间预测区间、回归方程回归方程影响区间宽度的因素影响区间宽度的因素v1.置信水平置信水平 (1 - )区间宽度随置信水平的增大而增大区间宽度随置信水平的增大而增大置信区间置信区间、预测区间预测区间、回归方程回归方程2回归模型的前提条件回归模型的前提条件(基本假定)(基本假定)v linelinev1.1.线性(线性(linear)linear):用散点图判断是否呈线性:用散点图判断是否呈线性v2.2.独立独立independent)independent):任意两个观察值互

21、相独立,独立:任意两个观察值互相独立,独立性意味着对于一个特定的性意味着对于一个特定的 值,它所对应的值,它所对应的与其他与其他 值所对应的值所对应的不相关对于一个特定的不相关对于一个特定的 值,它所对应的值,它所对应的 值与其他值与其他 所对应的所对应的 值也不相关值也不相关v3.3.正态正态(normal)(normal):线性模型的误差项服从正态分布,可:线性模型的误差项服从正态分布,可用正态性检验,误差项用正态性检验,误差项是一个服从正态分布的随机变是一个服从正态分布的随机变量量v4.4.等方差等方差(equal variance(equal variance):在自变量取值范围内,不

22、):在自变量取值范围内,不论论x x取什么值,取什么值,y y都有相同的方差,对于所有的都有相同的方差,对于所有的 值,值,的方差的方差2 2 都相同都相同.x1x2一个自变量情况下,同方差正态分布一个自变量情况下,同方差正态分布f(y|x)正态分布bxay+12线性回归的应用线性回归的应用v(一)、定量描述两个变量之间的依存关系。(一)、定量描述两个变量之间的依存关系。v(三)、利用回归方程进行统计控制(三)、利用回归方程进行统计控制(statistical control) :规定:规定y值的变化,通值的变化,通过控制过控制x的范围实现统计控制的目标的范围实现统计控制的目标v 1. 1.作

23、回归分析要有实际意义。不要把毫无作回归分析要有实际意义。不要把毫无关联的两个事物或现象用来作回归分析。关联的两个事物或现象用来作回归分析。v 如儿童身高的增长与小树的增长,作相关如儿童身高的增长与小树的增长,作相关分析是没有实际意义的,如果计算由儿童身高分析是没有实际意义的,如果计算由儿童身高推算小树高的回归方程则更无实际意义。也许推算小树高的回归方程则更无实际意义。也许算得的算得的b b是显著的,也是没有意义的。是显著的,也是没有意义的。v 2.2.直线回归分析的资料有两种情况直线回归分析的资料有两种情况v (1(1)一个变量)一个变量x x是选定的和严格控制的是选定的和严格控制的值,另一个

24、变值,另一个变y y是从正态分布的总体中随机抽是从正态分布的总体中随机抽取的,宜作回归分析。取的,宜作回归分析。 v (2 2)两变量)两变量x x、y y都是从正态分布的总体都是从正态分布的总体中随机抽取的,即是正态双变量中的随机样本。中随机抽取的,即是正态双变量中的随机样本。这时,若需要由一个变量推算另一个变量可作这时,若需要由一个变量推算另一个变量可作回归分析;若只需说明两变量间的相互关系可回归分析;若只需说明两变量间的相互关系可作相关分析。作相关分析。v 3.在进行直线回归或相关分析前,应绘制散点图在进行直线回归或相关分析前,应绘制散点图v (1) 当观察点的分布有直线趋势时,才适宜当

25、观察点的分布有直线趋势时,才适宜作直线回归或相关分析。如果不是线性趋势,作直线回归或相关分析。如果不是线性趋势, 应应采用曲线直线化处理,或者非线性回归方程的方法采用曲线直线化处理,或者非线性回归方程的方法进行分析。进行分析。v (2) 散点图还能提示资料有无异常点散点图还能提示资料有无异常点(outlier), 即对应于残差绝对值特别大的观测数据。异常点即对应于残差绝对值特别大的观测数据。异常点的存在往往对回归方程中的系数及相关系数的存在往往对回归方程中的系数及相关系数r的估的估计产生较大的影响。因此,需要复查此异常点,若计产生较大的影响。因此,需要复查此异常点,若是测定、记录或计算机录入错

26、误,应予修正或删除。是测定、记录或计算机录入错误,应予修正或删除。v 4. .直线回归的适用范围一般以自变量的取值范直线回归的适用范围一般以自变量的取值范围为限,在此范围内求出的估计值围为限,在此范围内求出的估计值 ,一般称为内,一般称为内插插(interpolation)(interpolation)。超过自变量取值范围所计算。超过自变量取值范围所计算的的 值称为外延值称为外延(extrapolation)(extrapolation)。若无充分理由证。若无充分理由证明超过自变量取值范围还是直线,应该避免外延。明超过自变量取值范围还是直线,应该避免外延。 v 5.5.在回归分析中,由在回归分

27、析中,由x x推算推算y y与由与由y y推推算算x x的回归方程是不同的,不可混淆。的回归方程是不同的,不可混淆。v 回归系数回归系数 截距截距v由由x推推y v由由y推推x 2)()(xxyyxxbxbya 2)()(yyyyxxbybxa相关与回归分析的联系与区别相关与回归分析的联系与区别v 1.1.区别:区别:v1) 1) 资料要求不同:相关分析要求两个变量是双变量正态分资料要求不同:相关分析要求两个变量是双变量正态分布,回归分析要求因变量布,回归分析要求因变量y y是服从正态分布的随机变量,而是服从正态分布的随机变量,而自变量自变量x x可以是服从正态分布的随机变量(可以是服从正态分

28、布的随机变量(iiii型回归),也型回归),也可以是能精确测量和严格控制的变量(可以是能精确测量和严格控制的变量(i i型回归)。型回归)。v2)2)意义:相关反映两变量的相互关系,即在两个变量中,任意义:相关反映两变量的相互关系,即在两个变量中,任何一个的变化都会引起另一个的变化,是一种双向变化的关何一个的变化都会引起另一个的变化,是一种双向变化的关系。回归是反映两个变量的依存关系,一个变量的改变会引系。回归是反映两个变量的依存关系,一个变量的改变会引起另一个变量的变化,是一种单向的关系。起另一个变量的变化,是一种单向的关系。v3) 3) 应用:研究两个变量的相互关系用相关分析。研究应用:研究两个变量的相互关系用相关分析。研究两个变量的依存关系用回归分析。两个变量的依存关系用回归分析。v4) 4) 研究性质:相关是对两个变量之间的关系进行描述,研究性质:相关是对两个变量之间的关系进行描述,看两个变量是否有关,关系是否密切,关系的性质是看两个变量是否有关,关系是否密切,关系的性质是什么,是正相关还是负相关。回归是对两个变量做定什么,是正相关还是负相关。回归是对两个变量做定量描述,研究两个变量的数量关系,已知一个变量值量描述,研究两个变量的数量关系,已知一个

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论