统计学教案习题11多元线性回归与logistic回归_第1页
统计学教案习题11多元线性回归与logistic回归_第2页
统计学教案习题11多元线性回归与logistic回归_第3页
统计学教案习题11多元线性回归与logistic回归_第4页
统计学教案习题11多元线性回归与logistic回归_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、文档编码 : CM8D2R7W8L3 HI9Z6Q4P1J9 ZC1V6S2B9X6第十一章多元线性回来与logistic回来一、教学大纲要求(一)把握内容1多元线性回来分析的概念:多元线性回来、偏回来系数、残差;2多元线性回来的分析步骤:多元线性回来中偏回来系数及常数项的求法、多元线性回来的应用;3多元线性回来分析中的假设检验:建立假设、运算检验统计量、确定 P 值下结论;4 logistic 回来模型结构:模型结构、发病概率比数、比数比;5 logistic 回来参数估量方法;6 logistic 回来选择自变量:似然比检验统计量的运算公式;选择自变量的方法;(二)熟识内容 常用统计软件(

2、 SPSS及 SAS)多元线性回来分析方法:数据预备、操作步骤与结果输出;(三)明白内容 标准化偏回来系数的说明意义;二、教学内容精要一 多元线性回来分析的概念将直线回来分析方法加以推广,用回来方程定量地刻画一个应变量 Y与多个自变量 X 间的线形依存关系,称为多元线形回来( multiple linear regression ),简称多元回来(multiple regression)基本形式:Y . b 0 b X 1 b X 2 b X k式中 Y.为各自变量取某定值条件下应变量均数的估量值,X ,X 2, ,X k 为自变量, k 为自变量个数,b 为回来方程常数项,也称为截距,其意义

3、同直线回来,b ,b , , b 称为偏回来系数(partial regression coefficient ),jb表示在除 X j 以外的自变量固定条件下,X 每转变一个单位后 Y 的平均转变量;二 多元线性回来的分析步骤Y.是与一组自变量 X ,X 2, ,X k 相对应的变量 Y 的平均估量值;多元回来方程中的回来系数 1b ,b , , b 可用最小二乘法求得,也就是求出能使估量值 Y.和实际观看值Y的残差平方和 ei 2 Y Y . 2为最小值的一组回来系数 b ,b , , b 值;依据以上要求,用数学方法可以得出求回归系数 b ,b , , b 的以下正规方程组(normal

4、 equation):b 1 l 11 b 2 l 12 b k l 1 k l 1 yb 1 l 21 b 2 l 22 b k l 2 k l 2 yb 1 l k 1 b 2 l k 2 b k l kk l ky X i X j 式中 l ij l ji X i X i X j X j X X jn X i Y l iy X i X i Y Y X i Yn常数项 b 可用下式求出:b 0 Y b 1 X 1 b 2 X 2 b kX k(三)多元线性回来分析中的假设检验在算得各回来系数并建立回来方程后,仍应对此多元回来方程作假设检验,判定自变量 X ,X 2, ,X k 是否与Y 真

5、有线性依存关系,也就是检验无效假设 H 0(1 2 3 L k 0) , 备选假设 H 1 为各 j值不全等于 0或全不等于 0;检验常常用统计量 F式中 n 为个体数, k 为自变量的个数;b2l2ylFMS 回来l误差l回来k1MS 误差 nk式中l回来b 1 l1yyybklkyl误差l总l回来Y2l总Y四 logistic 回来模型结构设 X 1 , X 2 , , X k 为一组自变量, Y 为应变量;当 Y 是阳性反应时,记为 Y =1;当 Y 是阴性反应时,记为 Y =0;用 P 表示发生阳性反应的概率;用 Q 表示发生阴性反应的概率,明显 P+Q=1;Logistic 回来模型

6、为:0 1 X 1 2 X 2 k X k e P 0 1 X 1 2 X 2 k X k 1 e同时可以写成:Q1 e 0 1 X 1 12 X 2 kX k式中 0是常数项;j j 1 2, ,k 是与争论因素 X j 有关的参数,称为偏回来系数;大事发生的概率 P 与 x 之间呈曲线关系,当 x 在,之间变化时,P 或 Q 在( 0,1)之间变化;如有 n 例观看对象, 第 i 名观看对象在自变量 X i 1 , X i 2 , , X ik 作用下的应变量为 iY ,阳性反应记为 iY =1,否就 iY =0;相应地用 iP 表示其发生阳性反应的概率;用 Q 表示其发生阴性反应的概率,

7、仍然有 iP + Q =1;iP 和 Q 的运算如下:0 1 X i 1 2 X i 2 L k X ik e Pi 1 e 0 1 X i 1 2 X i 2 L k X ikQ i 0 1 X i 1 12 X i 2 L k X ik 1 e这样,第 i 个观看对象的发病概率比数(odds)为 P iQ i,第 l 个观看对象的发病概率比数为 P lQ l,而这两个观察对象的发病概率比数之比值便称为比数比OR(odds ratio);对比数比取自然对数得到关系式:P i Q iln 1 X i 1 X l 1 2 X i 2 X l 2 k X ik X lk P Q l等式左边是比数比

8、的自然对数,等式右边的 X ij X lj j 1,2,k 是同一因素 X 的不同暴露水平 X ij 与 X lj 之差;j的流行病学意义是在其它自变量固定不变的情形下,自变量 X 的暴露水平每转变一个测量单位时所引起的比数比的自然对数转变量;或者说,在其他自变量固定不变的情形下,当自变量 X j 的水平每增加一个测量单位时所引起的比数比为增加前的 e 倍;同多元线性回来一样,在比较暴露因素对反应变量相对贡献的大小时,由于各自变量的取值单位j不同,也不能用偏回来系数的大小作比较,而须用标准化偏回来系数来做比较;标准化偏回来系数值的大小,直接反映了其相应的暴露因素对应变量的相对贡献的大小;标准化

9、偏回来系数的运算,可利用有关统计软件在运算机上解决;(五) logistic 回来参数估量由于 logistic 回来是一种概率模型,通常用最大似然估量法(maximum likelihood estimate )求解模型中参数 j的估量值 jb j 12, ,k ;Y 为在 X 1 , X 2 , , X k 作用下的阳性大事(或疾病)发生的指示变量;其赋值为:Yi1,第i个观看对象显现阳性反应应0,第i个观看对象显现阴性反第 i 个观看对象对似然函数的贡献量为:l i P i Y i Q i 1 Y i当各大事是独立发生时,就 n 个观看对象所构成的似然函数 L是每个观看对象的似然函数贡献

10、量的乘积,即n nL l i P Y i Q i 1 Y ii 1 i 1式中为 i 从 1 到 n 的连乘积;依最大似然估量法的原理,使得 L 达到最大时的参数值即为所求的参数估量值,运算时通常是将该似然函数取自然对数(称为对数似然函数)后,用 Newton Raphson 迭代算法求解参数估量值 b j j 1,k ;(六) logistic 回来选择自变量在 logistic 回来中, 选择自变量的方法有似然比检验 test三种;其中似然比检验较为常用,用 表示似然比检验统计量,运算公式为:(likelihood ratiotest )、计分检验 score test、Wald 检验 W

11、ald 2 ln L L 2 ln L ln L 式中 ln 为自然对数的符号,L 为方程中包含 m m k 个自变量的似然函数值,L 为在方程中包含原 m 个自变量的基础上再加入 1 个新自变量 X 后的似然函数值; 在无效假设 H 0 条件下,统计量 听从自由度为 1 的 2 分布;当 2 1 时,就在 水平上拒绝无效假设,即认为 X 对回来方程的贡献具有统计学意义,应将 X j 引入到回来方程中;否就,不应加入;逆向进行即可剔除自变量;三、典型试题分析(一)单项选择题1多元线性回来分析中,反映回来平方和在应变量Y 的总离均差平方和中所占比重的统计量是();A 复相关系数B偏相关系数C偏回

12、来系数D 确定系数答案: D 评析 此题考点:多元线性回来中的几个概念的懂得;多元线性回来中的偏回来系数(multiple linear regression )表示在其它自变量固定不变的情形下,自变量 X j 每转变一个单位时,单独引起应变量 Y的平均转变量;确定系数(coefficient of determination )表示回来平方和 SS 回来 占总离均2 2差平方和 SS 总 的比例, 简记为 R ;即 R SS 回来 SS 总;确定系数的平方根即 R 称为复相关系数 (multiple correlation coefficient ) ,它表示 p 个自变量共同对应变量线性相

13、关的亲热程度,它不取负值,即 0 R 1;2Logistic 回来分析适用于应变量为();A分类值的资料 B连续型的计量资料C正态分布资料 D一般资料答案: A 评析 此题考点: logistic 回来的概念;logistic 回来属于概率型回来,可用来分析某类大事发生的概率与自变量之间的关系;适用于应变量为分类值的资料,特别适用于应变量为二项分类的情形;模型中的自变量可以是定性离散值,也可以是计量观测值;(二)运算题依据表 11-2 数据,分别用 SPSS统计软件、 SAS 统计软件写出多元线性回来的统计分析步骤及其简要结果;表 11-1 某学校 20 名一年级女高校生肺活量及有关变量测量结

14、果1 编号50.8 体重X /kg 胸围X2/cm 肩宽X /cm 肺活量 Y /L 36.3 73.2 2.96 2 49.0 84.1 34.5 3.13 3 42.8 78.3 31.0 1.91 4 55.0 77.1 31.0 2.63 5 45.3 81.7 30.0 2.86 6 45.3 74.8 32.0 1.91 7 51.4 73.7 36.5 2.98 8 53.8 79.4 37.0 3.28 9 49.0 72.6 30.1 2.52 10 53.9 79.5 37.1 3.27 11 48.8 83.8 33.9 3.10 12 52.6 88.4 38.0 3.

15、28 13 42.7 78.2 30.9 1.92 14 52.5 88.3 38.1 3.27 15 55.1 77.2 31.1 2.64 16 45.2 81.6 30.2 2.85 17 51.4 78.3 36.5 3.16 18 48.7 72.5 30.0 2.51 19 51.3 78.2 36.4 3.15 20 45.8 75.0 32.5 1.94 答案:SPSS:数据文件: “ EXAP11 2sav” ; 数据格式: 4 列 20 行;过程:Statistic Regression Linear . Dependent:YIndependents:X ,X2,X3Me

16、thod : Enter 结果:Variables Entered/Removed Model Variables Entered Variables Method Removed 1 X3(肩宽) , Enter . X2(胸围) , X (体重)a All requested variables entered. b Dependent Variable: Y(肺活量)Model Summary a Model R R Square ,Adjusted Std. Error of the Estimate 1 .846 .715 RSquare .2893 .662 Predictors:

17、 Constant, X3,X2X 1ANOVA a Model Sum of 2,X1df Mean F Sig. Squares Square 1 Regression 3 13.413 .000 3.367 1.122 Residual 1.339 16 8.368E-02 Total 4.706 19 Predictors: Constant, X3,Xb Dependent Variable: YCoefficients a Model Unstandardized Standardized t Sig. Coefficients Coefficients 1 Constant B

18、Std. Error Beta -3.541 .003 -4.676 1.321 X36.036E-02 .021 .474 2.899 .010 3.508E-02 .015 .333 2.272 .037 X25.010E-02 .029 .307 1.735 .102 X1Dependent Variable: YSAS:数据步 过程步DATA EXAP11 2;INPUT x1 x2 x3 y ;PROC REG;CARDS ;MODEL y=x1 x2 x3 ;50.8 73.2 36.3 2.96 45.8 75.0 32.5 1.94;RUN ;结果:Analysis of Va

19、riance Source DF Sum of Mean F Value Pr F Squares Square Model 3 3.36732 1.12244 13.41 0.0001 Error 16 1.33893 0.08368 Corrected Total 19 4.70626 Parameter Estimates 评析 Parameter Standard Pr |t| Variable DF Estimate Error t Value Intercept 1 -4.67553 1.32051 -3.54 0.0027 X1 1 0.06036 0.02082 2.90 0.

20、0105 X2 1 0.03508 0.01544 2.27 0.0372 X3 1 0.05010 0.02888 1.73 0.1020 此题考点:统计软件关于多元线性回来的分析方法及主要输出结果;依据 SPSS或 SAS 的输出结果,可进行以下分析:1 检验 H0:1230 的方差分析表; F=13.413,P=0.0001,拒绝 H0,肺活量至少与一个自变量存在线性关系;2 估量偏回来系数 b1,b2,b3,给出多元线性回来方程 Y 4.68 0.06 X 1 0.04 X 2 0.05 X,R2=0.715,Ra 2=0.662;3 偏回来系数检验,见表 11-2;表 11-2 偏回

21、来系数估量值及其检验偏回来系数 估量值 SE t P b0-4.675 1.321 -3.54 0.00 b1 0.060 0.021 2.90 0.01 b2 0.035 0.015 2.27 0.04 b3 0.050 0.029 1.73 0.10 四、习 题(一)单项选择题1可用来进行多元线性回来方程的协作适度检验是:A2 检验 B F 检验 C U 检验 D Ridit 检验2在多元回来中,如对某个自变量的值都增加一个常数,就相应的偏回来系数:A不变 B增加相同的常数 C削减相同的常数 D增加但数值不定3在多元回来中,如对某个自变量的值都乘以一个相同的常数 k,就:A 该偏回来系数不

22、变B 该偏回来系数变为原先的 1/k 倍C 全部偏回来系数均发生转变D 该偏回来系数转变,但数值不定4作多元回来分析时,如降低进入的F 界值,就进入方程的变量一般会:X2,岁)的关系获得了A增多B削减C不变D可增多也可削减(二)名词说明1.多元线性回来2.偏回来系数3.复相关系数4.确定系数5.比数6.比数比(三)简答题logistic 回来模型中,偏回来系数i的说明意义是什么?(四)运算题某学者争论在某种养分缺乏状态下儿童的体重(Y ,kg)与身高(X , cm)、年龄(12 名观看对象的观测资料,运算得到如下基本数据:X11611,2 X 1219631,X22106,X2976,Y341

23、,Y29883,X1X214454,2X1Y46439,X2Y3079;二元线性回来方程的正规方程组;(1) 请写出求解Y .b 0b 1X1b 2X(2) 设方程组的解为b02. 114,1b0 .135,b20 .923,请写出回来方程;(3) 完成以下方差分析表;变异来源v表 11-3 12 名儿童体重与身高、年龄回来分析方差分析表SSMSF回来残差总和五、习题答案要点(一)单项选择题4A multiple linear 1B 2A 3B (二)名词说明Y 与多个自变量 X 间的线性依存关系,称为多元线性回来(1 用回来方程定量地刻画一个应变量regression),简称多元回来(multiple regression);2 多元线性回来的基本形式为:Y . b 0 b X 1 1 b X 2 2 b X k k 1b ,b , , b 称为偏回来系数(partial regression coefficient),jb表示在除 X j 以外的自变量固定条件下,X 每转变一个单位后 Y 的平均转变量;3 复

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论