




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、冯国双冯国双回归家族回归家族线性回归Logistic回归Poisson回归负二项回归Weibull回归Cox回归分位数回归Tobit回归研究目的研究目的比较组间差异寻找危险因素数据分类发展趋势预测数据类型数据类型/分布分布线性回归Logistic回归Poisson回归Cox回归Tobit回归Weibull回归Gamma回归因变量为连续资料因变量为分类资料因变量为计数资料因变量为生存资料因变量为截取资料服从Weibull分布服从gamma分布应用条件检查应用条件检查线性回归:线性回归:线性(linearity) 可简单通过绘制散点图来观察独立性(independent) 通常可根据专业知识来判断
2、正态性(normality) 可绘制残差的正态概率图,或对残差进行正态性检验等方差性(equal variance) 可通过绘制残差与因变量预测值的散点图来观察应用条件检查应用条件检查Logistic回归回归独立性线性:logit P与自变量满足线性有序有序logistic回归回归/累积比数累积比数logit模型模型需满足比例优势假定条件(Proportional odds assumption)应用条件检查应用条件检查Cox回归回归需满足等比例风险假定条件(Proportional hazards assumption)应用条件检查应用条件检查不满足条件怎么办?不满足条件怎么办?线性回归:线
3、性不满足:非线性回归,广义可加模型独立性不满足:多水平模型,空间回归模型正态性不满足:变量变换,非参数回归,分位数回归等方差性不满足:加权最小二乘回归,gamma回归应用条件检查应用条件检查不满足条件怎么办?不满足条件怎么办?累积比数logit模型:不满足比例优势假定:偏比例优势模型Cox回归:不满足等比例风险假定:非等比例Cox回归应用条件检查应用条件检查其它常用替代方法:其它常用替代方法:Tobit回归: 解决因变量超出某一界限无法测量的问题如:某实验室检测指标,一旦超出1000,便检测不出结果,只能用大于1000表示工资的纳税,低于一定值,没有纳税某问卷调查中,询问去年每周性生活频率 (
4、1)完全没有 (2)3次应用条件检查应用条件检查其它常用替代方法:其它常用替代方法:零膨胀Poisson回归(zero-inflated Poisson) 可用于计数资料中含有大量0值的情形如: 吸烟数量,很多人不吸烟,记为0,吸烟的人才开始记录为1、2、3、应用条件检查应用条件检查其它常用替代方法:其它常用替代方法:竞争风险模型(competing risk model) 用于生存分析中出现结局以外的其它事件的情形如: 观察胃癌发生的影响因素,结局为胃癌发生,但中间可能会出现其它结局,如其它疾病所致的死亡进入分析阶段进入分析阶段自变量形式审查:自变量形式审查:检查自变量与因变量或因变量的变换
5、形式(如logit)之间是否为线性关系010203040506070801357911手手足足口口病病发发病病率率月份月份进入分析阶段进入分析阶段关于自变量的形式关于自变量的形式理论上,回归分析中的自变量可以使任何形式,定量资料和定性资料均可。实际中分析数据时,可结合专业解释角度,对自变量的取值和形式进行适当调整。如logistic回归、Poisson回归等更倾向于自变量以分类的形式进入方程,主要出于解释方便的原因。分析阶段分析阶段单因素分析单因素分析是否一定要做单因素分析?(一直有争议)(一直有争议)自变量较多时,排除意义不大的变量初步探索每一自变量与因变量的大致关系分析阶段分析阶段多因素分
6、析多因素分析寻找所谓的“独立预后”因子多因素分析的变量筛选原则:“少而精”原则,尽量保留所有对因变量有影响的变量,尽可能地剔除掉可有可无的变量分析阶段分析阶段最常遇到的问题:最常遇到的问题:单因素分析和多因素分析结果差别较大单因素分析和多因素分析结果差别较大地区、温度对手足口发病率的单因素分析结果 Parameter StandardVariable DF Estimate Error t Value Pr |t|district 1 12.51083 7.84584 1.59 0.1251temp 1 1.41579 0.19707 7.18 |t|district 1 13.56288 3
7、.57262 3.80 0.0011temp 1 1.43461 0.15541 9.23 |t| Tolerance InflationIntercept 1 -19.81963 9.54699 -2.08 0.0430 . 0age 1 0.16384 0.07392 2.22 0.0311 0.91387 1.09424sbp 1 0.20371 0.06231 3.27 0.0019 0.49948 2.00208dbp 1 0.04428 0.09259 0.48 0.6345 0.50374 1.98514lwbc 1 6.81149 3.08482 2.21 0.0318 0.9
8、5559 1.04647 Condition -Proportion of Variation-Number Eigenvalue Index Intercept age sbp dbp lwbc 1 4.93648 1.00000 0.00024614 0.00097341 0.00035412 0.00044024 0.00073452 2 0.02951 12.93424 0.00020887 0.59401 0.01020 0.05172 0.06232 3 0.02374 14.41944 0.00675 0.00071741 0.05990 0.10842 0.43894 4 0.
9、00563 29.61956 0.03024 0.01926 0.92954 0.69965 0.01194 5 0.00465 32.59568 0.96255 0.38504 0.00000203 0.13977 0.48607回归诊断回归诊断存在多重共线性怎么办存在多重共线性怎么办(1)根据专业情况,删除其中不重要的变量(2)采用统计学方法处理,如:主成分回归、主成分logistic回归岭回归偏最小二乘回归(partial least square regression)SAS和SPSS中均可实现回归诊断回归诊断2. 异常点异常点 离群点(outliners)高杠杆点(high leve
10、rage points)强影响点(influential points)回归诊断回归诊断离群点(离群点(outliners)主要针对因变量而言,远离其它因变量的值。标准化残差内部学生化残差外部学生化残差通常绝对值大于2,考虑可能是离群点SPSS通常给出标准化残差SAS通常给出两个学生化残差iiiihser-1/iiiiihser-1/)(MSEerii/回归诊断回归诊断高杠杆点(高杠杆点(high leverage points)针对自变量而言,远离其它自变量的值。H称为帽子矩阵,对角线元素为hii ,度量了第i个观测的影响,反映了第i个观测与所有观测在自变量矩阵X上的平均值之间的距离根据hi
11、i值判断,通常大于(k+1)/n(k为自变量个数),提示可能是高杠杆点HYYXXXXXBY)(1YHHYYYYe)1(回归诊断回归诊断强影响点(强影响点(influential points)对模型有较大影响,包含或不包含该点可导致模型的参数估计值发生较大改变DFBETA:删除某观测值后对参数估计值的影响 标准:大于DFFITS:删除某观测值后对模型拟合的影响 标准:大于 ,k为自变量数) 1-)/(1(2knk n2/回归诊断回归诊断强影响点(强影响点(influential points)CookD:杠杆值和残差的综合度量 标准:大于4/(n-k-1),k为自变量个数COVRATIO:杠杆
12、值和残差的综合度量,受残差的影响更大 标准:|COVRATIO-1|大于3(k+1)/n回归诊断回归诊断 Dependent Predicted Std Error Std Error Student Obs Variable Value Mean Predict Residual Residual Residual -2-1 0 1 2 1 746.0000 614.4432 22.6312 131.5568 45.791 2.873 | |* | 2 553.0000 613.5529 19.2172 -60.5529 47.325 -1.280 | *| | 3 562.0000 612
13、.7515 16.5538 -50.7515 48.321 -1.050 | *| | 4 563.0000 612.7515 16.5538 -49.7515 48.321 -1.030 | *| | 5 570.0000 612.5734 16.0357 -42.5734 48.496 -0.878 | *| | 6 575.0000 603.1355 39.9076 -28.1355 31.881 -0.883 | *| | 7 581.0000 611.5050 13.7319 -30.5050 49.198 -0.620 | *| | 8 605.0000 611.4160 13.6
14、156 -6.4160 49.230 -0.130 | | | 9 607.0000 611.3269 13.5126 -4.3269 49.258 -0.0878 | | | 10 621.0000 611.2379 13.4234 9.7621 49.283 0.198 | | | 11 624.0000 610.6146 13.2015 13.3854 49.343 0.271 | | | 12 626.0000 609.4571 14.6273 16.5429 48.939 0.338 | | | 13 632.0000 608.6558 16.7333 23.3442 48.259
15、0.484 | | | 14 640.0000 608.8339 16.2049 31.1661 48.439 0.643 | |* | 15 656.0000 608.7448 16.4653 47.2552 48.352 0.977 | |* |内部学生内部学生化残差化残差回归诊断回归诊断 CooksCooks Hat Diag CovCov -DFBETASDFBETAS- Obs D RStudent H RatioRatio DFFITSDFFITS Intercept x 1 1.008 4.5684 0.1963 0.1946 2.2578 2.1162 -1.8348 2 0.
16、135 -1.3149 0.1415 1.0445 -0.5339 -0.4710 0.3883 3 0.065 -1.0548 0.1050 1.0982 -0.3614 -0.2864 0.2184 4 0.062 -1.0322 0.1050 1.1062 -0.3536 -0.2803 0.2137 5 0.042 -0.8696 0.0986 1.1521 -0.2875 -0.2200 0.1636 6 0.610 -0.8745 0.6104 2.6624 -1.0947 0.9018 -1.0332 7 0.015 -0.6047 0.0723 1.1913 -0.1688 -
17、0.0880 0.0470 8 0.001 -0.1253 0.0711 1.2601 -0.0347 -0.0171 0.0086 9 0.000 -0.0844 0.0700 1.2604 -0.0232 -0.0108 0.0050 10 0.001 0.1906 0.0691 1.2531 0.0519 0.0227 -0.0097 11 0.003 0.2614 0.0668 1.2434 0.0699 0.0154 0.0031 12 0.005 0.3262 0.0820 1.2561 0.0975 -0.0176 0.0422 13 0.014 0.4690 0.1073 1.
18、2678 0.1626 -0.0629 0.1001 14 0.023 0.6282 0.1007 1.2232 0.2102 -0.0729 0.1221 15 0.055 0.9755 0.1039 1.1243 0.3322 -0.1219 0.1989外部学生外部学生化残差化残差回归诊断回归诊断存在异常点怎么办存在异常点怎么办(1)根据专业情况,考虑是否可以删除(2)采用统计学方法处理,如:稳健回归分位数回归SAS中可实现回归诊断回归诊断3. 空单元(zero cell count)主要发生在logistic回归分析中即自变量各水平的交叉列联表中有些单元(格子)的观测频数为0。此时易产
19、生一个0或的OR值,使相应变量的作用无法合理解释。可分为结构性空单元和抽样性空单元解决方法:增大样本量采用确切确切logistic回归回归(exact logistic)回归诊断回归诊断 Standard Wald Parameter DF Estimate Error Chi-Square Pr ChiSqchc 1 13.3772 260.3 0.0026 0.9590 Odds Ratio Estimates Point 95% WaldEffect Estimate Confidence Limitschc 999.999 999.999 确切logistic回归分析结果 95% Co
20、nfidenceParameter Estimate Limits p-Valuechc 12.691* 1.880 Infinity 0.0058回归诊断回归诊断4. 完全分离(complete separation )主要发生在logistic回归中若自变量 存在一临界值c,当xic时,事件发生,而xi ChiSqchc 1 18.8198 55.7243 0.1141 0.7356 Odds Ratio Estimates Point 95% WaldEffect Estimate Confidence Limitschc 999.999 999.999 确切logistic回归分析结果 95% ConfidenceParameter Estimate Limits p-Valuechc 84.365* 7.605 Infinity 0.0001回归诊断回归诊断5. 过离散(ov
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 计划生育基层工作人员培训与发展考核试卷
- 家庭教育家长会核心要点解析
- 羊毛纤维性能研究考核试卷
- 杨汉清比较教育学理论体系
- 蔬菜加工自动化生产线设计考核试卷
- 口腔清洁用品消费者行为与购物心理考核试卷
- 2025年直播电商项目建议书
- 2025年记录仪表项目发展计划
- 多词语马赛克技术解析与应用
- 2019-2025年企业人力资源管理师之四级人力资源管理师考前冲刺试卷A卷含答案
- 高校在完善国防动员机制中的作用与实现路径
- 库欣综合征英文教学课件cushingsyndrome
- DB31∕696-2020 蒸压加气混凝土砌块(板)单位产品综合能源消耗限额
- 聚酯合成的酯化与缩聚课件
- 认识分式 课件
- 发还清单(公安机关刑事法律文书式样(2012版))
- EHS监测测量控制程序
- 应急预案演练记录表范例
- 安装施工安全保障措施
- 机房加固设计方案(承重)(共7页)
- 管理系统中计算机应用PPT课件
评论
0/150
提交评论