已阅读5页,还剩5页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
统计学专业教学实习报告题目: Project-2 姓 名:龚进容 学 号:20081004180 指导老师:许小平 2011年 01月引言:某种疾病爆发,其患者总是或多或少都具有一些共同的特征,例如他们生活的自然环境,偏好的饮食习惯,所处的地理位置,社会环境,等等。研究这些特征,找出爆发这种疾病的影响因素,便于采取有效的措施预防和控制这种疾病的蔓延。这种研究无论是在医学上还是在人类发展史上都具有十分重要的意义。一、数据的描述 本案例是对同一个城市的两个地区的可能爆发某种疾病的调查,它有196个样本观测值,每个观测值包括以下5个变量:被调查者的年龄(Age)、被调查者的社会地位(Soc-s)(其中1表示处于上流社会,2表示中产阶级,3表示下层社会)、被调查者所在的地区(Sector)(其中1表示地区1,2表示地区2)、被调查者是否患有该种疾病(Disease)(其中0表示没有患这种疾病,1表示患有这种疾病)以及被调查者是否有储蓄存款(Save)(其中,0表示没有储蓄存款,1表示有储蓄存款)。 对此数据的描述性统计结果如下表所示:表1 “疾病爆发”数据的描述性统计分析根据此数据建立适当的模型,看这些变量对疾病的爆发是否有显著影响,影响程度如何。二、目的 1.建立一个合适Logistic模型,看这些变量中哪些变量对疾病的爆发有显著影响,影响程度如何,从而可以对疾病的预防与控制提出适当的建议,以便采取有效措施。 2.在建模的过程中帮助我们复习Logistic回归分析,加深对的理论知识的学习。同时也熟悉对SAS统计软件的操作能力。3.加强我们的动手能力与实践能力,对应用统计有更深的认识。三、建立模型的基本理论 对于被解释变量是定性数据的情况,通常是建立Logistic模型。以二分变量为例:YiProb(Yi)10P(Yi=1)= piP(Yi=0)= 1-pi P(Yi=k)= , k=0,1 对于只有一个解释变量的情况,在Xi 水平下得到的Yi =1的概率为:由此,得到的Logistic函数为:其中,表示Xi 每增加一个单位,对数机会比率(ln-odds)就会相应增加个单位。 对于Logistic模型,可以用极大似然法估计参数、。使似然函数:达到最大时的b0 、b1 就是对应的、 的估计值。由此可以得到Logistic函数以及Xi 与Yi 之间的关系。四、建模 对于本案例,我们用三分之二的数据建立一个Logistic模型,再用余下的三分之一的数据进行预测。由于此数据并没有按顺序排列,所以我们可以选取前130个观测值来建模,用剩下的66个观测值进行预测。1. 变量的选择 首先,把所有的解释变量都选入模型,进行初步回归,回归的结果如下:表2 初步回归的参数估计表对于被调查者的社会地位与是否有储蓄存款的参数估计的结果是不显著的,说明所有的变量不一定要全部选入模型。于是,我们用AIC、SBC、向前选择、向后剔除、逐步回归、-2Ln(b)、Score Chi-square等方法选择合适的变量加入模型。 我们由SAS程序得到的SBC的结果如下表:表3 最佳子集的SBC表Best SubsetSBCSectorSector and AgeSector Age and SaveSector Age Save and Socs149.828145.113147.997152.644 从上表可以看出:通过SBC法则得到的最佳模型子集是:被调查者所在地区(Sector)和他们的年龄(Age)。 为了更方便地建模,我们用Y表示被调查者是否患有该种疾病(Disease),用X1表示被调查者的年龄(Age),用X2表示被调查者所在的地区(Sector)。由此可以得到的回归模型为:即:其中,、都为未知参数; 表示同一个地区时,年龄每增加一岁,可能爆发疾病的机会比率的对数(ln-odds) 将会增加个单位; 表示年龄相同时,处于地区2的居民会患有该种疾病的机会比率的对数(ln-odds) 将会比处以地区1的高个单位。2. 模型的诊断: 对于Logistic模型,在我们已经选好模型后,主要的诊断是侦查它是否含有强影响点。侦查强影响点的方法有多种,如残差分析(包括Pearson 残差、学生化残差及偏离度残差)、delta chi-square 统计量、delta deviance 统计量以及库克距离,等等。在这里,我们主要用库克距离来侦查强影响点。库克距离图如下图所示:图1 前130个观测值的Cook-Distance图从图中我们可以看到有5个强影响点,分别是观测值14、48、60、65与83。3. 模型的确定我们剔除上面侦查出来的强影响点后,由SAS程序得到的回归结果如下:表4 模型收敛性检验表 从上表可以看出此模型时收敛的,所以估计得到的回归系数有效。对模型的整体显著性进行检验的方法由很多,如似然比检验,得分检验及Wald检验。我们在这里采用得分检验,假设H0 :1 = 2 = 0;H1 :1 、2不全为0.检验的结果如表所示: 表5 模型整体显著性检验的结果表 从表中可以看到p-value 0.05,接受原假设,即我们设定的函数形式:是正确的。 所以可以确定此模型的Logistic函数表达式为: 此函数表示同一个地区时,年龄每增加一岁,可能爆发疾病的机会比率的对数(ln-odds) 将会增加0.040个单位;年龄相同时,处于地区2的居民会患有该种疾病的对数机会比率(ln-odds) 将会比处以地区1的高2.004个单位。此模型得到的机会比率的结果如表8所示:表8 模型的机会比率从上表可以看到,X1 的机会比率为1.041,表示年龄每增长一岁,会患此疾病的概率会增加4.1%;X2 的机会比率为7.421,表示处于地区1的居民患此病的概率是处于地区2的居民的7倍多。4. 预测上面已经求出了Yi 与Xi 之间的关系,但是根据求出的Logistic函数,我们只能求出患此病的概率,不能确定Yi 的值为0还是1,所以我们需要确定一个切割点。当概率大于切割点时,Yi =1;当概率小于切割点时,Yi =0。确定切割点的方法有很多,但我们在这里使用最常用的ROC曲线法。此数据的ROC曲线图如下图所示:图2 模型的ROC曲线图表9 预测概率联合表 从表9中可以看到上面的ROC曲线的面积为0.81,说明此模型的灵敏度还是比较好。图2中的虚线处对应的值就是切割点。从下面的SAS部分输出结果也可以找出切割点:上面输出结果中可以看出,从第42个观测值到第49个观测值,敏感度已趋于稳定,而偏离度仍在增加,可以把第41个点对应的概率0.298作为切割点,即。由此Logistic函数得到的预测值与真实值的列联表如下表所示:表10 建模数据的预测值与真实值的列联表从表中可以看到:在没有患病的90个观测值中,有26个被错判为患病,占28.89%;在患病的35个观测值中有9个被误判为没有患病,占25.71%;总的错判率为(26+9)/125=28%。说明用此Logistic回归模型和ROC预测准则来对新观测值进行预测还是比较可行的。对余下的66个观测值进行预测,其预测值与真实值之间的列联表又如下表所示:表11 预测数据的预测值与真实值的列联表从表中可以看到:在没有患病的47个观测值中,有18个被错判为患病,占38.30%;在患病的19个观测值中有10个被误判为没有患病,占53.63%;总的错判率为(18+10)/66=42.42%。此时得到的误判率较高,可能是余下的数据中存在着异常值,或是其他未被选入模型的变量产生了很大的影响等因素造成的。五、结论通过上面对模型的诊断、补救、检
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026届广东省惠城市惠城区八校物理九年级第一学期期末学业水平测试模拟试题含解析
- 2026届河南省鹤壁市淇县物理九上期中经典试题含解析
- 湖北省黄冈市名校2026届九年级物理第一学期期中复习检测试题含解析
- 2026届新疆阿克苏沙雅县物理八年级第一学期期末调研试题含解析
- 山东省菏泽单县联考2026届九年级物理第一学期期中达标检测试题含解析
- 2026届吉林省长春新区物理九上期中学业水平测试试题含解析
- 河南省舞钢市2026届九年级物理第一学期期中学业水平测试试题含解析
- 福建省龙岩市上杭四中学2026届九年级物理第一学期期中质量检测试题含解析
- 广东省潮州市名校2026届八年级物理第一学期期末联考模拟试题含解析
- 2025年电子商务师职业资格考试《电商运营与营销》备考题库及答案解析
- 小学美术湘美版(2024)二年级上册(2024)教学设计(附目录)(2025秋编)
- 2025生产经营单位主要负责人和安全生产管理人员考试练习题及答案
- 2025年体育专业初级教练考试真题附答案
- 甲骨文课件设计思路
- 夜间施工安全教育培训课件
- 2025年1月浙江省高考化学试卷真题(含答案及解析)
- 设备预测性维护风险评估方案
- 中国资源循环集团招聘笔试题库2025
- 西班牙永久工作合同范本
- 2025年镗工技师职业技能鉴定模拟题库
- 2025年《行政执法》考试真题(附答案)
评论
0/150
提交评论