应用回归分析期末-赵玢琳-10212681.docx_第1页
应用回归分析期末-赵玢琳-10212681.docx_第2页
应用回归分析期末-赵玢琳-10212681.docx_第3页
应用回归分析期末-赵玢琳-10212681.docx_第4页
应用回归分析期末-赵玢琳-10212681.docx_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

应用回归分析 论 文题目: 基于统计分析的医疗就诊人数探讨 姓 名 赵玢琳 学 院 理学院 专 业 数学与应用数学 班 级 2010214101班 学 号 10212681 班内序号 39 2012年12月25日基于统计分析的医疗就诊人数探讨【摘 要】本文主要应用统计回归的方法,分析影响医疗就诊人数的主要因素,并借助SPSS软件得出拟合模型。在筛选变量与修正模型后,得出医疗就诊人数主要与居民工资、医疗机构总数、环境噪声指数三方面因素成线性关系的结论,并针对结论对政府决策和医疗配置改进提出建议。本文的数据来源为深圳统计年鉴2011。在模型构建阶段,通过显著性分析和逐步回归相结合的手段增选变量。尝试对全模型和简化模型的残差做出解释,考察了异方差和自相关现象的存在性。并着重分析了异常点及变量间的多重共线性,对出现的严重多重共线性,本文采用主成分回归消除共线性并得出最后的拟合模型。在解释模型阶段,结合问题背景对模型的合理性做出解释,并分析了模型中部分偏离实际现象产生的原因。在论文的最后,还给出了本次回归分析的心得体会,强调了有序进行研究、多方法结合和联系实际的重要性。关键词:医疗就诊 残差分析 异常点 共线性诊断 主成分回归The discussion on medical attendance based on statistical analysisSummaryThis article applied statistical regression to analyze the main factors influencing medical attendance and used the SPSS software to the regression model. After the variables selection and model correction, the article drew the conclusion that medical attendance has a linear relationship with the total number of residents wages, medical institutions and environmental noise index mainly. Then it put forward a proposal about government decisions and configured medical improvements on this conclusion.The data source for the article is Shenzhen statistics yearbook. During the model fitting, it combined significance analysis and stepwise regression to select variables. Also, it tried to explain the residuals of full model and reduced model, and investigated the existence of heteroscedasticity and autocorrelation. Moreover, the article analyzed the outliers and multicollinearity around the variables. For the serious multicollinearity, the article used principal component regression to delete it and got the final model.As for the explanation of model, the article gave a reasonable explanation based on the problem background and tried to find the reasons why there were some parts beyond the actual phenomenon.In the final, the article talked about the work experience, stressing the importance of orderly research, multi-method and contacting with actual phenomenon.Keywords: Medical Attendance Residual Analysis Outliers Multicollinearity Detection Principal Component Regression【目 录】正文 41 问题背景 42 数据获取与筛选 43 拟合模型 53.1 变量检查 53.2 成对分析变量间关系 73.2.1 成对变量散点图 73.2.2 相关矩阵 83.2.3 共线性初探 93.3 全模型、简化模型及其残差解释 103.3.1 全模型回归 103.3.2 简化模型回归 113.3.3 简化模型残差分析 123.3.4 异常点的发现与处理 133.4 逐步回归增选变量 163.5 共线性诊断与主成分回归 173.5.1 共线性诊断 173.5.2 消除共线性主成分回归 183.5.3 残差分析 204 结论与解释 21总结与心得 23参考文献 24【正 文】1 问题背景根据我国现今国情,人口规模庞大仍然是一个热点问题,随之带来的资源配置不足也成为了亟待解决的难题。本文主要关心医疗事业的适应性发展,即构建“医院就诊人次”的分析回归模型,了解就诊人数与人口、环境、经济等因素的关系,以期对未来医疗配置的改进起指导作用。2 数据获取与筛选限于居民是否就诊及人口、环境、经济等因素有很强的地域差异性,本次建模回归中我们选取了“深圳”地区作为研究对象。基于深圳统计年鉴2011选取了1996-2010年医院就诊人数、总人口、工资、环境指标、卫生机构数等作为研究变量。具体数据如下:年份 Year医疗机构总诊疗人次(万人次)年末户籍人口户数 (万户) 年平均工资(元)卫生机构数合计(个)可吸入颗粒物年平均值(mg/m3)集中式饮用水水源地水质达标率(%)区域环境噪声平均值dB(A)1996196130.351450714220.13596.8581997182132.151653111260.09596.8157.21998194134.07183818990.09297.257.2199920503608798.157.12000217538.87230396830.05998.7357200124084106393.4556.12002268944.73282187610.06196.11562003305247.55306118930.0797.13562004351452.04319288560.07696.7156.12005405557.013247610630.06498.1156.22006517061.373510716920.06498.0756.52007595464.883879817810.06498.8656.5200868426706399.8756.42009754969.814672319630.05710056.82010791471.445045617690.05710056.7对列出的各项指标解释如下(同时列出各变量在SPSS软件中对应的符号Y、X1、X2等):Y :医疗机构总诊疗人次,为此次回归的因变量,通过诊疗人次可决定医疗资源的未来分配;X1 :年末户籍人口户数,某一地区的就诊人数与该地区的总人数必定有一定的联系,因此选为回归自变量;X2 :年平均工资,居民在患病时是否就医与其经济支付能力也有一定相关性,因此选为回归自变量;X3 :卫生机构数合计,医疗资源是否充足也会决定患病居民能否成功就诊,因此选为回归自变量;X4 :可吸入颗粒物年平均值,这一指标从一个侧面反映了环境污染程度,进而考察了环境水平对人体健康的影响;X5 :集中式饮用水水源地水质达标率,同X4,也为环境因素;X6 :区域环境噪声平均值,同X4、X5,为环境因素。3 拟合模型3.1 变量检查描述统计量N极小值极大值均值方差偏度统计量统计量统计量统计量统计量统计量标准误Y15182179143939.674770960.952.795.580X11530.3571.4449.9107209.634.172.580X215145075045630458.931.215E8.322.580X31568319631208.27227084.924.405.580X415.057.135.07380.0002.012.580X51593.45100.0097.73002.992-.794.580X61556.058.056.653.324.844.580通过上表可以看出,共有十五组数据。对比每个变量的最大值、最小值,X1、X3、X4、X5、X6的变化幅度都不是很大,尤其X6几乎无明显变化;变化幅度较大的Y和X2,经检验具体数据也可发现它们每年的涨幅比较大,不存在突变现象,所以也是适用的。而且观察均值栏可发现,它们一般处于最大、最小值的中间,是非常好的结论。由于各变量基本都是逐年(某些甚至是大幅度的)递增的数据,方差的大小对检验变量没有过多的参考价值。观察偏度系数,都保持在一个很小的水平,其标准误也很微小,则可以认为数据的对称性较好,无需做进一步数据变换。下边的直方图也可以直观的支持上述结论(为避免篇幅冗长,只列出部分):对于直方图中反映的各变量中较小数据比较大数据多的现象,分析数据来源,在1996-2010年间,是社会经济、科技不断发展的阶段,因此出现前期各项指标较低、后期短期内飞速发展,导致总体数据中,较小量占多数是合理的。再绘制Y与各自变量间的散点图,以下两幅值得注意:上面左图中,Y与X4的线性关系不明显,怀疑X4为不具有解释力的变量,具体是否将X4作为变量拟合模型,还需后续部分检验上面右图中,Y与X5可以看出存在正相关关系,但各个点分布较分散,仅用一条直线难以拟合得很好。但是还有其他变量共同拟合,在后续工作中根据增选变量情况,可以进一步看出X5是否能很好的同其余变量一起完成拟合,或是 X5可以被其余变量替代而被剔除。3.2 成对分析变量间关系 成对分析变量之间的关系可以对剔除无关变量、拟合模型的方法选择、共线性程度的初步了解提供有用的信息,下面从散点图、相关矩阵、共线性初探三个方面分析变量间的关系。3.2.1 成对变量散点图观察下边散点图(限于篇幅只列出提供重要信息的部分图): 上边左图表现了X1-X2极为明显的共线性,右图X1-X5也显示了正相关趋势; 上边两个图也显示了变量间的正相关关系。结合问题背景分析,人口、工资、环境、医疗设施等因素是紧密相连的,它们都适应着社会经济、科技、教育的发展,牵一发而动全身,因此存在或多或少的关联性是必然的。因此,在后边构建模型时,要进一步分析共线性,并采取相应的消除措施。3.2.2 相关矩阵相关性YX1X2X3X4X5X6Pearson 相关性Y1.000.964.962.853-.557.720-.256X1.9641.000.981.747-.684.645-.466X2.962.9811.000.695-.717.623-.483X3.853.747.6951.000-.139.667.134X4-.557-.684-.717-.1391.000-.288.759X5.720.645.623.667-.2881.000.170X6-.256-.466-.483.134.759.1701.000 通过上面相关性矩阵也可以看出,部分变量之间的相关性高达0.8-0.9,再一次验证了线性相关的存在,下边分析与多重共线性相关的几个统计量,以期对共线性程度有大致了解。3.2.3 共线性初探 此处只是大致对共线性程度做一了解,具体的共线性分析及解决在增选变量后的“3.5”部分会做详细说明。共线性诊断a模型维数特征值条件索引方差比例(常量)X1X2X3X4X5X6116.7081.000.00.00.00.00.00.00.002.2245.471.00.00.00.01.02.00.003.06110.464.00.00.00.11.03.00.004.00634.687.00.01.17.25.83.00.005.00170.547.00.56.76.09.05.00.0068.063E-5288.419.07.00.00.03.01.48.0075.849E-61070.908.93.43.06.52.06.521.00a. 因变量: Y上述特征值中,接近于0的有两个;条件数在10-100间的有三个,大于100的有两个;方差比例的第七行显示常量与X2的共线性、第五行显示了X1与X2的共线性,与散点图吻合。模型非标准化系数共线性统计量B标准 误差容差VIF1(常量)-35181.1789003.610X122.83720.892.01664.448X2.145.019.03231.139X3.978.268.08711.504X4-1772.2044028.677.1985.053X5-8.60447.485.2104.752X6588.718208.749.1019.947上表中X1、X2、X3显示出了10以上的VIF值,表明变量间的多重共线性还是很严重的。在3.4、3.5部分会着重异常值和共线性的处理。以下是岭回归结果,此处只是简单分析,后面的拟合过程,主要采用了主成分回归法消除共线性(详见部分“3.5.2 共线性消除主成分回归)3.3 全模型、简化模型及其残差解释3.3.1 全模型回归全模型:Y=0+1X1+2X2+3X3+4X4+5X5+6X6+做Y与各自变量的线性回归,部分输出结果如下:模型汇总b模型RR 方调整 R 方标准 估计的误差1.999a.998.996140.986a. 预测变量: (常量), X6, X3, X5, X4, X2, X1。b. 因变量: Y 通过上表可以看出,R2接近为1,但是不能因此得出回归模型很好的结论,还需进一步分析得到隐藏于变量中的其他关系。模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-35181.1789003.610-3.907.004X122.83720.892.1511.093.306X2.145.019.7327.602.000X3.978.268.2133.648.007X4-1772.2044028.677-.017-.440.672X5-8.60447.485-.007-.181.861X6588.718208.749.1532.820.022 上表中给出了全模型的 t 检验及 F 检验的 p 值,根据t值较小以及若Sig=0.05就删除变量的原则,需要剔除变量X1、X4、X5,进而得到简化模型3.3.2 简化模型回归简化模型:Y=0+2X2+3X3+6X6+模型RR 方调整 R 方标准 估计的误差1.999a.997.996133.189a. 预测变量: (常量), X6, X3, X2。b. 因变量: Y简化模型的回归结果显示R2仍然较大,但较之全模型有比较细微的减小。模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-28785.2246124.217-4.700.001X2.168.008.84922.045.000X31.135.156.2487.279.000X6462.996107.246.1214.317.001 此时三个变量的Sig值均很小,表明与Y显著相关,可以选作回归变量。得到的简化模型如下:Y=-28785.224+0.168X2+1.135X3+462.996X6 下面对简化模型的残差尝试性解释,并做数据异常点(高杠杆值、强影响点等)的发现、解释与处理。3.3.3 简化模型残差分析观察下述残差关于自变量的散点图:从以上三个散点图的趋势上,看不到明显的“漏斗形”和“类正余弦”图线,则可以认为在该简化模型的残差中不存在明显的异方差和自相关现象。因此可省略加权最小二乘步骤,也可以通过以下P-P图考察残差特性:3.3.4 异常点的发现与处理a) Cook距离 通过SPSS计算得到Cook距离如下:年份 YearCooks Distance19960.898819970.0290519980.0629619990.142820000.0601720010.0057120020.0198820030.2576820040.0009720050.0474420060.0058320070.0057220080.1124820090.0237620100.07455 当Cook1时认为可能存在异常点。在上表中,第一行(1996年)数据的Cook距离远大于其他年份,且Cook=0.8988比较接近1,因此通过Cook距离判定,初步怀疑这一年的数据存在相对于Y值的异常点。b) 杠杆值通过SPSS计算得到中心化杠杆值及对应计算的原始杠杆值如下:年份 YearCentered Leverage ValueLeverage Value19960.466490.53319970.200420.26719980.110240.17719990.219670.28620000.243260.31接前表:20010.139680.20620020.147970.21520030.121580.18820040.101630.16820050.049090.11620060.193930.26120070.160320.22720080.140830.20720090.243810.3120100.461080.528当杠杆值2(p+1)/n时认为存在异常点,p+1=4,n=15,则可计算2(p+1)/n=0.5333。分析上表,第一行(1996年)数据的原始杠杆值为0.53,认为其存在关于X的异常;第十五行(2010年)数据的原始杠杆值为0.528,较为接近临界值,因此同样怀疑其存在异常点。为了使异常值的检验更加完备,下面用P-R图分析。c) P-R图分析年份 YearPR19961.14-12.5619970.362.5519980.21-33.1519990.4-18.8320000.456.6920010.260.4920020.272.0920030.23-6.3620040.20.0920050.13-14.5920060.350.3820070.290.4420080.26-12.0720090.451.5520101.123.08 红色箭头指示的两个点显示了异常,对比数据集,发现这两个点恰好为1996年和2010年的数据。分析异常点产生原因:综合以上三种分析方法,发现1996年的数据存在较明显的异常,2010年数据次之。分析异常点产生的原因,对比统计年鉴,认为此处不存在数据的录入失误,因此异常值是由问题背景引起的。1996年为“八五”时期末、“九五”时期初,正值经济转型的过渡时期,因此出现了与后续数据涨幅不匹配的情况;2010年为“十一五”时期末,国民经济迎来新的变革,因此也出现了较大的波动,如果我们能够将11、12年等后续数据加入数据集,可能就会消除部分异常。异常点处理方法 数据来源于2011年深圳年鉴,若想获取后续数据、增大数据集需要2012年及以后的年鉴,现阶段还没有发布。所以采用删除部分数据行的办法。考虑到拟合模型的目的是为了对未来的医疗合理配置进行预测,2010年的数据是反映变化趋势的重要部分,不能除去。而1996年的数据作为过去数据,且处于经济革新之前,可以除去,以减少模型建立的异常值。因此将1996年数据(第一行)除去,后续工作对剩余14组数据展开。3.4 逐步回归增选变量在“3.3”部分通过Sig值剔除了变量X1、X4、X5,下边用逐步回归的方法增选变量。输出结果如下:模型汇总模型RR 方调整 R 方标准 估计的误差1.972a.944.940539.3762.996b.992.990216.5313.999c.998.997118.020a. 预测变量: (常量), X2。b. 预测变量: (常量), X2, X3。c. 预测变量: (常量), X2, X3, X6。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)-2348.111473.522-4.959.000X2.203.014.97214.254.0002(常量)-2317.653190.132-12.190.000X2.138.010.66113.879.000X31.697.213.3797.966.0003(常量)-31230.6365562.474-5.615.000X2.163.007.77922.594.000X31.232.146.2768.413.000X6507.21397.564.1035.199.000a. 因变量: Y 从表格中可以看到模型三为最优,即选择变量X2、X3、X6,与“3.3”部分得到的结果一致,则在“3.3”中所做的一系列工作是有效可用的。后面的诊断与回归均是针对 Y 与变量X2、X3、X6间的关系展开。3.5 共线性诊断与主成分回归3.5.1 共线性诊断a) VIF模型非标准化系数标准系数tSig.共线性统计量B标准 误差试用版容差VIF1(常量)-31230.6365562.474-5.615.000X2.163.007.77922.594.000.1875.344X31.232.146.2768.413.000.2074.823X6507.21397.564.1035.199.000.5641.773 由上表可以看出,各VIF值并不是很大,因此还需借助其他方法进一步判断。b) 特征值判断共线性诊断a模型维数特征值条件索引方差比例(常量)X2X3X6113.8711.000.00.00.00.002.1105.942.00.02.10.003.02014.000.00.54.53.0041.620E-5488.8401.00.44.371.00a. 因变量: Y 在上表中,第四行数据的特征值接近于0,则可以判断变量间存在共线性。c) 条件数判断 同样观察“共线性诊断”表格,条件索引一栏中,第三行数据k在10-100之间,说明较强的共线性;第四行数据k在100以上,说明存在极强的共线性。d) 观察方差比例在“方差比例”一栏中,第四行的常量与X6方差比例同时为1.00,说明常数项与变量X6间存在多重共线性;第三行X2、X3方差比例同时为0.5左右,说明变量X2、X3间存在多重共线性。综合上述几种方法,得出该模型的几个变量反映了较强的多重共线性的结论,下边提出解决办法。3.5.2 消除共线性主成分回归消除共线性主要有三种方式,即:1)剔除变量;2)增加样本容量;3)回归系数有偏估计。在本模型中,经过前边一系列的变量筛选已经只剩余三个变量,且均显示出较好的显著性,再剔除变量显然是不可行的。而考虑数据来源,增大样本容量的新数据也无从获取。因此,采用回归系数有偏估计的方法消除共线性。在岭回归、主成分回归、偏最小二乘中选择主成分回归完成以下步骤:解释的总方差成份初始特征值提取平方和载入合计方差的 %累积 %合计方差的 %累积 %11.85761.88661.8861.85761.88661.88621.04834.92396.8091.04834.92396.8093.0963.191100.000提取方法:主成份分析。 由上表,当到第二个成分时,累计百分率已达96.809%,因此抽取两个主成分。通过Fac1_1和Fac2_1计算主成分,即:prin1=sqrt(1)* Fac1_1, 1=1.857prin2=sqrt(2)* Fac2_1, 2=1.048计算数据如下:年份 YearFac1_1Fac2_1prin1prin21997-1.045061.34458-1.42-1.071998-1.17851.17171-1.61-1.211999-1.238030.80328-1.69-1.272000-1.090770.58389-1.49-1.122001-0.59255-1.23626-0.81-0.612002-0.40586-1.42529-0.55-0.422003-0.15451-1.34399-0.21-0.162004-0.16018-1.17416-0.22-0.1620050.03868-0.825270.050.0420060.692670.221670.940.7120070.966210.264971.320.9920081.259110.053451.721.2920091.440130.962351.961.4720101.468650.5990621.5现在用Y对前两个主成分prin1和prin2做普通最小二乘回归:模型汇总模型RR 方调整 R 方标准 估计的误差1.980a.960.956458.362a. 预测变量: (常量), prin2。系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)4081.000122.50233.314.000prin22099.925124.181.98016.910.000a. 因变量: Y其中prin1在回归时被自动排除。得主成分回归方程为:Y=4081.000+0prin1+2099.925prin2 再分别用两个主成分prin1和prin2做因变量,以三个原始自变量为自变量做线性回归:系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)23.029.000.X26.826E-5.000.525.X3.001.000.489.X6-.474.000-.155.a. 因变量: prin1系数a模型非标准化系数标准系数tSig.B标准 误差试用版1(常量)17.300.0002.813E7.000X25.128E-5.000.5256.424E7.000X3.001.000.4896.296E7.000X6-.356.000-.155-3.301E7.000 prin1=23.029+(6.826*10-5)X2+0.001X3-0.474X6prin2=17.300+(5.128*10-5)X2+0.001X3-0.356X6还原后的主成分回归方程为:Y=40409.7025.+ 0.10768X2+2.1X3-747.5733X63.5.3 残差分析由于我们对数据做了合理性删除和主成分回归法的新模型构建,因此需要重新做残差分析。利用模型Y=40409.7025.+ 0.10768X2+2.1X3-747.5733X6 及原始数据Y值得到残差Rec,绘制残差关于各变量散点图如下:没有明显异常(自相关、异方差),将上模型作为最终回归结论。4 结论与解释经过上述一系列工作,得到的最终模型是:Y=40409.7025.+ 0.10768X2+2.1X3-747.5733X6下面结合问题背景对拟合模型做解释,各变量意义及变化范围如下:Y :医疗机构总诊疗人次(数值范围2000-8000左右)X2 :年平均工资(数值范围15000-50000左右)X3 :卫生机构数合计(数值范围700-2000左右)X6 :区域环境噪声平均值(数值范围50左右)经过变量的筛选,深圳医疗就诊人数与工资、卫生机构数、环境噪声有很大关联。这也恰好反映了目前“诊疗费高、部分百姓负担困难”、“医疗设施不足

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论