广义线性回归分析_第1页
广义线性回归分析_第2页
广义线性回归分析_第3页
广义线性回归分析_第4页
广义线性回归分析_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

多元统计分析方法TheMethodsofMultivariateStatisticalAnalysis主要的统计分析方法卡方分析分类型数值型回忆方差分析回归分析比较率比较均值依存关系反应变量异同点?方差分析分析效应因子A对反应变量Y的影响,即,分析效应因子A的不同水平对反应变量Y的作用差异。。男性和女性之间收缩压的差异。试验药和对照药之间的作用差异。大学生和运动员之间肺活量的差异方差分析的原理分解总体变异: SST=SSA+SSEY的总体变异被因子A所解释的部分残差舒张压性别回归分析分析自变量X对因变量Y的依存关系,即,分析自变量X改变一个单位时,因变量Y的改变量大小。。收缩压和胆固醇的依存关系。肺活量和体重的关系。污染物浓度和污染源距离之间的关系回归分析的原理分解总体变异: SST=SSX+SSEY的总体变异被自变量X所解释的部分残差舒张压胆固醇广义线性模型分析GeneralLinearModelAnalysis什么是广义线性模型分析?协方差分析广义线性回归分析主要内容第一节广义线性模型分析的概念广义线性模型分析是将方差分析和回归分析的基本原理结合起来,用来分析连续型因变量与任意型自变量之间各种关系的一种统计分析方法。其意义是使得方差分析和回归分析的实用性和准确性得到进一步提高。两个典型的广义线性模型分析方法协方差分析广义线性回归分析含有数值型自变量的方差分析含有分类型自变量的回归分析第二节协方差分析协方差分析是将方差分析原理和线性回归分析原理结合起来的一种方差分析方法。它消除了混杂变量(协变量)对因变量的影响,使得方差分析结果更加准确。。男性和女性之间收缩压的差异。试验药和对照药之间的作用差异。大学生和运动员之间肺活量的差异方差分析存在的问题:结果不够准确用方差分析结果来对下面问题作结论,合适吗?年龄用药前水平身高方差分析不够准确的原因:年龄身高SST=SSA+SSEY的总体变异被因子A所解释的部分残差随机误差混杂因子肺活量职业解决的办法处理效应Y效应因子A,B,C,…混杂因子X1,X2,…选取条件相同的样本在方差分析模型中加入混杂因子协方差分析消除混杂因子的影响一、协方差分析的原理分解总体变异: SST=SSA+SSX+SSEY的总体变异因子A所解释的部分混杂因子X所解释的部分随机误差舒张压性别年龄协变量二、方差分析和协方差分析的区别 区别(1):数据方差分析 协方差分析A Y A Y X1 y11 1 y11 x111 y12 1 y12 x12∶ ∶ ∶ ∶ ∶1 y1.n1 1 y1,n1 x1,n12 y21 2 y21 x212 y22 2 y22 x22∶ ∶ ∶ ∶ ∶2 y2,n2 2 y2,n2 x2,n2区别(2):模型方差分析模型协方差分析模型μi是组均值 μi是校正的组均值(groupmean) (adjustedgroupmean)εij是随机误差 εij是随机误差 β是协变量x对因变量y的影响在效应因子的每一个水平上,因变量y服从正态分布;方差相等。区别(3):假设条件在效应因子的每一个水平上,因变量y服从正态分布;方差相等;在效应因子的每一个水平上,因变量y和协变量x呈线性关系;斜率相同。方差分析协方差分析三、协方差分析的方法步骤检验数据是否满足假设条件:正态分布性方差齐性线性相关性平行性检验效应因子的显著性估计校正的组均值检验校正的组均值之间的差异【例6_1】为了研究两种药物对癫疯病菌的治疗效果,将30名病人随机分成3组,一组使用抗生素A,一组使用抗生素D,另一组作为对照组使用安慰剂。治疗前和治疗后分别对病人身体的癫疯病菌数量进行了检测,病菌的数量是由每一个病人身体上六个部位病菌感染的程度而定的,数据列在下表中。试对该试验研究进行统计分析。四、协方差分析的应用举例数据:解:这是一个完全随机设计资料。令x表示治疗前病人身体的癫疯病菌数量,y表示治疗后病人身体的癫疯病菌数量,drug表示用药方式,取值为A、D和F,分别表示使用抗生素A、抗生素D和安慰剂。首先建立SAS数据集dataeg6_1;doid=1to10;dodrug='A','D','F';inputxy@@;output;end;end;cards;116601613……301591220run;(一)检验协方差分析的4个假设条件是否满足(1)检验正态性:procsortdata=eg6_1;bydrug;run;procunivariatedata=eg6_1normal;vary;bydrug;run;(2)检验方差齐性:procdiscrimdata=eg6_1pool=test;classdrug;vary;run;(3)检验线性相关性:procregdata=eg6_1;modely=x;bydrug;run;(4)检验平行性:procglmdata=eg6_1;modely=drugxdrug*x;run;【SAS部分输出结果】(1)检验正态分布的结果:(H0:y服从正态分布) A组:W=0.928405,P=0.4166 D组:W=0.871798,P=0.1002 F组:W=0.972136,P=0.9023-------说明三个组的y值均近似服从正态分布。检验方差齐性的结果:(H0:方差相等)

Chi-Square=1.551005,DF=2,P=0.4605,

--------说明三个组的方差在统计意义上是相等的。注意,以上检验过程应逐条进行,若发现有不满足假设条件的,应当选取适当的变量变换,使之尽可能接近假设条件。检验线性相关性的结果:(H0:线性无关,H1:线性相关)

A组:F=11.23,df=(1,8),p=0.0101D组:F=39.24,df=(1,8),p=0.0002 F组:F=6.21,df=(1,8),p=0.0374 --------说明三个组上y与x均近似呈线性关系。检验平行性的结果:(H0:斜率相等)

F=0.59,df=(2,24),p=0.560,

--------说明三条直线近似平行。(二)假设条件满足后,再进行协方差分析:【SAS程序】procglm;classdrug;modely=drugx;lsmeansdrug/pdiff;run;【SAS输出结果】GeneralLinearModelsProcedureClassLevelInformationClassLevelsValuesDRUG3ADFNumberofobservationsindataset=30①DependentVariable:YSumofMeanSourceDFSquaresSquareFValuePr>FModel3871.49740304290.4991343518.100.0001Error26417.2025969616.04625373CorrectedTotal291288.70000000R-SquareC.V.RootMSEYMean0.67626150.706044.00577757.9000000②SourceDFTypeISSMeanSquareFValuePr>FDRUG2293.60000000146.800000009.150.0010X1577.89740304577.8974030436.010.0001③SourceDFTypeIIISSMeanSquareFValuePr>FDRUG268.5537106034.276855302.140.1384X1577.89740304577.8974030436.010.0001TforH0:Pr>|T|StdErrorofParameterEstimateParameter=0EstimateINTERCEPT-0.434671164B-0.180.86172.47135356DRUGA-3.446138280B-1.830.07931.88678065D-3.337166948B-1.800.08351.85386642F0.000000000B...X0.9871838116.000.00010.16449757LeastSquaresMeansDRUGYPr>|T|H0:LSMEAN(i)=LSMEAN(j)LSMEANi/j123A6.71496351.0.95210.0793D6.823934820.9521.0.0835F10.161101730.07930.0835.ThemeansandadjustedmeansmeansadjustedmeansDrugA 5.20 6.72DrugD 6.10 6.82DrugF 13.10 10.16均值和校正均值【结果解释】①模型的总体检验结果:p=0.0001,R2=0.676,说明模型有统计意义,即drug和x对y的联合作用是显著的。②TyepISS对参数的检验结果:因为drug排在协变量x之前,根据第一类SS定义,检验drug对y的影响效应时,没有对x进行校正。此结果说明,不考虑治疗前的病情状况,这三种治疗方法是有显著性区别的(p=0.0010)。③TyepIIISS对参数的检验结果。根据第三类SS定义,检验模型中每一个自变量时,都校正模型中的其它变量对y的影响。此结果说明,校正了治疗前的病情状况后,这三种治疗方法是没有显著性区别的(p=0.1384)。④给出了三个处理组的校正均值,即,校正了治疗前的病情状况后三个组的均值,以及每一对均值的差异比较。因为上面结果已经说明三种治疗方法没有显著性差别,因此不需要解释这一部分的结果。因为数据满足协方差分析的假设条件,因此,上述协方差分析结果是可靠的。协方差分析的意义可以消除多个混杂因素对处理效应的影响,得到校正均值;提高方差分析结果的准确性和真实性;医学研究中应用广泛,解决了很多条件不易控制的实验问题。协方差分析和随机区组设计的区别:随机区组设计资料的方差分析仅可以消除一个混杂因素(分类型变量)对因变量的影响;协方差分析可以消除多个混杂因素对因变量的影响。协方差分析在医学中的应用1)借助协方差分析来排除非处理因素的干扰,从而准确地估计处理因素的试验效应。2)协方差分析和方差分析一样,包括各种类型的模型,因此可以用来处理医学研究中各种不同设计资料的分析,例如,完全随机设计资料,随机区组设计资料等等。第三节广义线性回归分析广义线性回归分析是将线性回归分析原理和方差分析原理相结合起来的一种线性回归分析方法,它和线性回归分析的区别是模型的自变量可以是任意类型的变量。其主要目的是扩大线性回归分析的应用范围,使得它的应用价值得到进一步提高。广义线性回归分析的假设条件:因变量是连续随机变量;自变量相互独立;每一个数值型自变量与因变量呈线性关系;每一个数值型自变量与随机误差相互独立;观察个体的随机误差之间相互独立;随机误差{ei}~N(0,σ)。广义线性回归分析的应用举例【例6-2】为了解大学生中抑郁症的发病率极其原因,某医科大学临床系学生进行预防战略实习时,随机抽取了该市481名大学生进行调查。调查的内容包括测试抑郁症表现的34个问题(0=无,1=有时,2=经常,3=持续有)以及关于个人、家庭和学校的若干问题。如性别、年龄、身高、体重、父母文化程度、家庭月收入、父母是否离异、个人学习成绩、家庭气氛、对学校是否满意、对父母要求是否有压力、睡眠质量、有否经济压力、平时和同学关系、平时性格、社交能力、是否有知心朋友、有否恋爱困扰等问题。,其中,年龄、身高和体重是连续变量,其余都是顺序变量。数据经过整理,计算出34个问题的和,令其为因变量y,y值越大说明患抑郁症的可能性越大。其它问题作为自变量。经过初步分析,筛选出和y有显著线性关系的自变量以及年龄和性别两个重要变量,进行广义线性回归分析。进入模型的自变量是:年龄(x1:连续变量)、性别(x2:1=男,2=女)、家庭气氛(x3:1=和谐,2=一般,3=很差)、对所在学校和专业是否满意(x4:1=很满意,2=基本满意,3=不满意)、对父母的要求有压力吗(x5:1=无,2=有一点,3=很大)、平时睡眠质量如何(x6:1=很好,2=一般,3=很差)、平时性格如何(x7:1=开朗,2=稍微少语,3=内向)、有社交或人际交流的困难吗(x8:1=无,2=有一点,3=很多)、有否知心朋友(x9:1=有,2=无)。【SAS程序】procglmdata=eg6_2;classx2-x9;modely=x1-x9/ss3solution;run;【SAS输出结果】GeneralLinearModelsProcedureClassLevelInformationClassLevelsValuesX2212X33123X43123X53123X63123X73123X83123X9212Numberofobservationsindataset=481NOTE:Duetomissingvalues,only453observationscanbeusedinthisanalysis.①DependentVariable:YSumofMeanSourceDFSquaresSquareFValuePr>FModel1544160.7640502944.05093715.460.0001Error43783230.127782190.457958CorrectedTotal452127390.891832R-SquareC.V.RootMSEYMean

0.34665649.9097513.80065127.651214②SourceDFTypeIIISSMeanSquareFValuePr>FX1128.87971628.8797160.150.6972X2183.19109183.1910910.440.5090X323550.2025601775.1012809.320.0001X421395.001753697.5008763.660.0265X522181.6471921090.8235965.730.0035X6211579.3107655789.65538230.400.0001X721680.552471840.2762364.410.0127X822976.1810481488.0905247.810.0005X911885.6870511885.6870519.900.0018③TforH0:Pr>|T|StdErrorofParameterEstimateParameter=0EstimateINTERCEPT72.514969516.910.000110.49333179X10.178066940.390.69720.45728442X21-0.91539699-0.660.50901.3850665320.00000000...X31-10.68527474-2.840.00473.757465042-5.30141860-1.380.16893.8475300230.00000000...X41-5.18319904-2.520.01212.057988002-3.43902105-2.190.02911.5705183030.00000000...X51-7.67022601-3.020.00272.543674562-7.77699716-3.340.00092.3290327230.00000000...X61-19.13918032-7.600.00012.519560302-13.06747122-5.400.00012.4205980530.00000000

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论