版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数学建模多元统计分析引论第一页,共五十八页,编辑于2023年,星期三统计软件的重要作用“计算机软件给统计学带来革命性变化”发表论文或进行科研课题时,注明统计软件和采用的统计分析方法.统计分析工具的选择:CHISSSAS,SPSS,STATA第二页,共五十八页,编辑于2023年,星期三
实例
携带火柴和发生肺癌间的关系的研究。人们观察发现那些携带火柴的人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?混杂因素这中间存在混杂因素---吸烟客观事实,携带火柴不可能引起肺癌。第三页,共五十八页,编辑于2023年,星期三
混杂因素的影响
图1.1危险因素、混杂因素和结果的关系
携带火柴肺癌
吸烟第四页,共五十八页,编辑于2023年,星期三
[实例解析4]喝咖啡与心肌梗塞MI关系的研究。
有人观察发现喝咖啡的人,很多人患MI,这种现象是表象还是内在因果关系的?
数据来自2000年,小儿科邀请一位美国医学及生物统计学教授来院讲学的例子。第五页,共五十八页,编辑于2023年,星期三
研究者调查MI及非MI病人各150例,得到如下数据。表1.1MINoMI%Coffee906060Nocoffee609040优势比:OR=90*90/(60*60)=2.25Pearsonchi2(1)=12.0,P=0.001。说明喝咖啡人MI发生的危险性是不喝的2.25倍。两组MI发生率差异有显著意义。结论:喝咖啡与心肌梗塞MI有关!对否?第六页,共五十八页,编辑于2023年,星期三
研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞MI间关系的影响,进一步分层分析得到。表控制吸烟因素的干扰后结果SmokerNosmokerMINoMI%MINoMI%Coffee804067102033Noffee201067408033
优势比OR=1,OR=1P=1.00,P=1.00第七页,共五十八页,编辑于2023年,星期三
表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。
喝咖啡与心肌梗塞MI关系说明当存在混杂因素时,单因素分析结论并不科学。第八页,共五十八页,编辑于2023年,星期三案例:研究生招生与性别的关系研究第九页,共五十八页,编辑于2023年,星期三<案例讨论>研究生招生与性别的关系研究
美国加州贝克莱分校1973年研究生的录取情况如上表.结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。
第十页,共五十八页,编辑于2023年,星期三混杂因素的定义当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。上两例中,混杂因素是吸烟第十一页,共五十八页,编辑于2023年,星期三排除混杂因素的两种方法
1、分层分析2、多元统计分析第十二页,共五十八页,编辑于2023年,星期三
分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。
1分层分析方法-----控制混杂因素对结果的影响第十三页,共五十八页,编辑于2023年,星期三分层分析的优缺点优点:直观简洁。缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时无法实现。第十四页,共五十八页,编辑于2023年,星期三
‘生命在于运动。’
‘运动有利于长寿’
流水不腐。。。这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?[实例解析]运动与寿命关系的研究第十五页,共五十八页,编辑于2023年,星期三
许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。
运动与人的寿命的关系第十六页,共五十八页,编辑于2023年,星期三
美国Aerobics中心的追踪研究
在1970-1989年间,它们追踪观察25,341男性和7084女性,研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年,女性平均7.5年。所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1.1。
Blair,S.N.,Kampert,J.B.,Kohl,H.W.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinmenandwomen.”JAMA1996;276:205-10第十七页,共五十八页,编辑于2023年,星期三表1.3Aerobics中心追踪研究过程中生存与死亡者基线特征(男性组)指标生存死亡(n=24,740)(n=601)年龄(SD)42.7(9.7)52.1(11.4)*体重指数
26.0(3.6)26.3(3.5)收缩压121.1(13.5)130.4(19.1)*总胆固醇213.1(40.6)228.9(45.4)空腹血糖100.4(16.3)108.1(32.0)第十八页,共五十八页,编辑于2023年,星期三
运动量(%)低20.141.6中42.039.1高37.919.3*冠心病家族史25.433.8*吸烟26.336.9*异常心电图6.926.3*慢性病18.440.3*第十九页,共五十八页,编辑于2023年,星期三
分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长短及程度)。但表1.1并没有回答我们的基本问题:运动是否独立地延长寿命?它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。我们应排除排除混杂因素的影响。第二十页,共五十八页,编辑于2023年,星期三
[分层分析法]表1.4Aerobics中心追踪研究中全因死亡患者吸烟和体质的分层分析每万人年分层相对危险度死亡数(95%CI)吸烟低运动量48.01.63(1.26-2.13)*中/高运动量29.41.0(参照组)不吸烟
低运动量44.02.19(1.77-2.70)*中/高运动量20.11.0(参照组)可见低运动量组死亡率高于中/高运动量组的死亡率,这一分层分析表明运动的作用不依赖于吸烟状态。第二十一页,共五十八页,编辑于2023年,星期三
但是,有可能影响运动和长寿之间关系的其它变量是怎样的?你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。如果分层分析3个变量[吸烟状态、年龄、体重(正常/异常)],你将需要在8个组中分析运动和死亡率的关系。
如果分层分析6个变量[吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是/不是)],你将需要在64个组中分析运动和死亡率的关系。第二十二页,共五十八页,编辑于2023年,星期三
[多因素分析法]为判断运动是否独立地与死亡有关,研究者们运用了COX比例风险分析(proportionalhazardsanalysis)的多元分析方法,结果如表1.2。准许引自:Blair,S.N.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinwomen.”JAMA1996;276:205-10.Copyright1996,AmericanMedicalAssociation.Additionaldataprovidedbyauthors.
第二十三页,共五十八页,编辑于2023年,星期三
表1.5Aerobics中心追踪研究全死亡率危险因素的多元分析自变量死亡率调整相对危险度RR(百万分数)(95%CI)运动量低38.11.52(1.28-1.82)*中/高25.01.0(参照组)吸烟状况
吸烟39.41.65(1.39-1.97)*不吸烟23.91.0(参照组)第二十四页,共五十八页,编辑于2023年,星期三
收缩压
≥140mmHg35.61.30(1.08-1.58)*<140mmHg26.11.0(参照组)胆固醇≥240mg/dl35.11.34(1.13-1.59)*<240mg/dl26.11.0(参照组)冠心病家族史
有29.91.07(0.90-1.29)无27.81.0(参照组)体重指数
≥27Kg/m228.81.02(0.86-1.22)<27Kg/m228.21.0(参照组)第二十五页,共五十八页,编辑于2023年,星期三
空腹血糖
≥120mg/dl34.41.24(0.98-1.56)<120mg/dl27.91.0(参照组)异常心电图
有44.41.64(1.34-2.01)*无27.11.0(参照组)慢性疾病
有41.21.63(1.37-1.95)*无25.31.0(参照组)第二十六页,共五十八页,编辑于2023年,星期三
表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52倍。这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。
运动与人的寿命的关系第二十七页,共五十八页,编辑于2023年,星期三
[实例解析]吸烟和冠状血管疾病再通术后的预后间的关系
Aerobics中心的追踪研究,他们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞的冠状血管)的病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸烟4个组。结果见表1.4.5Hasdai,D.,Garratt,K.N.,Grill,D.E.,Lerman,A.,Homes,D.R.“Effectofsamokingstatusonthelong-termoutcomeaftersuccessfulpercutaneouscoronaryrevascularization.”N.Engl,J.Med.1997;336:755-61.第二十八页,共五十八页,编辑于2023年,星期三
表1.6吸烟状况和死亡危险性的两变量关系组别死亡相对危险度RR(95%CI)不吸烟1.0(参照组)以前吸烟1.08(0.92-1.26)刚戒烟0.56(0.40-0.77)*持续吸烟0.74(0.59-0.94)*引自:D.,etal.“Effectofsmokingstatusonthelong-termoutcomeaftersuccessfulpercutaneouscoronaryrevascularization.”N.Engl.J.Med.1997;336:755-61.第二十九页,共五十八页,编辑于2023年,星期三
持续吸烟组的死亡相对危险度怎么比不吸烟组低呢?(烟草公司希望)在你假定在此研究中可能有差错之前,一些其它研究发现在冠状动脉疾病血栓溶解治疗中,吸烟和预后具有同样的关系,这一作用被称为“吸烟者悖论”是什么原因导致这一“悖论”呢?
Barbash,G.L.,Reiner,J.,White,H.D.,Etal.“Evaluationofparadoxicalbeneficialeffectsofsmokinginpatientsreceivingthrombolytictherapyforacutemyocardialinfarction:Mechanismsofthe‘smoker’sparadox’fromtheGUSTO-Itrial,withangiographicinsights.”J.Am.Coll.Cardiol.1995;26:1222-9.第三十页,共五十八页,编辑于2023年,星期三
表1.5人口学及临床因素与吸烟状况的关系不吸烟以前吸烟刚戒烟持续吸烟年龄±SD(年)67±1165±1056±1055±11心绞痛病程(月)41±6651±7221±4629±55糖尿病,%2118810高血压,%54483839冠状动脉疾病,%一枝血管50515755二枝血管36363436三枝血管1413109第三十一页,共五十八页,编辑于2023年,星期三
表1.5可以看到,相比于吸烟者和以前吸烟者,刚戒烟者和持续吸烟者更年轻,心绞痛时间更短,较少有糖尿病和高血压,较少有严重的冠心病。看到这些,你对刚戒烟者和持续吸烟者的死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为他们比不吸烟者和以前吸烟者年轻,而且很少有医学隐患。第三十二页,共五十八页,编辑于2023年,星期三
表1.6比较一元统计与多元统计吸烟状况与死亡危险性的关系不吸烟以前吸烟刚戒烟持续吸烟一元统计的危险相对度1.01.080.560.7495%CI(参照组)(0.92-1.26)(0.40-0.77)(0.59-0.94)多元统计的相对危险度1.01.341.211.7695%CI(参照组)(1.14-1.57)(0.87-1.70)(1.37-2.26)第三十三页,共五十八页,编辑于2023年,星期三
表1.6将一元分析死亡危险性(未校正)和多元统计分析死亡危险性相比.在多元统计分析中,研究者校正了4组中存在的如年龄、心绞痛时间等差别。通过对这4组基线差别的统计学校正,刚戒烟者和持续吸烟者的死亡危险显著高于不吸烟者――更加灵敏的结果。一元统计和多元分析的差别表明混杂因素是存在的。第三十四页,共五十八页,编辑于2023年,星期三
多因素分析与分层分析的比较当你用分层分析每增加一个变量,你将倍增分组的数量。一方面产生大量的打印结果、需要整本书报告你的结果。另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。第三十五页,共五十八页,编辑于2023年,星期三
多因素分析克服了这方面的限制,它将使你同时评价各种不同因素对结果的不同作用。但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假定有时候是很难证实的。多因素分析与分层分析的比较第三十六页,共五十八页,编辑于2023年,星期三*混杂因素与干预因素关系
当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。一个干预因素是出现结果的原因。第三十七页,共五十八页,编辑于2023年,星期三
Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但是他们没有校正血压、体重指数、高胆固醇血症。为什么不?这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。第三十八页,共五十八页,编辑于2023年,星期三血压升高体重指数增加高胆固醇血症心肌梗塞酒精消费第三十九页,共五十八页,编辑于2023年,星期三统计学不能区别混杂和干预变量
统计学并不能告诉你什么是混杂因素,什么是干预变量。从统计上讲,混杂因素与干预变量是一回事。在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该变量呢?这一决定必须根据以前的研究和生物学上的可解释性作出。第四十页,共五十八页,编辑于2023年,星期三《红楼梦》众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,都认为曹雪芹作前80回,后40回为高鹗所续,长期以来对这个问题一直有争议。《红楼梦》的作者是谁,当然由红学家来考证。但是我们是否可以用数学方法进行研究,做出论证或者得出一些新的结果来?第四十一页,共五十八页,编辑于2023年,星期三1987年复旦大学李贤平教授带领他的学生作了这项有意义的工作,他们创造性想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的),数出每一回里变量出现的次数,作为数据,用多元分析中的聚类分析法进行分类,果然将120回分成两类即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。第四十二页,共五十八页,编辑于2023年,星期三之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定为曹雪芹一人手笔,而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写。这个论证在红学界轰动很大,他们用多元统计分析方法支持了红学界观点,使红学界大为赞叹。
第四十三页,共五十八页,编辑于2023年,星期三
统计分析是统计活动的一个重要组成部分。是统计工作的最后一个阶段,更是统计过程中最有价值的一个环节,是服务于研究目的,为解决问题进行的一种认识活动。现代统计分析与传统统计分析相比,其最突出的特点是:先定性地提出问题,然后使用功能强大的统计分析软件对数据进行深入的定量分析,并且在定量分析的基础上得出有价值的定性结论。即:定性--定量--定性的综合分析过程。现代统计分析是在传统的统计分析的基础上发展起来的,是传统统计分析方法的改造和深化,并结合现代电子技术,运用统计分析软件对统计资料、数据进行处理。
第四十四页,共五十八页,编辑于2023年,星期三什么是多元统计分析?
在工业、农业、医学字、气象、环外境以及经济管理等诸多领域中,常常需要同时观测多个指标。例如,要衡量一个地区的经济发展,需观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。第四十五页,共五十八页,编辑于2023年,星期三在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。第四十六页,共五十八页,编辑于2023年,星期三如何同时对多个随机变量的观测数据进行有效地分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律。第四十七页,共五十八页,编辑于2023年,星期三如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。为提高科学性、可靠性,通常需要定性与定量分析相结合。实践证明,多元分析是实现做定量分析的有效工具。第四十八页,共五十八页,编辑于2023年,星期三(一)研究对象以及主要内容研究对象多元分析是以多维随机变量的内在联系及统计规律为其研究对象。是统计中讨论多维随机变量的统计方法的总称。主要内容从形式上看,一类是单变量常用的统计方法在多维随机变量情况下的应用;另一类是对多维变量本身进行研究的一些特殊方法。第四十九页,共五十八页,编辑于2023年,星期三具体内容包括
多元回归分析主成分分析因子分析聚类分析判别分析对应分析典型相关分析时间序列分析马尔科夫概型分析第五十页,共五十八页,编辑于2023年,星期三一元统计与多元统计简单比较主要内容一元多元随机变量一维随机变量多维随机变量统计分布一元分布多元分布参数估计似然估计、最小二乘估计
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年常德烟机校招专属考试题库及参考答案
- 2021中信金融业务面试踩坑避坑指南+真题及答案
- 2024黑职院综评面试备考指南 含高频考题及标准答案
- 2026年六下 利率 测试题及答案
- 2026年中国名著情商测试题及答案
- 2025年CFA二级《投资组合管理》新考纲专属模拟题无冗余考点
- 2024济宁中考英语真题及答案附新题型专项解析
- 2023智联招聘职业胜任力测试题及高分适配答案
- 员工聘用协议书
- 室内游乐场所复工申请书
- 电梯机房钻孔协议书范本
- 腰椎疑难病例讨论
- 少儿航空科普教育
- 法院司法礼仪培训课件
- T/CEPPEA 5028-2023陆上风力发电机组预应力预制混凝土塔筒施工与质量验收规范
- 语音主播签约合同协议
- 不良资产处置试题及答案
- 智慧树知到《大学生心理健康》(吉林大学)见面课、章节测试、期末考试答案
- 聚羧酸减水剂工艺流程
- 离心泵检修培训
- 中信证券2024年综合金融服务协议版B版
评论
0/150
提交评论