数学建模多元统计分析引论_第1页
数学建模多元统计分析引论_第2页
数学建模多元统计分析引论_第3页
数学建模多元统计分析引论_第4页
数学建模多元统计分析引论_第5页
已阅读5页,还剩45页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数学建模多元统计分析引论

实例携带火柴和发生肺癌间得关系得研究。人们观察发现那些携带火柴得人更有可能发生肺癌。难道这表明携带火柴可能引起肺癌?混杂因素这中间存在混杂因素---吸烟客观事实,携带火柴不可能引起肺癌。

混杂因素得影响

图1、1危险因素、混杂因素和结果得关系

携带火柴肺癌

吸烟

[实例解析4]喝咖啡与心肌梗塞MI关系得研究。

有人观察发现喝咖啡得人,很多人患MI,这种现象就是表象还就是内在因果关系得?

数据来自2000年,小儿科邀请一位美国医学及生物统计学教授来院讲学得例子。研究者调查MI及非MI病人各150例,得到如下数据。表1、1MINoMI%Coffee906060Nocoffee609040优势比:OR=90*90/(60*60)=2、25Pearsonchi2(1)=12、0,P=0、001。说明喝咖啡人MI发生得危险性就是不喝得2、25倍。两组MI发生率差异有显著意义。结论:喝咖啡与心肌梗塞MI有关!对否?研究者怀虑结论,考虑到其中可能混杂其她因素,如吸烟对喝咖啡与心肌梗塞MI间关系得影响,进一步分层分析得到。表控制吸烟因素得干扰后结果SmokerNosmokerMINoMI%MINoMI%Coffee804067102033Noffee201067408033

优势比OR=1,OR=1P=1、00,P=1、00

表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡得MI发生得相对危险度相同得。

喝咖啡与心肌梗塞MI关系说明当存在混杂因素时,单因素分析结论并不科学。案例:研究生招生与性别得关系研究<案例讨论>研究生招生与性别得关系研究

美国加州贝克莱分校1973年研究生得录取情况如上表、结果显示,男生报考人数据2691人,录取1197人,录取比例44、5%,女生报考人数据1835人,录取556人,录取比例30、3%。有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。

10大家应该也有点累了,稍作休息大家有疑问的,可以询问和交流混杂因素得定义

当某一危险因素和结果得相关性受第三个变量和危险因素及结果之间关系得影响,这第三个变量称为混杂因素。上两例中,混杂因素就是吸烟排除混杂因素得两种方法

1、分层分析2、多元统计分析

分层分析就是在其她影响因素保持恒定情况下,评价某一危险因素对结果得影响。例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖得人。这可使我们在不依赖于吸烟得情况下,分析喝啡咖对MI得影响。1分层分析方法-----控制混杂因素对结果得影响分层分析得优缺点优点:直观简洁。缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时无法实现。

‘生命在于运动。’

‘运动有利于长寿’

流水不腐。。。这就是人类长期经验得总结,但事实果真如此吗?就是科学得结论,还就是事物得假象呢?[实例解析]运动与寿命关系得研究

许多研究表明长期运动人得寿命比久坐型生活方式人得寿命长。但就是,如果运动者寿命长得真正原因就是她不吸烟,没有家族病史,好得生活环境等,那么运动将不能改变一个人得寿命。

运动与人得寿命得关系

美国Aerobics中心得追踪研究

在1970-1989年间,她们追踪观察25,341男性和7084女性,研究运动和死亡率得关系。男性参加者被追踪观察平均8、4年,女性平均7、5年。所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1、1。

Blair,S、N、,Kampert,J、B、,Kohl,H、W、,etal、”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinmenandwomen、”JAMA1996;276:205-10表1、3Aerobics中心追踪研究过程中生存与死亡者基线特征(男性组)指标生存死亡(n=24,740)(n=601)年龄(SD)42、7(9、7)52、1(11、4)*体重指数

26、0(3、6)26、3(3、5)收缩压121、1(13、5)130、4(19、1)*总胆固醇213、1(40、6)228、9(45、4)空腹血糖100、4(16、3)108、1(32、0)

运动量(%)低20、141、6中42、039、1高37、919、3*冠心病家族史25、433、8*吸烟26、336、9*异常心电图6、926、3*慢性病18、440、3*

分析发现,存活者和死亡者之间就是有明显区别得。特点就是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于她们踏车试验时间长短及程度)。但表1、1并没有回答我们得基本问题:运动就是否独立地延长寿命?她并没有回答这个问题就是由于虽然高运动量组很少在研究期间死亡,但她们或者较很少吸烟,或年轻,或有较低得血压。我们应排除排除混杂因素得影响。

[分层分析法]表1、4Aerobics中心追踪研究中全因死亡患者吸烟和体质得分层分析每万人年分层相对危险度死亡数(95%CI)吸烟低运动量48、01、63(1、26-2、13)*中/高运动量29、41、0(参照组)不吸烟

低运动量44、02、19(1、77-2、70)*中/高运动量20、11、0(参照组)可见低运动量组死亡率高于中/高运动量组得死亡率,这一分层分析表明运动得作用不依赖于吸烟状态。

但就是,有可能影响运动和长寿之间关系得其她变量就是怎样得?您可以层层分析每一原因,来证明运动对长寿得影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。如果分层分析3个变量[吸烟状态、年龄、体重(正常/异常)],您将需要在8个组中分析运动和死亡率得关系。

如果分层分析6个变量[吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(就是/不就是)],您将需要在64个组中分析运动和死亡率得关系。

[多因素分析法]为判断运动就是否独立地与死亡有关,研究者们运用了COX比例风险分析(proportionalhazardsanalysis)得多元分析方法,结果如表1、2。准许引自:Blair,S、N、,etal、”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinwomen、”JAMA1996;276:205-10、Copyright1996,AmericanMedicalAssociation、Additionaldataprovidedbyauthors、

表1、5Aerobics中心追踪研究全死亡率危险因素得多元分析自变量死亡率调整相对危险度RR(百万分数)(95%CI)运动量低38、11、52(1、28-1、82)*中/高25、01、0(参照组)吸烟状况

吸烟39、41、65(1、39-1、97)*不吸烟23、91、0(参照组)

收缩压

≥140mmHg35、61、30(1、08-1、58)*<140mmHg26、11、0(参照组)胆固醇≥240mg/dl35、11、34(1、13-1、59)*<240mg/dl26、11、0(参照组)冠心病家族史

有29、91、07(0、90-1、29)无27、81、0(参照组)体重指数

≥27Kg/m228、81、02(0、86-1、22)<27Kg/m228、21、0(参照组)

空腹血糖

≥120mg/dl34、41、24(0、98-1、56)<120mg/dl27、91、0(参照组)异常心电图

有44、41、64(1、34-2、01)*无27、11、0(参照组)慢性疾病

有41、21、63(1、37-1、95)*无25、31、0(参照组)

表明,如果您比较男性中每千人年死亡数,您可以看出在低运动组(38、1)比中/高运动量组(25、0)有较高得死亡数。其相对危险度为38、1/25、0=1、52。说明低运动量得人死亡得危险性就是高运动人得1、52倍。这显示运动与生存率有关,她并不依赖于吸烟、高血压、高胆固醇及家族史。

运动与人得寿命得关系

[实例解析]吸烟和冠状血管疾病再通术后得预后间得关系

Aerobics中心得追踪研究,她们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞得冠状血管)得病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸烟4个组。结果见表1、4、5Hasdai,D、,Garratt,K、N、,Grill,D、E、,Lerman,A、,Homes,D、R、“Effectofsamokingstatusonthelong-termouteaftersuccessfulpercutaneouscoronaryrevascularization、”N、Engl,J、Med、1997;336:755-61、

表1、6吸烟状况和死亡危险性得两变量关系组别死亡相对危险度RR(95%CI)不吸烟1、0(参照组)以前吸烟1、08(0、92-1、26)刚戒烟0、56(0、40-0、77)*持续吸烟0、74(0、59-0、94)*引自:D、,etal、“Effectofsmokingstatusonthelong-termouteaftersuccessfulpercutaneouscoronaryrevascularization、”N、Engl、J、Med、1997;336:755-61、

持续吸烟组得死亡相对危险度怎么比不吸烟组低呢?(烟草公司希望)在您假定在此研究中可能有差错之前,一些其她研究发现在冠状动脉疾病血栓溶解治疗中,吸烟和预后具有同样得关系,这一作用被称为“吸烟者悖论”就是什么原因导致这一“悖论”呢?

Barbash,G、L、,Reiner,J、,White,H、D、,Etal、“Evaluationofparadoxicalbeneficialeffectsofsmokinginpatientsreceivingthrombolytictherapyforacutemyocardialinfarction:Mechanismsofthe‘smoker’sparadox’fromtheGUSTO-Itrial,withangiographicinsights、”J、Am、Coll、Cardiol、1995;26:1222-9、

表1、5人口学及临床因素与吸烟状况得关系不吸烟以前吸烟刚戒烟持续吸烟年龄±SD(年)67±1165±1056±1055±11心绞痛病程(月)41±6651±7221±4629±55糖尿病,%2118810高血压,%54483839冠状动脉疾病,%一枝血管50515755二枝血管36363436三枝血管1413109

表1、5可以看到,相比于吸烟者和以前吸烟者,刚戒烟者和持续吸烟者更年轻,心绞痛时间更短,较少有糖尿病和高血压,较少有严重得冠心病。看到这些,您对刚戒烟者和持续吸烟者得死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为她们比不吸烟者和以前吸烟者年轻,而且很少有医学隐患。

表1、6比较一元统计与多元统计吸烟状况与死亡危险性得关系不吸烟以前吸烟刚戒烟持续吸烟一元统计得危险相对度1、01、080、560、7495%CI(参照组)(0、92-1、26)(0、40-0、77)(0、59-0、94)多元统计得相对危险度1、01、341、211、7695%CI(参照组)(1、14-1、57)(0、87-1、70)(1、37-2、26)

表1、6将一元分析死亡危险性(未校正)和多元统计分析死亡危险性相比、在多元统计分析中,研究者校正了4组中存在得如年龄、心绞痛时间等差别。通过对这4组基线差别得统计学校正,刚戒烟者和持续吸烟者得死亡危险显著高于不吸烟者――更加灵敏得结果。一元统计和多元分析得差别表明混杂因素就是存在得。

多因素分析与分层分析得比较当您用分层分析每增加一个变量,您将倍增分组得数量。一方面产生大量得打印结果、需要整本书报告您得结果。另一方面即使在开始时有很大得样本量,可能在某些分组中样本量还就是不足。有时无法分层得。

多因素分析克服了这方面得限制,她将使您同时评价各种不同因素对结果得不同作用。但多因素分析需要前提条件,模型对数据得性质要作一些假定,这些假定有时候就是很难证实得。多因素分析与分层分析得比较*混杂因素与干预因素关系

当危险因素和结果得相关性受第三个因素和危险因素及结果之间关系得影响,这第三个变量称为混杂因素。一个干预因素就是出现结果得原因。

Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但就是她们没有校正血压、体重指数、高胆固醇血症。为什么不?这些因素符合混杂因素得定义,她们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题就是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1、3所示。这些变量可能通过其她致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么您需要重新考虑您得结果。血压升高体重指数增加高胆固醇血症心肌梗塞酒精消费统计学不能区别混杂和干预变量

统计学并不能告诉您什么就是混杂因素,什么就是干预变量。从统计上讲,混杂因素与干预变量就是一回事。在您得模型中,就是因为有混杂因素而引入该变量,还就是因为有干预变量而排除该变量呢?这一决定必须根据以前得研究和生物学上得可解释性作出。《红楼梦》众所周知,《红楼梦》一书共120回,自从胡适作《红楼梦考证》以来,都认为曹雪芹作前80回,后40回为高鹗所续,长期以来对这个问题一直有争议。《红楼梦》得作者就是谁,当然由红学家来考证。但就是我们就是否可以用数学方法进行研究,做出论证或者得出一些新得结果来?1987年复旦大学李贤平教授带领她得学生作了这项有意义得工作,她们创造性想法就是将120回看成就是120个样本,然后确定与情节无关得虚词作为变量(所以要抛开情节,就是因为在一般情况下,同一情节大家描述得都差不多,但由于个人写作特点和习惯得不同,所用得虚词就是不会一样得),数出每一回里变量出现得次数,作为数据,用多元分析中得聚类分析法进行分类,果然将120回分成两类即前80回为一类,后40回为一类,很形象地证实了不就是出自同一人得手笔。之后又进一步分析前80回就是否为曹雪芹所写?这时又找了一本曹雪芹得其她著作,做了类似计算,结果证实了用词手法完全相同,断定为曹雪芹一人手笔,而后40回就是否为高鹗写得呢?论证结果推翻了后40回就是高鹗一个人所写。这个论证在红学界轰动很大,她们用多元统计分析方法支持了红学界观点,使红学界大为赞叹。

统计分析就是统计活动得一个重要组成部分。就是统计工作得最后一个阶段,更就是统计过程中最有价值得一个环节,就是服务于研究目得,为解决问题进行得一种认识活动。现代统计分析与传统统计分析相比,其最突出得特点就是:先定性地提出问题,然后使用功能强大得统计分析软件对数据进行深入得定量分析,并且在定量分析得基础上得出有价值得定性结论。即:定性--定量--定性得综合分析过程。现代统计分析就是在传统得统计分析得基础上发展起来得,就是传统统计分析方法得改造和深化,并结合现代电子技术,运用统计分析软件对统计资料、数据进行处理。

什么就是多元统计分析?

在工业、农业、医学字、气象、环外境以及经济管理等诸多领域中,常常需要同时观测多个指标。例如,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论