数学建模_多元统计分析引论_第1页
数学建模_多元统计分析引论_第2页
数学建模_多元统计分析引论_第3页
数学建模_多元统计分析引论_第4页
数学建模_多元统计分析引论_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、SPSS统计软件的重要作用 “计算机软件给统计学带来革命性变化” 发表论文或进行科研课题时,注明统计软件和采用的统计分析方法. 统计分析工具的选择: CHISS SAS, SPSS,STATA 实例实例 携带火柴和发生肺癌间的关系的研究。 人们观察发现那些携带火柴的人更有可能发生肺癌。 难道这表明携带火柴可能引起肺癌? 这中间存在混杂因素-吸烟 客观事实,携带火柴不可能引起肺癌。 混杂因素的影响混杂因素的影响 图1.1 危险因素、混杂因素和结果的关系携带火柴 肺癌 吸烟 实例解析实例解析4 喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系的研究。关系的研究。 有人观察发现喝咖啡的人,很多人患有人观察发

2、现喝咖啡的人,很多人患MI,这种现象是表象还是内在因果关系的?这种现象是表象还是内在因果关系的? 数据来自数据来自2000年,小儿科邀请一位美国医学及生物统计年,小儿科邀请一位美国医学及生物统计学教授来院讲学的例子。学教授来院讲学的例子。 研究者调查研究者调查MI及非及非MI病人各病人各150例,得到例,得到如下数据。表如下数据。表1.1 MI NoMI %Coffee 90 60 60No coffee 60 90 40 优势比优势比 : OR=90*90/(60*60)=2.25 Pearson chi2(1) = 12.0,P = 0.001。 说明喝咖啡人MI发生的危险性是不喝的2.2

3、5倍。 两组MI发生率差异有显著意义。 结论:喝咖啡与心肌梗塞MI有关!对否? 研究者怀虑结论,考虑到其中可能混杂其研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞它因素,如吸烟对喝咖啡与心肌梗塞MI间关系间关系的影响,进一步分层分析得到。的影响,进一步分层分析得到。表表 控制吸烟因素的干扰后结果控制吸烟因素的干扰后结果 Smoker Nosmoker MI NoMI % MI NoMI %Coffee 80 40 67 10 20 33 Noffee 20 10 67 40 80 33 优势比优势比 OR=1 , OR=1 P = 1.00, P = 1.00 表明,在吸

4、烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。 喝咖啡与心肌梗塞喝咖啡与心肌梗塞MI关系关系说明当存在混杂因素时说明当存在混杂因素时,单因素单因素分析结论并不科学。分析结论并不科学。案例案例: :研究生招生与性别的关系研究研究生招生与性别的关系研究案例讨论研究生招生与性案例讨论研究生招生与性别的关系研究别的关系研究 美国加州贝克莱分校1973年研究生的录取情况如上表. 结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。 有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。 混杂因素的定

5、义混杂因素的定义 当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。l上两例中,混杂因素是吸烟排除混杂因素的两种方法 1、分层分析、分层分析 2、多元统计分析、多元统计分析 分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。 例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。 1 分层分析方法 -控制混杂因素对结果的影响分层分析的优缺点 优点:直观简洁。 缺点:当考虑因素较多时分组数量倍增, 需要例数较多,有时无法实现。 生命在于运动。 运动有利

6、于长寿 流水不腐。这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?实例解析实例解析运动与寿命关系的研究 许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。 但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。 运动与人的寿命的关系 美国美国Aerobics中心的追踪研究中心的追踪研究 在19701989年间,它们追踪观察25,341男性和7084女性, 研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年,女性平均7.5年。 所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动

7、量。结果如表1.1。 Blair, S.N., Kampert, J.B., Kohl, H.W., et al. ”Influences of cardiorespiratory fitness and other precursors on cardiovascular disease and all-cause mortality in men and women.” JAMA 1996;276:205-10表1.3 Aerobics 中心追踪研究过程中生存与死亡者基线特征(男性组)指标 生存 死亡 (n=24,740) ( n=601) 年龄(SD) 42.7 (9.7) 52.1(1

8、1.4)* 体重指数 26.0 (3.6) 26.3 ( 3.5) 收缩压 121.1(13.5) 130.4(19.1)* 总胆固醇 213.1(40.6) 228.9(45.4) 空腹血糖 100.4(16.3) 108.1(32.0) l运动量(%)l 低 20.1 41.6l 中 42.0 39.1l 高 37.9 19.3*l 冠心病家族史 25.4 33.8*l 吸烟 26.3 36.9*l 异常心电图 6.9 26.3*l 慢性病 18.4 40.3* 分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长

9、短及程度)。 但表1.1并没有回答我们的基本问题: 运动是否独立地延长寿命? 它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。 我们应排除排除混杂因素 的影响。 分层分析法 表1.4 Aerobics 中心追踪研究中全因死亡患者吸烟和体质的分层分析 每万人年 分层相对危险度 死亡数 (CI) 吸烟 低运动量 48.0 1.63(1.26-2.13)* 中/高运动量 29.4 1.0(参照组) 不吸烟 低运动量 44.0 2.19(1.77-2.70)* 中/高运动量 20.1 1.0(参照组)可见低运动量组死亡率高于中/高运动量组的死亡

10、率,这一分层分析表明运动的作用不依赖于吸烟状态。 但是,有可能影响运动和长寿之间关系的其它变量是怎样的? 你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。 如果分层分析3个变量吸烟状态、年龄、体重(正常/异常),你将需要在8个组中分析运动和死亡率的关系。 如果分层分析6个变量吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是不是),你将需要在64个组中分析运动和死亡率的关系。 多因素分析法 为判断运动是否独立地与死亡有关,研究者们运用了COX比例风险分析(proportional hazards analysis)的多元分析方法

11、,结果如表1.2。准许引自: Blair, S.N.,et al. ”Influences of cardiorespiratory fitness and other precursors on cardiovascular disease and all-cause mortality in women.” JAMA 1996;276:205-10. Copyright 1996, American Medical Association. Additional data provided by authors. 表1.5 Aerobics 中心追踪研究全死亡率危险因素的多元分析自变量 死

12、亡率 调整相对危险度RR (百万分数) (95%CI)运动量 低 38.1 1.52(1.28-1.82)* 中/高 25.0 1.0(参照组)吸烟状况 吸烟 39.4 1.65(1.39-1.97)* 不吸烟 23.9 1.0(参照组) 收缩压 140 mmHg 35.6 1.30(1.08-1.58)* 140mmHg 26.1 1.0(参照组)胆固醇 240 mg/dl 35.1 1.34(1.13-1.59)* 240 mg/dl 26.1 1.0(参照组)冠心病家族史 有 29.9 1.07(0.90-1.29)无 27.8 1.0(参照组)体重指数 27 Kg/m2 28.8 1.

13、02(0.86-1.22) 27 Kg/m2 28.2 1.0(参照组) 空腹血糖 120 mg/dl 34.4 1.24(0.98-1.56) 120 mg/dl 27.9 1.0(参照组)异常心电图 有 44.4 1.64(1.34-2.01)*无 27.1 1.0(参照组) 慢性疾病 有 41.2 1.63(1.37-1.95)*无 25.3 1.0(参照组) 表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52倍。 这显示运动与生存率

14、有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。 运动与人的寿命的关系 实例解析 吸烟和冠状血管疾病再通术后的预后间的关系 Aerobics中心的追踪研究,他们追踪了5437例冠状血管疾病并接受再通手术(用线和球打开阻塞的冠状血管)的病人,将病人分为不吸烟、以前吸烟(至少在手术前6个月戒掉)、刚戒烟(因手术后刚戒掉)、及持续吸烟4个组。结果见表1.4.5 Hasdai, D., Garratt, K.N., Grill, D.E., Lerman, A., Homes, D.R. “Effect of samoking status on the long-term outcome afte

15、r successful percutaneous coronary revascularization.” N. Engl, J. Med. 1997;336:755-61. 表1.6 吸烟状况和死亡危险性的两变量关系 组别 死亡相对危险度RR ( 95%CI) 不吸烟 1.0 (参照组) 以前吸烟 1.08 (0.92-1.26) 刚戒烟 0.56 (0.40-0.77)* 持续吸烟 0.74 (0.59-0.94)*引自: D., et al. “Effect of smoking status on the long-term outcome after successful perc

16、utaneous coronary revascularization.” N. Engl. J. Med. 1997; 336:755-61. 持续吸烟组的死亡相对危险度怎么比不吸烟组低呢?(烟草公司希望) 在你假定在此研究中可能有差错之前,一些其它研究发现在冠状动脉疾病血栓溶解治疗中,吸烟和预后具有同样的关系,这一作用被称为“吸烟者悖论”是什么原因导致这一“悖论”呢? Barbash, G.L.,Reiner, J., White, H.D., Et al. “Evaluation of paradoxical beneficial effects of smoking in patien

17、ts receiving thrombolytic therapy for acute myocardial infarction: Mechanisms of the smokers paradox from the GUSTO-I trial, with angiographic insights.” J. Am. Coll. Cardiol. 1995;26:1222-9. 表1.5 人口学及临床因素与吸烟状况的关系 不吸烟 以前吸烟 刚戒烟 持续吸烟年龄SD (年) 6711 6510 5610 5511心绞痛病程 ( 月) 4166 5172 2146 2955糖尿病,% 21 18

18、 8 10高血压,% 54 48 38 39冠状动脉疾病,%一枝血管 50 51 57 55二枝血管 36 36 34 36三枝血管 14 13 10 9 表1.5可以看到,相比于吸烟者和以前吸烟者,刚戒烟者和持续吸烟者更年轻,心绞痛时间更短,较少有糖尿病和高血压,较少有严重的冠心病。看到这些,你对刚戒烟者和持续吸烟者的死亡率低于不吸烟者和以前吸烟者就不会奇怪了。因为他们比不吸烟者和以前吸烟者年轻,而且很少有医学隐患。 表1.6 比较一元统计与多元统计吸烟状况与死亡危险性的关系 不吸烟 以前吸烟 刚戒烟 持续吸烟一元统计的危险相对度 1.0 1.08 0.56 0.749 5%CI (参照组)

19、 (0.92-1.26) (0.40-0.77) (0.59-0.94)多元统计的相对危险度 1.0 1.34 1.21 1.769 5%CI ( 参照组) (1.14-1.57) (0.87-1.70) (1.37-2.26) 表1.6 将一元分析死亡危险性(未校正)和多元统计分析死亡危险性相比.在多元统计分析中,研究者校正了4组中存在的如年龄、心绞痛时间等差别。 通过对这4组基线差别的统计学校正,刚戒烟者和持续吸烟者的死亡危险显著高于不吸烟者更加灵敏的结果。一元统计和多元分析的差别表明混杂因素是存在的。 多因素分析与分层分析的比较 当你用分层分析每增加一个变量,你将倍增分组的数量。 一方面

20、产生大量的打印结果、需要整本书报告你的结果。 另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。 多因素分析克服了这方面的限制,它将使你同时评价各种不同因素对结果的不同作用。 但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假定有时候是很难证实的。多因素分析与分层分析的比较*混杂因素与干预因素关系 当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。 一个干预因素是出现结果的原因。 Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但是他们没有校正血

21、压、体重指数、高胆固醇血症。为什么不? 这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。 血压升高 体重指数增加 高胆固醇血症 心肌梗塞酒精消费统计学不能区别混杂和干预变量 统计学并不能告诉你什么是混杂因素,什么是干预变量。从统计上讲,混杂因素与干预变量是一回事。在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该

22、变量呢?这一决定必须根据以前的研究和生物学上的可解释性作出。 红楼梦 众所周知,众所周知,红楼梦红楼梦一书共一书共120120回,自从胡回,自从胡适作适作红楼梦考证红楼梦考证以来,都认为曹雪芹作以来,都认为曹雪芹作前前8080回,后回,后4040回为高鹗所续,长期以来对这回为高鹗所续,长期以来对这个问题一直有争议。个问题一直有争议。红楼梦红楼梦的作者是谁,的作者是谁,当然由红学家来考证。但是我们是否可以用当然由红学家来考证。但是我们是否可以用数学方法进行研究,做出论证或者得出一些数学方法进行研究,做出论证或者得出一些新的结果来?新的结果来? 1987年复旦大学李贤平教授带领他的学生作了这项有意

23、义的工作,他们创造性想法是将120回看成是120个样本,然后确定与情节无关的虚词作为变量(所以要抛开情节,是因为在一般情况下,同一情节大家描述的都差不多,但由于个人写作特点和习惯的不同,所用的虚词是不会一样的),数出每一回里变量出现的次数,作为数据,用多元分析中的聚类分析法进行分类,果然将120回分成两类即前80回为一类,后40回为一类,很形象地证实了不是出自同一人的手笔。之后又进一步分析前80回是否为曹雪芹所写?这时又找了一本曹雪芹的其它著作,做了类似计算,结果证实了用词手法完全相同,断定为曹雪芹一人手笔,而后40回是否为高鹗写的呢?论证结果推翻了后40回是高鹗一个人所写。这个论证在红学界轰

24、动很大,他们用多元统计分析方法支持了红学界观点,使红学界大为赞叹。 统计分析是统计活动的一个重要组成部分。是统计工作的最后一个阶段,更是统计过程中最有价值的一个环节,是服务于研究目的,为解决问题进行的一种认识活动。现代统计分析与传统统计分析相比,其最突出的特点是:先定性地提出问题,然后使用功能强大的统计分析软件对数据进行深入的定量分析,并且在定量分析的基础上得出有价值的定性结论。即:定性-定量-定性的综合分析过程。现代统计分析是在传统的统计分析的基础上发展起来的,是传统统计分析方法的改造和深化,并结合现代电子技术,运用统计分析软件对统计资料、数据进行处理。什么是多元统计分析什么是多元统计分析?

25、 ? 在工业、农业、医学字、气象、环外境以及经济管理等诸多领域中,常常需要同时观测多个指标。例如,要衡量一个地区的经济发展,需观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。 在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的

26、,举不胜举。上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。 如何同时对多个随机变量的观测数据进行有效地分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律。 如果说一元统计分析是研究一个 随机变量统计规律的学科,那么多元统

27、计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。为提高科学性、可靠性,通常需要定性与定量分析相结合。实践证明,多元分析是实现做定量分析的有效工具。 (一)研究对象以及主要内容 研究对象 多元分析是以多维随机变量的内在联系及统计规律为其研究对象。是统计中讨论多维随机变量的统计方法的总称。 主要内容 从形式上看,一类是单变

28、量常用的统计方法在多维随机变量情况下的应用;另一类是对多维变量本身进行研究的一些特殊方法。具体内容包括 多元回归分析 主成分分析 因子分析 聚类分析 判别分析 对应分析 典型相关分析 时间序列分析 马尔科夫概型分析 一元统计与多元统计简单比较一元统计与多元统计简单比较主要内容一元多元随机变量一维随机变量多维随机变量统计分布一元分布多元分布参数估计似然估计、最小二乘估计、矩估计似然估计、最小二乘估计、矩估计假设检验U检验、t检验、F检验卡方检验T2检验、F检验卡方检验统计分析方法方差分析回归分析回归分析主成分分析因子分析聚类分析判别分析典型相关分析等统计分析方法在经济统计中具体应用领域统计分析方法在经济统计中具体应用领域 对多个变量进行降维处理,而选择数目较少的变量子集合; 主要方法:主成分分析、因子分析、对应分析等。 对现象进行分类研究、分类处理、构造分类模式 主要方法:聚类分析、判别分析等 建立经济模型和利用模型进行外推; 主要方法:预测模型回归分析方法 描述模型聚类分析方法 研究时间序列变化趋势 主要方法:时间序列分析方法、马尔科夫概型分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论