




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
多元统计分析吉林大学管理学院财务管理系满媛媛Email:manyuan_1117@163.com统计学基础知识的回顾统计学是一门关于如何收集、分析、解释和表达数据的科学。
---《Webster’sInternationalDictionary》统计学是研究随机现象规律性的方法学。什么是统计学?温故而知新三类现象自然界和人类社会活动中,普遍存在三类现象。确定性现象:在相同的条件下出现相同的结果,称为确定性现象或必然现象。如地球的运动。随机性现象:在相同的条件下出现不同的结果,但结果是确定的,称为随机性现象。如掷硬币。模糊性现象:在相同的条件下出现不确定的结果,称为模糊性现象。如美人与丑人。不同现象与研究方法现象
研究方法确定性现象---经典数学随机性现象---概率统计学模糊性现象---模糊数学统计学两个方面的作用一.是培养统计思维方法二.学以至用,解决实际问题统计学的知识已渗透到自然科学、社会科学以及人类生活的各个领域。牛顿的自由落体运动实验多次重复实验,测量计录每次下落的高度与时间数据:采用什么方法找规律呢?
运用了统计学思想回归分析直线回归方程:y=a+b*xh1/2gth牛顿发现定律方法的探究时间t高度h14.9239.1388.3…….
h。
。
。
。
。
。
。
。
。
01234t
散
点
图肾脏体积的经验公式肾脏为不规则体,怎样测量?立方体体积规律:公式:V=长*宽*高=abc
a经典应用2:肾脏体积的测量bc肾脏体积计算公式:经验公式:V=π/4*长*宽*高公式怎样产生的?肾脏体积测量实验用20个肾脏标本,测量计录每个体积及其长,宽,高的数据:采用什么方法找规律呢?
回归方程的构造:y=a+b*xV=π/4*长*宽*高实验的回顾编号体积V长a宽b高c11001052.521101062.631051152.1……….….….影响公式的因素:测量误差
模型的选择历史上很多非统计专业人员,通过对统计学的学习和研究,在专业和统计学取得有很深的造诣。物理学家爱因斯坦学习和研究统计,将统计学思想应用于他的物理学和哲学研究中。生物学家达尔文学习和研究统计,进化论方面的工作在本质而言是属于生物统计学。护理学的奠基人
Nightingale学习和研究统计,出版世界上第一部医院统计的专著《医院统计与医院规划》。不同科学间相互协作的重要性现代统计学的基本内容
一、试验设计
二、数据管理
三、统计分析实验设计调查研究设计数据管理质量控制统计描述统计推断一、试验设计进行一项科研如同建造一座大厦,其设计、质量控制、分析、验收等都十分重要。如果大厦没有良好的设计和质量控制,就会出现问题,甚至倒塌,负责人会受到国家法律惩治。科研工作若没有良好的设计和质量控制,就会失败,得出错误的结果,对后来的科研产生误导作用。科研设计如同建筑设计一样举足轻重。
2实验设计的三原则随机
对照重复(均衡)二、
数据管理数据管理质量控制
三、
数据分析统计描述统计推断
通过统计描述不仅可以对数据的概貌,分布,变量间的关系等有大致的了解,而且可发现数据中的异常现象。因此,统计描述在统计分析中占有相当重要的地位。1统计描述
率、构成比
统计量
均数、中位数
相关回归系数统计表统计图——条图、直方图、线图等
用样本的信息来推断总体的特征叫统计推断。统计分析的目的是由样本推断总体,故统计学的主体是统计推断。2.统计推断
实验设计的模型2A因素B因素
(X1变量)(X2变量)
X1X2试验对象FX2=f(x1)+e2相互关联:统计软件的重要作用“计算机软件给统计学带来革命性变化”发表论文或进行科研课题时,注明统计软件和采用的统计分析方法.统计分析工具的选择:EviewsrSAS,SPSS,STATA
混杂因素的影响
危险因素、混杂因素和结果的关系
携带火柴
肺癌
吸烟[实例解析4]
喝咖啡与心肌梗塞MI关系的研究。
有人观察发现喝咖啡的人,很多人患MI,这种现象是表象还是内在因果关系的?数据来自2000年,小儿科邀请一位美国医学及生物统计学教授来院讲学的例子。研究者调查MI及非MI病人各150例,得到如下数据。表1.1MINoMI%Coffee906060Nocoffee609040
优势比
:OR=90*90/(60*60)=2.25Pearsonchi2(1)=12.0,P=0.001。说明喝咖啡人MI发生的危险性是不喝的2.25倍。两组MI发生率差异有显著意义。结论:喝咖啡与心肌梗塞MI有关!对否?研究者怀虑结论,考虑到其中可能混杂其它因素,如吸烟对喝咖啡与心肌梗塞MI间关系的影响,进一步分层分析得到。表
控制吸烟因素的干扰后结果SmokerNosmokerMINoMI%MINoMI%Coffee804067102033Noffee201067408033
优势比OR=1,OR=1P=1.00,P=1.00
表明,在吸烟组和不吸烟组中。喝咖啡与不喝咖啡的MI发生的相对危险度相同的。
喝咖啡与心肌梗塞MI关系说明当存在混杂因素时,单因素分析结论并不科学。案例:研究生招生与性别的关系研究<案例讨论>研究生招生与性别的关系研究
美国加州贝克莱分校1973年研究生的录取情况如上表.结果显示,男生报考人数据2691人,录取1197人,录取比例44.5%,女生报考人数据1835人,录取556人,录取比例30.3%。有人认为该校在研究生录取中存在性别歧视。试对此进行讨论与分析。
混杂因素的定义
当某一危险因素和结果的相关性受第三个变量和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。排除混杂因素的两种方法
1、分层分析2、多元统计分析
分层分析是在其它影响因素保持恒定情况下,评价某一危险因素对结果的影响。例如,上面我们可以分别在吸烟者和非吸烟者之中,比较喝啡咖与和不喝啡咖的人。这可使我们在不依赖于吸烟的情况下,分析喝啡咖对MI的影响。1分层分析方法
-----控制混杂因素对结果的影响分层分析的优缺点优点:直观简洁。缺点:当考虑因素较多时分组数量倍增,需要例数较多,有时无法实现。
‘生命在于运动。’
‘运动有利于长寿’
流水不腐。。。这是人类长期经验的总结,但事实果真如此吗?是科学的结论,还是事物的假象呢?[实例解析5]运动与寿命关系的研究
许多研究表明长期运动人的寿命比久坐型生活方式人的寿命长。
但是,如果运动者寿命长的真正原因是他不吸烟,没有家族病史,好的生活环境等,那么运动将不能改变一个人的寿命。
运动与人的寿命的关系
美国Aerobics中心的追踪研究在1970-1989年间,它们追踪观察25,341男性和7084女性,研究运动和死亡率的关系。男性参加者被追踪观察平均8.4年,女性平均7.5年。所有参加者接受了基线检查,这些检查包括体检、实验室检测及踏车试验评价身体适宜运动量。结果如表1.1。
表1.3Aerobics中心追踪研究过程中生存与死亡者基线特征(男性组)指标
生存
死亡(n=24,740)(n=601)年龄(SD)42.7(9.7)52.1(11.4)*体重指数
26.0(3.6)26.3(3.5)收缩压121.1(13.5)130.4(19.1)*总胆固醇213.1(40.6)228.9(45.4)空腹血糖100.4(16.3)108.1(32.0)
运动量(%)
生存
死亡
低20.141.6
中42.039.1
高37.919.3*
冠心病家族史
25.433.8*
吸烟
26.336.9*
异常心电图
6.9
26.3*
慢性病
18.4
40.3*
分析发现,存活者和死亡者之间是有明显区别的。特点是存活者较年轻,血压较低,低胆固醇,很少吸烟并且高运动量(基于他们踏车试验时间长短及程度)。但表1.1并没有回答我们的基本问题:运动是否独立地延长寿命?它并没有回答这个问题是由于虽然高运动量组很少在研究期间死亡,但他们或者较很少吸烟,或年轻,或有较低的血压。我们应排除排除混杂因素的影响。
[分层分析法]表1.4Aerobics中心追踪研究中全因死亡患者吸烟和体质的分层分析
每万人年
分层相对危险度
死亡数
(95%CI)
吸烟
低运动量48.01.63(1.26-2.13)*
中/高运动量29.41.0(参照组)
不吸烟
低运动量44.02.19(1.77-2.70)*
中/高运动量20.11.0(参照组)可见低运动量组死亡率高于中/高运动量组的死亡率,这一分层分析表明运动的作用不依赖于吸烟状态。
但是,有可能影响运动和长寿之间关系的其它变量是怎样的?你可以层层分析每一原因,来证明运动对长寿的影响不但不依赖于吸烟状态,也不依赖于年龄、性别、高血脂、高血压等等。如果分层分析3个变量[吸烟状态、年龄、体重(正常/异常)],你将需要在8个组中分析运动和死亡率的关系。
如果分层分析6个变量[吸烟状态、年龄、性别、体重、胆固醇水平、高血压状态(是/不是)],你将需要在64个组中分析运动和死亡率的关系。
[多因素分析法]为判断运动是否独立地与死亡有关,研究者们运用了COX比例风险分析(proportionalhazardsanalysis)的多元分析方法,结果如表1.2。准许引自:Blair,S.N.,etal.”Influencesofcardiorespiratoryfitnessandotherprecursorsoncardiovasculardiseaseandall-causemortalityinwomen.”JAMA1996;276:205-10.Copyright1996,AmericanMedicalAssociation.Additionaldataprovidedbyauthors.
表1.5Aerobics中心追踪研究全死亡率危险因素的多元分析自变量
死亡率
调整相对危险度RR
(百万分数)
(95%CI)运动量
低38.11.52(1.28-1.82)*
中/高25.01.0(参照组)吸烟状况
吸烟39.41.65(1.39-1.97)*
不吸烟23.91.0(参照组)
收缩压
≥140mmHg35.61.30(1.08-1.58)*<140
mmHg26.11.0(参照组)胆固醇≥240mg/dl35.11.34(1.13-1.59)*<240mg/dl26.11.0(参照组)冠心病家族史
有29.91.07(0.90-1.29)无27.81.0(参照组)体重指数
≥27Kg/m228.81.02(0.86-1.22)<27Kg/m228.21.0(参照组)
空腹血糖
≥120mg/dl34.41.24(0.98-1.56)<120mg/dl27.91.0(参照组)异常心电图
有44.41.64(1.34-2.01)*无27.11.0(参照组)
慢性疾病
有41.21.63(1.37-1.95)*无25.31.0(参照组)
表明,如果你比较男性中每千人年死亡数,你可以看出在低运动组(38.1)比中/高运动量组(25.0)有较高的死亡数。其相对危险度为38.1/25.0=1.52。说明低运动量的人死亡的危险性是高运动人的1.52倍。这显示运动与生存率有关,它并不依赖于吸烟、高血压、高胆固醇及家族史。
运动与人的寿命的关系
多因素分析与分层分析的比较当你用分层分析每增加一个变量,你将倍增分组的数量。一方面产生大量的打印结果、需要整本书报告你的结果。另一方面即使在开始时有很大的样本量,可能在某些分组中样本量还是不足。有时无法分层的。
多因素分析克服了这方面的限制,它将使你同时评价各种不同因素对结果的不同作用。但多因素分析需要前提条件,模型对数据的性质要作一些假定,这些假定有时候是很难证实的。多因素分析与分层分析的比较*混杂因素与干预因素关系
当危险因素和结果的相关性受第三个因素和危险因素及结果之间关系的影响,这第三个变量称为混杂因素。一个干预因素是出现结果的原因。Camango及其同事们在研究中度酒精消费和心脏病危险性关系时校正了年龄、吸烟、运动、糖尿病及心脏病家族史,但是他们没有校正血压、体重指数、高胆固醇血症。为什么不?这些因素符合混杂因素的定义,它们与危险因素(酒精消费)有关并与结果(心肌梗塞)有因果关系,问题是酒精消费可加重导致高血压、体重指数增加及高胆固醇血症。因此,如图1.3所示。这些变量可能通过其它致病途径导致心肌梗塞,应考虑为干预变量,不应考虑为混杂因素,如果将混杂因素作为干预变量来校正,那么你需要重新考虑你的结果。统计学不能区别混杂和干预变量
统计学并不能告诉你什么是混杂因素,什么是干预变量。从统计上讲,混杂因素与干预变量是一回事。在你的模型中,是因为有混杂因素而引入该变量,还是因为有干预变量而排除该变量呢?这一决定必须根据以前的研究和经济学、管理学上的可解释性作出。
一、多元统计分析的概念
多元统计分析是研究客观事物中多种指标间相互依赖,相互影响的统计规律性的一个数理统计学分支。
二、学习多元统计的重要性多元统计分析能使我们对所研究的问题更全面,更深刻的认识。帮助我们透过现象看本质,发观事物之间内在的本质规律。
三、多元统计分析的特点优点有两个:多元统计分析的资料较容易取得;多元统计分析可以从整体上分析结果。
四、开展多元统计教学的可能性
①多元统计分析的数学理论十分复杂;②多元统计分析的计算量很大;③教学工作开展不够.个人电子计算机的飞速发展,对多元统计学产生重大影响。常用的统计软件包有r、eviews、SPSS、SAS、STATISTCA,Stata等.
五、多元统计分析的前提条件
1.多元统计对资料的分布有一定的要求;
2.需要有足够大的样本,一般认为,
例数m是研究因素个数P的10倍左右。
历史上许多著名科学家做过抛掷硬币的试验,抛掷硬币试验结果如表
试验者
抛掷次数(n)正面次数(k)频率(k/n)─────────────────────DeMorgan204810610.518Buffon4,0402,0480.5069Pearson12,0006,0190.5016Pearson24,00012,0120.5005━━━━━━━━━━━━━━━━━━━━━观测例数越少,抽样误差越大,样本的对研究总体的代表性就小。所以,需要足够多的例数。定理:若当试验次数n充分大以后,频率k/n稳定地在某一确定值P的附近摆动。即:
Lim(k/n)=P
n∞
实际工作中,常用频率求概率的近似值:P(A)≈f(A)=k/n.频率与概率的关系
六、如何收集和整理多元分析资料设研究问题中含有p个指标变量x1,x2,…,xp.及n个观察对象.其数据结构为:
编号X1X2X3….XP
1x11x21x31…x1p
2x12x22x32…x2p
3x13x23x33…x3p
………………nx1nx2nx3n…xnp
━━━━━━━━━━━━━━━━━━在我们对某现象进行研究时,常常需要同时观测多个指标。如,衡量一个地区的经济发展水平时,不仅要考虑国内生产总值水平、而且还要考虑收入、消费、投资、进出口等多个指标;上述指标,在统计中通常称为变量。什么是多元统计分析如何同时对多个变量进行有效的分析和研究?一种做法是把多个变量分开分析,一次仅分析一个变量,最多也就是研究两个变量之间的关系,这就是我们已经在统计学中学过的一元统计分析;另一种做法是对这些所要研究的变量同时进行分析研究,即多元统计分析。什么是多元统计分析多元统计分析是研究多个变量之间关系以及内在的统计规律的一门统计学科。利用多元统计分析的方法不仅可以对多个变量之间的相互依赖关系以及内在的统计规律进行分析,而且还可以对研究对象进行分类和简化。什么是多元统计分析多元分析起源于本世纪初,1928年Wishart发表论文《多元正态总体样本协方差阵的精确分布》,是多元分析的开端。多元统计分析主要发展于三、四十年代,Fisher、Hotelling、Roy、徐宝禄等人做了一系列的多元统计分析的理论探索。但是由于多元分析的计算复杂,计算量又大,使其发展受到影响。随着计算机的普遍应用及统计软件的广泛应用,多元统计重新出现活力,现已大量应用于各种领域中。多元统计的产生经济学上的应用
:如不同地区的经济发展水平比较,综合的经济效益评价等医学上的应用
:如研究某种病的起因,研究某种新药或某种医疗方法的治疗效果,利用计算机初步诊断病情等。体育科学的研究:如对运动员的心理研究、体能研究等。另外在生态学、地质学、社会学、考古学、生物学、军事科学等等领域,多元统计都得到了广泛的应用。多元统计的应用复旦大学李贤平教授与它的学生对《红楼梦》进行了多元统计分析。把《红楼梦》的120回,作为120个样本,以虚词做为变量,计算在每一回中(样本)变量(虚词)出现的次数,然后用聚类的方法进行分类。结论:120回分为两类
前80回为一类—进一步与曹雪琴著作相比分析,答案是肯定的。
后40回为一类—进一步分析,证实不是高鹗一人所写。多元统计的应用统计方法和研究目的之间的关系问题内容方法数据或结构性化简尽可能简单地表示所研究的现象,但不损失很多有用的信息,并希望这种表示能够很容易的解释。多元回归分析、聚类分析、主成分分析、因子分析、相应分析、多维标度法、可视化分析分类和组合基于所测量到的一些特征,给出好的分组方法,对相似的对象或变量分组。判别分析、聚类分析、主成分分析、可视化分析变量之间的相关关系变量之间是否存在相关关系,相关关系又是怎样体现。多元回归、典型相关、主成分分析、因子分析、相应分析、多维标度法、可视化分析预测与决策通过统计模型或最优准则,对未来进行预见或判断。多元回归、判别分析、聚类分析、可视化分析假设的提出及检验检验由多元总体参数表示的某种统计假设,能够证实某种假设条件的合理性。多元总体参数估计、假设检验1、城镇居民消费水平通常用八项指标来描述,如人均粮食支出、人均副食支出、人均烟酒茶支出、人均衣着商品支出、人均日用品支出、人均燃料支出、人均非商品支出。这八项指标存在一定的线性关系。为了研究城镇居民的消费结构,需要将相关强的指标归并到一起,这实际就是对指标进行聚类分析。2、在企业经济效益的评价中,涉及到的指标往往很多,如百元固定资产原值实现产值、百元固定资产原值实现利税、百元资金实现利税、百元工业总产值实现利税、百元销售收入实现利税、每吨标准煤实现工业产值、每千瓦时电力实现工业产值、全员劳动生产率、百元流动资金实现产值。如何将这些具有错综复杂关系的指标综合成几个较少的因子,既有利于对问题进行分析和解释,又能便于抓住主要矛盾做出科学的评价。可用主成分分析和因子分析法。3、某一产品是用两种不同原料生产的,试问此两种原料生产的产品寿命有无显著差异?又比如,若考察某商业行业今年和去年的经营状况,这时需要看这两年经营指标的平均水平是否有显著差异以及经营指标之间的波动是否有显著差异。可用多元正态总体均值向量和协差阵的假设检验。4、按现行统计报表制度,农村家庭纯收入是指农村常住居民家庭总收入中扣除从事生产和非生产经营用支出、税款和上交承包集体任务金额以后剩余的、可直接用于进行生产的、非生产性建设投资、生产性消费的那一部分收入。如果我们收集某年各个省、自治区、直辖市农民家庭人均纯收入的数据,可以用相应分析,揭示全国农民人均纯收入的特征以及各省、自治区、直辖市与各收入指标的关系。5、某医院已有100个分别患有胃炎、肝炎、冠心病、糖尿病等的病人资料,记录了他们每个人若干项症状指标数据。如果对于一个新的病人,当也测得这若干项症状指标时,可以利用判别分析方法判定他患的是哪种病。6、有100种酒,品尝家可以对每两种酒进行品尝对比,给出一种相近程度的得分(越相近得分越高,相差越远得分越低),希望用这些得分数据来了解这100种酒之间的结构关系。这样的问题就可以用多维标度法来解决。7、在地质学中,常常要研究矿石中所含化学成分之间的关系。设在某矿体中采集了60个标本,对每个标本测得20个化学成分的含量。我们希望通过对这20个化学成分的分析,了解矿体的性质和矿体形成的主要原因。8、研究中国七星瓢虫在黄海、渤海的群聚与近期气象条件的关系。对1000个类似的鱼类样本,如何根据测量的特征如体重、身长、鳍数、鳍长、头宽等,我们可以利用聚类分析方法将这类鱼分成几个不同品种。9、考古学家对挖掘出来的人头盖骨的高、宽等特征来判断是男或女,根据挖掘出的动物牙齿的有关测试指标,判别它是属于哪一类动物牙齿、是哪一个时代的。10、在高考招生工作中,我们知道每个考生的基本情况,通过分析我们不仅可以了解到学生喜欢学习的科目,还可以进一步从考生每门课程的成绩,分析出学生的逻辑思维能力、形象思维能力和记忆力等等对学习成绩的影响。多元统计分析的应用降维问题主成分分析 因子分析归类问题判别分析聚类分析变量间的相互联系回归分析典型相关分析多元数据的统计推断理论基础变量的类型变量的数字特征均值方差协方差相关多个变量——随机向量我们所讨论的是多个变量的总体,所研究的数据是同时观测p个指标(即变量),又进行了n次观测得到的,常用向量表示:样品
变量X1X2…XP12nx11x21xn1x21x22xn2………xP1xP2xPn随机向量的数字特征在数据处理时,为了克服由于指标的量纲不同对统计分析结果带来的影响,往往在实用某种统计分析方法之前,常需将每个指标“标准化”,即作如下变换:即标准化数据的协方差阵正好是原指标的相关阵随机向量样
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 临床处方考试试题及答案2025年版
- 2025年文化创意产业园区文化与旅游融合的可行性研究报告
- 镜医院感染培训课件
- 镀锌防火板知识培训内容课件
- 2025年注塑模具拆装试卷及答案
- 电感设备增资扩产技术改造项目环评报告表
- 脊髓损伤辅助器具课件
- 印尼数学初中试卷及答案
- 2025【标准办公室续租合同范本】办公室续租合同协议书
- 脱硝工程技术方案(3篇)
- 未成年人保护法宣传教育
- 【精】人民音乐出版社人音版五年级上册音乐《清晨》课件PPT
- 河南省道路救援收费标准
- 色盲检测图(第五版)-驾校考试-体检必备-自制最全最准确课件
- 特殊教育的基础理论-特殊教育学的理论基础
- 毕业生转正定级审批表
- 动画运动规律-动物-课件
- 涉诈风险账户审查表
- 【短视频直播带货营销策略分析9700字(论文)】
- solidworks高级培训钣金件经典课件
- 2023年高考数学复习专题课件★★空间向量与空间角、距离问题 课件(共34张PPT)
评论
0/150
提交评论