医学统计学一_第1页
医学统计学一_第2页
医学统计学一_第3页
医学统计学一_第4页
医学统计学一_第5页
已阅读5页,还剩416页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

医学统计学沈毅二0

一四年什么是统计学???在混日子的过程中我们曾经根据不足的信息做出选择我们多数人对生活中的不确定性都泰然处之统计学的独到之处在于:对不确定性量化,使其精确小事精明的选择,我有95%的把握相信,今晚的汤好喝的概率在73~77%之间Believe

it

or

not?

You

are

using

statisticsalmost

every

day!大事1986年1月28日,“挑战者”号爆炸了,原因之一是他们甚至没有对低温操作的数据进行简单分析。低温下发射造成助推火箭连接处的“0”形合成橡胶密封圈失去弹性,实际上无法起到密封作用。它在火箭点火后受热而发生了破裂,造成燃料外泄。1954年,在汤玛斯·弗朗西斯的领导下,进行了一场称为弗朗西斯实测(Francis

Field

Trial)的大规模试验工作,一开始是在维吉尼亚州的麦克林进行,对当地富兰克林·谢尔曼小学的大约4000名儿童进行接种;最后在美国的44个州中,总共有大约180万名儿童受试。测试中约有440,000位儿童接受了一次以上的疫苗注射;另有210,000位儿童接受由培养基制成的安慰剂;对照组则是由120万名无接受疫苗的儿童构成,并研究观察他们是否受到脊髓灰质炎的感染。结果发表于1955年4月12日,这场测试显示沙克疫苗在对抗PV1方面有60%到70%的效果;而对抗PV2与PV3的效果则达到90%以上。这次实验严格控制,消除偏差,试验的详细分析充分证明了疫苗的成功,当今小儿麻痹几乎绝迹。Statistics

is

the

science

dealing

with

thecollections,

analysis,

interpretation

andpresentation

of

masses

of

numericaldata.(Webster

国际大词典)Statistics

is

the

science

and

art

ofdealing

with

variation

in

datathroughcollection,

classification

and

analysis

insuch

a

way

as

to

obtain

reliable

result.(

Armitage

)据考证,statistics源于拉丁语status一词,意为各种现象的状态和状况,由这个词根可以组成多个名词和形容词,其中,state表示国家的概念,同时也表示关于国家和国情方面的知识,而通晓这方面知识的人称为statistian。17世纪该词转化为德语,产生了一个形容词statistiche,意为“统计的”、“统计学的”,此后,这个德文单词又被翻译成英语statistics沿用至今。另一种说法是,statistics保留了state这个词根,意为“国家”或“城邦”,而统计或统计学最初即是关于国家的各类知识的总称,直至l7世纪中叶才逐渐被“政治算术”这个名词所替代,并且很快被演化为“统计学(Statistics)”。“Statistics”有两种含义:单数表示统计学

复数表示统计数据统计学发展史统计是初产生于研究对国家,特别是对其经济以及人口的描述。当时现代数学尚未形成。因此那时的统计史基本上是经济史的范畴。统计学起源于收集数据的活动,小至个人的事情,大到治理

一个国家,都有必要收集种种有关的数据,如在我国古代典

籍中,就有不少关于户口、钱粮、兵役、地震、水灾和旱灾

等等的记载。现今各国都设有统计局或相当的机构。当然,

单是收集、记录数据这种活动本身并不能等同于统计学这门

科学的建立,需要对收集来的数据进行排比、整理,用精炼

和醒目的形式表达,在这个基础上对所研究的事物进行定量

或定性估计、描述和解释,并预测其在未来可能的发展状况。例如:根据人口普查或抽样调查的资料对我国人口状况进行描述,根据适当的抽样调查结果,对受教育年限与收入的关系,对某种生活习惯与嗜好(如吸烟)与健康的关系作定量的评估。根据以往一般时间某项或某些经济指标的变化情况,预测其在未来一般时间的走向等,做这些事情的理论与方法,才能构成一门学问——数理统计学的内容现代统计主要起源于研究总体(population),变差(variation)和简化数据(reductionof

data)。第一个经典文献属于JohnGraunt(1620-1674)《关于死亡公报的自然和政治观察》标志着这门学科的诞生中世纪欧洲流行黑死病,死亡的人不少。自

1604年起,伦敦教会每周发表一次“死亡公报”,记录该周内死亡的人的姓名、年龄、性别、死因。以后还包括该周的出生情况——依据受洗的人的

名单,这基本上可以反映出生的情况。几十年来,积累了很多资料,葛朗特是第一个对这一庞大的

资料加以整理和利用的人,他原是一个小店主的

儿子,后来子承父业,靠自学成才。他因这一著

作被选入当年成立的英国皇家学会,反映学术界

对他这一著作的承认和重视。这是一本篇幅很小的著作,主要内容为8个表,从今天的观点看,这只是一种例行的数据整理工作,但在当时则是有原创性的科研

成果,其中所提出的一些概念,在某种程度上可以说沿用至今(1)提出了“数据简约”的概念。即把数量庞大的杂乱无章的数据,依据种种分类标准整理成一些意义明晰的表格,使数据中包含的有用信息凸现出来。这种工作直到今天仍被统计学家视为基础性工作。(2)提出并举例处理了数据的可信性问题。数据的可信性指的是,是否有人出于某种

目的而对数据作了篡改,或在获取数据的过程中出现重大的失误(如仪器未调准或登录

时书写有误)。样本中这样的数值叫作异常值。鉴别数据中是否有及何者可能为异常值,直到今天仍然是一个在应用上很重要,并在方法研究上受到重视的问题。(3)有了频率稳定性的意识。频率稳定性是说某种特性出现的频率会随着观察次数(样本量)的增加而趋于稳定。(一定的事件,如“生男”、“生女”,在较长时期中有一个基本稳定的比率,这是进行统计性推断的基础)、他注意到在非瘟疫时期,一个大城市每年死亡数有统计规律,而且出生儿的性别比为1.08,即每生13个女孩就有14个男孩。大城市的死亡率比农村地区要高。(4)编制生命表。生命表是指现存人口的年龄分布。在考虑了已知原因的死亡及不知死亡年龄的情况下,Graunt估计出了六岁之前儿童的死亡率,并相当合理地估计出了母亲的死亡率为1.5%。因此,他从杂乱无章的材料中得出了重要的结论。他还给出了一个新的生命表。这些反映人群中寿命分布的情况的内容,至今仍是保险与精算的基础概念描述性统计当时在研究诸如死亡等时间序列时,

Graunt注意到了随机的起伏;但他仅以机械的术语加以描述一把这些与钟表运动的忽动忽停相联系。实际上,这种不规则的变化也影响赌博和天文

学。因此,其后进一步导致了随机误

差的误差分布概念的出现。概率:德•梅勒是一位军人,语言学家,古典学者,同时也是一个有能力,有经验的赌徒,他经常玩骰子和纸牌。1653年,德梅勒写信向当时法国最具声望的数学家帕斯卡请教一个赌资分配问题:假设两个赌徒(德•梅勒和他的一个朋友)每人出

30个金币,两人各自选取一个点数掷骰子,谁选择的点数首先被掷出三次,谁就赢得全部的赌注。在游戏进行了一会后,这时候,德•梅勒因为一件急事必须离开,游戏不得不停止。他们该如何分配赌桌上的60个金币的赌注呢?德•梅勒及他的朋友都各自说出了他们的理由,并为此而争论不休。梅勒的朋友认为,既然他接下来赢的机会是梅勒的一半,那么他该拿到梅勒所得的一半,即他拿20个金币,梅勒拿40个金币.一道难题帕斯卡对此也很感兴趣,又写信告诉了费马。于是在这两位伟大的法国数学家之间开始了具有跨时代意义的通信。这中间得到的很多结论都大大促进了概率论这个学科的最初发展。三年后,也就是1657年,荷兰著名的天文、物理兼数学家惠更斯企图自己解决这一问题,结果写成了《论机会游戏的计算》一书,这就是最早的概率论著作。赌博产生了第一个机会事件的模型。1733年,

Abraham

de

Moivre(德-莫佛)导出了对

二项分布的一个近似;这使每一个概率都等

于正态曲线下的一块面积,这是一种中心极

限定理。数理统计学的另一个重要源头来自天文和测地学中的误差分析问题.早期,测量工具的精度不高,人们希望通过多次量测获取更多的数据,以

便得到对量测对象的精度更高的估计值。量测误差有随机性,适合于用概率论即

统计的方法处理,远至伽利略就做过这

方面的工作,他对测量误差的性态作了

一般性的描述.法国大数学家拉普拉斯曾对这个问题进行了长

时间的研究,1783年,拉普拉斯建议正态曲线方程适合于表示误差分布的概率,现今概率论中

著名的“拉普拉斯分布”,即是他在这研究中

的一个产物。这方面最著名且影响深远的研究成果有二:一是法国

数学家兼天文家Legendre(勒让德)19世纪初(1805)在研究彗星轨道计算时发明的“最小二乘法”,他在

估计过巴黎的子午线长这一工作中,曾使用这个方法。现今著作中把这一方法的发明归功于高斯,但高斯使

用这一方法最早见诸文字是1809年,比勒让德晚。一

种现在逐步取得公认——这项发明系由二人独立做出,看来使比较妥当的。另外一个重要成果是德国大学者高斯1809年在

研究行星绕日运动时提出用正态分布刻画测量

误差的分布。正态分布也常称为高斯分布,其

曲线是钟形,类似颐和园中玉带桥那样的形状,故有时又称为“钟形曲线”,它反映了这样一

种极普通的情况:天下形形色色的事物中,

“两头小,中间大”的居多,如人的身高,太

高太矮的都不多,而居于中间者占多数——当然,这只是一个极粗略的描述,要作出准确的

描述,须动用高等数学的知识。正是其数学上

的特性成为其广泛应用的根据。线性模型—最小二乘法—正态误差这个体系下所发展的方法,在相当大的程度上仍占据了应用统计方法中的主导地位。天文学是数理统计学的母亲然而,认定现代统计理论是由精算科学,人口学和天文学的需要而发展来的观点是不正确的;事实上,它是由心理学,医学,人体测量学,遗传学和农业的需要发展出来的。心理学医学人体测量学遗传学农业在1830年,天文学家和社会学家AdolpheJacques

Quetele(阿道夫·凯特莱特)使得诸如身高体重之类的度量值的变量的经验分布通俗化。他在生物统计研究中大量利用了理论二项分布和正态分布。(正态曲线从观察误差推广到各种数据)后来LadislausvonBortkiewicz报告了在普鲁士兵团中由马踢造成的受伤事故,发现Poisson(普阿松)分布。在生物学上,统计方法使得孟德尔认识到某些主要遗传基因的存在,它们在0,l和2三个水平显现,其中水平0(双隐性)能和水平1和2区别开来。他能确定有相同或不相同的水平的个体之间交配的结果,而且提出了某些生物学事件等价于掷一个硬币的模型;他能对任意交配的结果给出概率并用实验来验证其假设。较早的医学统计开始了建立疾病分类的困难课题;这些工作人员保存了精确和完整的所有病例的记录,并且能给出和预后有关的统计数字。William

Cobbett

能利用跟踪调查的方法反驳以当时广泛滥用的放血疗法。应用Poisson理论来对两个比例进行检验的许多应用;对一系列分娩热病例给出了有趣的分析,证明该病是传染的,这优于任何十九世纪的类似研究更直接的原动力来自于遗传学(确切地说是优生学)。1859

年,达尔文发表了《物种起源》,达尔

文的工作对他的表兄弟FrancisGalton(1822一1911)高尔登爵士有深远影响,高尔登比达尔文更有数学素养,他开始利用概率工具分析生物现象,对生物计

量学的基础做出了重要贡献(可以称他为生物信息学之父吧),高尔登爵士是第一个使用相关和回归这

两个重要概念的人,他还

中位

数和百分位数这种概念的创始人。从此,多元正态分布就经常出现在文献之中;该联合分布能够由互相独立的正态随机变量的线性变换而构造。“这些误差或偏差正是我想研究并了解的”KarPearson时代,1890-1920受高尔登工作影响,在伦敦的大学学院工作的卡尔-皮尔逊开始把数学和概率论应用于达尔文进化论,从而开创了现代统计时代,赢得了统计之父的称号,1901年Biometrika第一期出版(卡-皮尔逊是创始人之一)。1895年,KarlPearson认识到更理论的统计分布的需要,并且得到作为微分方程(Pearson方程组)解的密度函数。卡方检验被誉为自1900年以来在科学技术所有分支中20个尖端发明之一,甚至敌人Fisher都对此有极高评价。1.收集并化简了许多经验数据;定义了具有多重和总相关系数ρ的联合正态分布,还定义了估计误差的联合分布;关于拟合度的χ2检验,比较观察分布和理论分布,包括条件

Poisson变量;分析列联表,特别是利用χ2统计量;当边缘分布充分细分时由最大似然法估计ρ;当边缘分布没有充分定义时估计ρ由一个统一的参数估计系统来描述一组曲线,即矩方法利用正态定理到遗传选择问题通往独立性一般定理的某些进展通往估计和检验估计精确性的一个理论的进展构造了适当的表R.A.FISHER时代,1921-1936所有的皮尔森的方法都可以应用于大样本,而且可以对方差作出较精确的估计。但对于出现在实际应用中的小样本,这些方法就未必奏效了。Gosset导出了一个检验;按照R.A.Fisher的建议该检验在作了一个变换之后成为现在成熟的t-检验。Fisher以其四篇值得纪念的论文开创了一个新纪元-在1922年发表的一篇重要论文中《On

the

mathematicalfoundation

of

theoreticalstatistics》,说明了总体和样本的联系和区别,以及其他概念,奠定了“理论统计学”的基础。相关系数估计的精确分布协调一致了Mendelian和生物统计对遗传学的不同方法正确解释了列联表;估计和推断的一般定理。1918年,Fisher引入方差的概念。在Rothamsted实验室,Fisher发展了有广泛应用价值的方差分析和试验与分析的理论。NEYMAN-PEARSON时代,1937-1949J.Neyman及E.Pearson提出有关显著性检验的基本原理。早期的显著性检验为关于二项变量之间或均值之间的,它们被K.Pearson推广至χ2检验,被Fisher推广到F检验,推广了t检验。Neyman和E.Fearson看出应该考虑与待检验的零假设相对应的备选假设。他们在这样的检验中设立两种误差并导致了他们的基本引理,似然比检验,及势的概念;他们还引进了置信限。现代,1950—统计变得越来越数学化了。因此统计数学成为纯粹数学的一部分,并且因其在各种领域的广泛应用而被研究。因为通常的统计检验已经彻底地研究了,而且往往被置身于某些具体应用领域的实际工作者所应用,所以在研究人员和实际工作者之间出现了一个距离。电子计算机已经带来了巨大的变化。数据,比如海洋学中水面的高程,电磁能(特别

是无线电波)的流量,工业过程的状态,

生物的状态,都能用计算机收集;没有计

算机这些是不实际或不可能的。计算机节

省了大量人力,特别是在同样输出的重复

计算上,例如在计算多元分析的相关系数

和其它检验统计量时。由于计算软件包可

用于所有通常的检验,特别是关于方差分

析,则节省更多。高速计算使得有可能运

用匹配和排列检验。在19世纪末之前,统计学尚未成为一个今天意义下的独立学科,其发展是为应付现实的需要,结合其他学科来进行的。近若干年来,这个发展模式受到一些有影响的统计学家的推崇,认为有可能是将来的主流模式。总之,历史和现实都证明了:统计学和其他学科结合发展是一个正确的方向,也极可能成为未来发展的主流之一。统计学医学医学统计学现代医学引入统计学当然也有明确的目的,比如一种新研制出来的药物正式准备应用于临床,对于现代医学来说,有效率以及一些服药之后的

副作用都是一个未知数,这些是都需要做临床统

计工作的。事实上,临床应用不过是药物实验的最后阶段而已,只不过实验的对象和等级发生了变化:小白鼠变成了人。当然,我们并不想指责现代医学这种做法是侵犯人权。因为药物的最终作用对现代医学来说是个未知数,如果不直接验证于临床,这个未知数将永远无法了解。•统计是对于求知未知数不得不采用的方法,如果是一个已知数,统计就失去了意义。比如,

比如,用枪能打死人,也不用打死所有的人才能

证明这个结果。很显然,有些结果是经验可以证

明的,统计实际上也不过是一种经验的重复而已。如果一切事实都需要用统计来证明,那么人类就

连自身的存在也无法证明了。现代医学的统计学实质是在积累一种经验,因为不能像锤子砸碎玻璃那样百发百中,所以需要计算一下命中率,实际上现代医学的治疗更像一次射击演习,现代医学在很大程度上像个拙劣的射手,对于大多数疾病命中率极低。回到锤子砸玻璃的比喻上就是,虽然现代医学这把锤子砸到了玻璃上,玻璃却一次都没碎,因为这是一把纸做的锤子。如果用这把锤子就是砸上千次,玻璃也照样不会碎。当然换成铁锤就不同了,但这不是现代医学的工具。前面说到了经验的重要性,中医是一贯被现代

医学看作经验医学的,既然被称作经验(包括

理论在内)医学,是否就意味着在中医的经验

范围内,中医理论经得起验证?中医这把铁锤

已经超越了统计的意义。因为未知才是统计的

前提,对已知的事物统计学是没有意义的。而

对中医来说的问题则是,如何更好地运用铁锤,而非统计铁锤的有效率了。反过头来再问一个前面的问题,现代医学为什么需要统计?现代医学为什么要引入统计学上面论述的已经很清楚了,主要是为了两个未知数,一个是药物,一个是疾病,以及随之而来的药物对疾病的作用。随机现象数据分析:收集、整理、汇总数据概率:赌场内外的机会法则统计推断:运用概率知识从特定的数据中得出统计推论的一点耐心一些推理能力统计学扫盲启蒙对代数一定程度的忍耐学位证书?在讨论统计学时,确实很难回避一件事:在当今世界对统计学普遍存在着怀疑,日常生活中几乎没有客观真实的统计分析,所以大家说:统计学与谎言同在。如何看待统计学统计学:收集和分析带随机性的数据的科学和艺术这个内涵规定了它是一个中立性的工具。“中立”的意思是指这门学科不带任何社会的、政治的或意识形态上的倾向性,因而也不存在

它自成学派或从属于何学派的问题。有一种看法认为社会经济统计学与数理统

计学是“大统计学”中的两个对立的学派。的确,在社会经济学中该不该使用数理统

计方法,在哪些问题上或者在何种程度上

应否使用数理统计方法,是可能存在不同

意见的。如果说由于对这些问题的看法不

同而有学派存在,那还算言之成理。但这

些问题与数理统计学无关。统计学只是一种工具,谁如觉得这个

工具对他有用,就可以使用它——当然在使用中必须遵守这门学科的规范,否则就可能产生误导公众及提供错误

的决策依据的后果。历史上(部分地

直到如今)数理统计方法曾遭到一些

批评和怀疑,一定程度上与上述情况

有关。第一章绪论医学统计学的定义、内容与课程特点统计资料的分类医学统计学中常见的几个基本概念医学统计学在科研工作中的地位和作用质变 量变偶然性因素第一节

医学统计学的定义世界上的各类现象的发展变化规律,都表现为质与量的辩证统一,要认识其客观存在的规律性,就必须认识其质与量的辩证关系,认识其数量关系的特征及度的界限,这一切都离不开统计统计学研究数据的收集、整理与分析的科学面对不确定性数据作出科学的推断,是认识世界的重要手段。生物统计学biostatistics应用于生物学研究,又称生物测量学Biometrics医学统计学medical

statistics应用于医学研究,侧重于医学的生物性卫生统计学health

statistics应用于医学研究,侧重于医学的社会性医学统计学医学统计学是以医学理论为指导,应用概率论与数理统计的有关原

理和方法,研究医学资料的搜集、

整理、分析和推断的一门应用科学。第二节

几个重要的名词统计的步骤

变量的分类总体和个体参数和统计量随机概率和频率小概率事件和小概率原理1.设计2.收集资料3.整理资料4.分析资料VeryimportantAlsoimportant统计工作的步骤一、医学研究设计(design)是对整个研究过程的总设想或总安排,是最关键的一步,也是最重要的一步。具有丰富的专业知识和水平纵闻大量的参考文献选准研究课题组成多学科专家联盟从内容上讲分为:专业设计:反映课题研究的深度与水平Why?了解专业现状,学术前沿,研究动态、水平及发展方向和条件,提出课题(立项依据、项目的研究意义和应用前景,国内外研究现状分析,附主要参考文献)What?

主要解决的问题(研究目标,研究内容和拟解决的关键问题等,提出详尽的分析思路和技术路线,作好周密的考虑和安排)统计设计:与科研课题完成的质量有关的设计方案应考虑:分析目的研究对象分析指标、观察单位、检测内容和方法如何获取资料,怎样整理资料如何控制误差,组织实施等二、搜集资料(collection

of

data)即按设计要求获取准确、可靠的、有用的数据,是最基础的一步资料要求:完整性、准确性、及时性资料来源:统计报表经常性工作记录专题研究外源资料、商业性数据、专业文献等三、整理资料按设计要求,将一些表现各自特征的原始数据系统化、条理化,从而揭示研究事物内部的规律资料核查数字核对逻辑检查数据结构与编码任何观察或实验研究获得的结果,都必须结合专业知识转变成数据后才能进行分析任何观察或实验研究获得的结果,都必须结合专业知识转变成数据后才能进行分析四、分析资料计算统计指标,概括数据特征,阐明事物内在联系和规律统计分析统计描述:以计算统计指标,以图表等反映数量特征及规律统计推断:用样本信息推断总体特征在医学研究中,根据研究目的的要求对一些观察项目或研究指标在一些研究对象中进行观察(或测量),由于这些指标存在着变异,故把这些观察项目或研究指标称为随机变量,简称变量(variable),而观察结果对应的取值称为变量值或观察值。资料和变量资料和变量1.定量资料: 数值变量各观察值之间有量的差别;数据间有连续性。它是指变量的取值不止是可列个,而是可取某区间[a,b],(-oo,oo)上的一切值。2.分类资料: 分类变量各观察值之间有质的差别;数据间有离散性。它是指变量的取值有限的,至多是可列多个。有序分类:等级资料,指各类之间有程度的差别。半定量资料无序分类:二项分类、多项分类举例:性别人数男20女18合计38血型人数A143B182AB98O102尿RBC例数-28+8++4+++1++++1资料类型的判断病例号年龄(岁)性别身高(cm)血型心电图尿WBC职业RBC1012/L135女1.65A正常—教师4.67244男1.74B正常—工人5.21326男1.80O正常+职员4.10425女1.61AB正常+农民3.92541男1.71A异常++工人3.49645女1.58B正常++工人5.48750女1.60O异常++干部6.78828男1.76AB正常+++干部7.10931女1.62O正常+军人5.24不同分类的互相转化数值变量→无序分类变量数值变量→有序分类变量有序分类变量→无序分类变量信息量只有减少,不可增加统计中的几个基本概念个体individual观察单位同质和异质

具有相同性质的事物称为同质的

(homogeneous)。否则称为异质的或者间杂的(heterogeneous)。同质和异质是相对的概念。不同质的个体不能笼统地混在一起分析。在研究事物的形状时同质和异质示例在研究事物的颜色时同质事物之间的差别称为变异(Variation)变异的两个方面:不同观察单位(个体)间的差别同一个体在不同阶段的差别(重复测量)变异Variation变异示例发热者体温波动正常人体温波动同质个体间的差异。结果是随机的,不可预测的。一种或多种不可控因素(已知的或未知的)作用下的综合表现。个体变异是普遍存在的。个体变异是有规律的。没有个体变异,就没有统计学!变异Variation总体population根据研究目的确定的同质观察单位的全体。被研究指标的影响因素相同。有限总体无限总体无限总体样本sample是从总体中随机抽取部分观察单位,其实测值的集合。样本包含的观察单位数称为样本含量或样本大小。随机抽样统计学好比是总体与样本间的桥梁,能帮助人们设计与实施如何从总体中科学地抽取样本,使样本中的观察单位数(亦称样本含量,samplesize)恰当,信息丰富,代表性好;能帮助人们挖掘样本中的信息,推断总体的规律性。总体的统计指标称为参数。如总体均数、总体标准差等。参数parameters未知的,固有的,不变的,!统计量statistics样本的统计指标称为统计量

如样本均数、样本标准差等。已知的,变化的,有误差的!频率Relativefrequency:在n次随机试验中,事件A发生了m次,则比值f

=

m

=

A发生的试验次数n

试验总次数称为事件A在这n次试验中出现的频率频率和概率抛硬币试验在概率的统计学定义上的诠释试验者投掷次数出现“正面”次数频率X

X

X20120.6000Buffon404020480.5069K.Pearson1200060190.5016K.Pearson24000120120.5005举例举

例出生婴儿数

510

25

50

100

500男婴儿数

2

6

13

24

49

253频率

0.40

0.60

0.52

0.48

0.49

0.506实践表明,在重复试验中,事件A的频率随着试验次数的不断增加将愈来愈接近一个常数p,频率的这一特性称为频率的稳定性。频率的稳定性充分说明随机事件出现的可能是事物本身固有的一种客观属性,因而是可以被认识和度量的。这个常数p就称为事件A出现的概率(probability),记作P(A)或P。这一定义称为概率的统计定义。它是事件A发生的可能性大小的一个度量。容易看出,频率为一变量,是样本统计量,而概率为常数,是一总体参数。实践中,当试验次数足够多时,可以近似地将频率作为概率的一个估计。概率的统计学定义:数理统计学中的大数定理表明:当观察次数n越来越大,频率f的随机波动幅度越来越小,并最终趋向于一个常数p:随机事件A发生的概率(Probability)。概率描述了随机事件发生的可能性的大小。是一种参数。0≤P

≤1概率的古典定义:有限个(N)可能结果(A1,A2,A3……AN);每个结果出现的机会相同;任一次试验中,至少出现一种可能的结果;任一次试验中,只出现一种可能的结果;

则在某次试验中,出现某一个结果的可能性为1/N,出现某M个结果中的一个的概率为M/N抛硬币试验在概率的统计学定义上的诠释每次投掷两枚硬币A和B,出现的四种可能

A正B正、A反B正、A正B反、A反B反其概率都是1/4。每次试验肯定会出现上述四种结果中的一个,且仅会出现一个。概率probability随机事件:可重复性:相同条件下可重复进行随机性:出现两种机两种以上结果偶然性:实验前不能肯定将出现哪种结果是描述随机事件发生的可能性大小的数值。常用P表示。它的大小界于0和1之间一次抽样不可能发生P≤0.05小概率事件基本概念汇总总体个体、个体变异总体参数未知随机抽样样本代表性、抽样误差样本统计量已知统计推断风

险第一章:统计学的根基:概率第二章:简单的数据集合,是一组12岁男生的身高报告第三~五章:介绍最基本的统计思维:假设检验在以后的章节中,我们描述如何在大千世界里进行统计推断医学统计学的任务和作用结合专业知识和任务,有目的、有计划地进行研究课题设计合理地分析和解释计算分析结果,揭示数据中蕴涵的信息和规律帮助研究者将统计思维和方法渗透到医学研究和卫生决策之中医学统计学课程之特点系统性、连贯性强,章节之间联系紧密公式符号多,适用条件严,逻辑推理严密综合性、实用性强,学与作紧密结合统计学既不是数学,也不是医学培养医学统计学思维牢固树立起生物性个体变异的观念;各种医学指标独特的和分类的观念;抽样误差不可避免及各种条件下样本具有不同误差的观念;以及各种研究对象和研究方式含有不同变异的观念。医学统计学思维归纳型思维 推理型思维从特殊推断一般,从个体推断总体,有犯错误的可能日常演绎推理型思维:从一般到特殊从样本到总体从个别到一般建立医学统计学思维生物体的变异是普遍存在的,这种变异是有规律的;抽样误差是不可避免的,抽样误差是有规律的;统计推断是有风险的,这种风险是可以控制的。统计学的作用工具发现规律,而不是创造规律时刻牢记变异的客观存在和其规律的客观存在性。对数据的态度:严肃、认真、实事求是。学术道德正确应用所学到的公式和方法。不生搬硬套。在做习题的时候耐心体会。统计学是发现规律而非发明规律。以医学理论作为指导。反对唯数字论。正确认识统计软件的作用。学习医学统计学的要求建立统计学思维学会从不确定性、机遇、风险和推断的角度去思考医学问题提高自身的科学素质和医学研究能力;学会设计结合专业作出严密的试验设计并获得可靠、准确、完整的资料;学会分析与表达学会运用统计方法充分挖掘资料中蕴含的信息,恰如其分地进行理性概括,写出具有科学认证的研究报告和学术论文。学习统计学并非要使人们成为统计专业人

员,其目的在于使大家具备新的推理思维,学会从不确定性和概率的角度去考虑问题;学会结合专业问题合理设计试验,通过精

细的试验观察获得可靠、准确的资料;学

会正确运用统计方法充分挖掘资料中隐含

的信息,并能恰如其分地作出理性概括,

写成具有一定学术水平的研究报告或科学

论文,提高自身的科研素养。第二章个体变异与变量分布因为变异,世界才变得如此丰富多彩!主要内容个体变异频数分布集中位置:平均数离散趋势:变异度相对数变量分布第一节个体变异同质(homogeneity)与变异(variation)变量(variable)与统计资料类型变量:观察单位的研究特征变量值:变量的观察结果性质相同的事物称为同质的,观察单位间的同质性是进行研究的前提,也是统计分析的必备条件,缺乏同质性的观察单位是不能笼统地混在一起进行分析的。如不同年龄组男童的身高不能计算平均数,因为所得结果没有意义。同质(homogeneity)同质的相对性男性身高与女性身高有着本质的差别,此时,不

同性别表示不同质,研究白细胞计数这一指标时,因性别对该指标没有影响或影响甚微,故可以把

不同性别的人放在一起分析。在某新药的临床试验中,计算有效率的观察病例必须患同一疾病,甚至具有相同的病型、病情、病程等,对同质性的要求是很严格的;而计算不良反应发生率,通常可将不同病种的病例合起来统计,此时对同质性的要求只有一条:按规定服用该新药。变异(variation)同质的事物内个体之间或同一个体重复测

量间的差别称为变异。例如,身高的变异。由于观察单位通常是观察个体,故变异亦

称个体变异。变异表现在两个方面,其一,个体与个体间的差别;其二,同一个体重

复测量值间的差别。变异是宇宙事物的个

性反映,在生物学和医学现象中尤为重要。变异规律性变异是由于一种或多种不可控因素(已知的和未知的)以不同程度、不同形式作用于生物体的综合表现。如果我们掌握了所有因素对生物体的作用机制,那么,生物体的某指标之观察值就是可预测的了。有些指标的变异原因已被人们认识,例如,染色体决定了新生儿的性别;有些指标的变异原因已被认识一部分,比如,人的身高受遗传和后天营养的影响,但尚有一部分影响因素是未知的;当观察值的个数达到足够多时,其分布将趋于稳定,并最终服从于总体分布。个体变异现象广泛存在于人体及其它生物体,是个性的反映。虽然每个个体的变异表现出一

定的随机性和不可预测性,但变异并不等于杂

乱无章,指标的变异往往是有规律可寻的,当

所观察的个体数足够多时,观察值的分布将出

现一定的规律性,这是总体的反映。从这个意

义上讲,变异也是医学研究中必须运用各类统

计指标并进行统计分析的缘由,统计学就是探

讨变异规律、并运用其规律性进行深入分析的

一门学科,可以这么说,没有变异就没有统计学个体变异是统计学应用的前提个体变异抽样误差统计推断例1:个体变异的表现某地所有20岁健康男生的血红蛋白√某地所有20岁健康男生和女生的血红蛋白Χ江苏和西藏所有20岁健康男生的血红蛋白Χ某地所有20岁健康男生和女生的白细胞计数√个体变异的规律性分布就每个观察单位而言,其观察指标的变异是不可预测的,或者说是随机的

(random)。就总体而言,个体变异是有规律的。变异规律的体现:分布(distribution)何为分布?刀鱼分布在长江下游水域熊猫分布在温暖多雨的山区,尤以中国西南部资料类型定性资料第二节频数分布医学研究中观察到原始数据需要经过整理,用适当的形式表达其分布之特征。整理数据最有效的形式是频数分布(frequencydistribution),根据频数分布(样本)可以初步判断指标分布(总体)特征。定量资料频数分布表和频数分布图原因:由于个体变异的存在,医学研究中某指标在各个体上的观察结果不是恒定不变的,但也不是杂乱无章的,而是有一定规律的,呈一定的分布(distribution)。现状:医学研究得到的原始数据(raw

data)往往是庞大的、混乱的。解决:频数分布表的基本思想:将原始数据按照一定的标准划分为若干各组,合计各组的频数,得到频数分布表;在将频数表绘制成频数分布图。例2:乱七八糟的原始数据某地100名成年男子红细胞计数(1012个/升)资料如下4.095.335.624.635.184.275.073.603.315.324.884.314.125.334.404.793.925.464.815.094.204.133.944.415.264.665.295.235.583.534.544.684.484.404.764.814.574.973.945.484.275.105.785.123.604.014.755.806.015.505.364.184.334.844.744.604.764.584.344.724.813.844.174.853.294.914.454.434.994.494.355.265.045.384.935.414.523.864.994.244.504.924.135.055.145.055.174.555.425.704.676.184.375.404.154.084.714.124.794.89定组数、组段、组距统计频数求全距(R)

160.9125.9

=

35.0定量资料的频数表35.0/10=3.5=4频数表(frequencytable)的制作是对资料的统计分组的过程。分组后的资料称为频数表资料或简称分组资料,编制频数表是反映资料的数量特征、分布规律的最基本方法。计量资料的频数、频率分布组

段 频

率124~10.0083128~20.0167132~100.0833136~220.1834140~370.3083144~260.2167148~150.1250152~40.0333156~20.0167160~10.0083合计1201.0000计量资料的频数分布xFreq.124~1*128~2**132~10**********136~22**********************140~37*************************************144~26**************************148~15***************152~4****156~2**160~1*Total120124~

128~

132~

136~

140~

144~

148~

152~

156~

160~#################################################################################################################$$$$###计量资料的频数分布计量资料的频数分布图计量资料的频数分布图164302010040人数124

132

140

148

156图

某市120名12岁男童身高的频数分布分类资料的频数分布血型频数频率(%)O20540.43A11222.09B15029.59AB407.89合计507100.00分类资料的频数分布图OABABEXCEL制作的频数图250200150100500OABABEXCEL制作的频率图0.50.40.30.20.10OABAB频数分布表的用途看出频数分布的两个重要特征集中趋势

central

tendency离散趋势

dispersion揭示资料的分布类型对称分布非对称分布(偏态分布)左偏态(负偏态)右偏态(正偏态)频数分布的类型对称分布Frequency12345var567890246集中位置中间,左右两边大致对称非对称分布称为skewness;俗称偏态分布,有人称偏峰分布。“偏”是偏离的意思,表示个别观察值偏离均数较远,而不是“集中位置偏”;“正偏”是指个别数据偏在均数右侧,其与均数之差为“正”;“负偏”是指个别数据偏在均数左侧,其与均数之差为“负”;正偏分布的偏度系数为正负偏分布的偏度系数为负偏态,正偏态和负偏态偏态(skewness):Skewness

means

the

lack

of

symmetry

in

aprobability

distribution.(The

Cambridge

Dictionary

of

Statistics

in

the

Medical

Sciences.)An

asymmetric

distribution

iscalled

skew.(Armitage:

Statistical

Methods

in

Medical

Research.)正偏态与负偏态(positive

&

negative

skewness)A

distribution

is

said

to

have

positive

skewnesswhen

it

has

a

long

thin

tail

at

the

right,

and

tohave

negative

skewness

when

it

has

a

long

thintailto

theleft.A

distribution

which

the

upper

tail

is

longerthan

the

low,

would

be

called

positively

skew.偏态分布正偏态(positive

skew)负偏态(negative

skew)Frequency12345var5678902468Frequencyvar6123456789100510集中位置偏向一侧,频数分布不对称图

239人发汞含量的频数分布1

3

5

7

9

11

13

15

17

19

21发汞含量(umol/kg)706050403020100人数40030020010000

10

20

30

40

50

60

70

80

90

100自评分图

某城市892名老年人生存质量自评分的频数分布人数40人数30201001

5

10

15

20

25

30

35

40

45生存时间(月)图

102名黑色数瘤患者的生存时间频数分布0

5 10

15

20

25

30

35

40 45

50

55

60

65

70

75

80

85死亡年龄(岁)图

某地1990~1992年男性死亡年龄分布250020000统计资料的描述图形描述频数分布图趋势图……指标描述集中位置:算术均数、几何均数、中位数、百分位数离散程度:极差、标准差、方差、四分位数间距平均数(Average)算术均数(Mean)几何均数(Geometric

Mean)中位数(Median)百分位数(Percentile)定量资料的统计指标集中趋势的描述集中趋势的描述1.算术均数(arithmetic

mean):

简称均数(mean),是用得最多的统计描述指标。总体均数the

population

mean样本均数the

sample

meanμx定量资料的统计指标计算方法:直接法:x

=x1+x2

+

x3+

xn=nSxn例:11名五岁女童身高值(cm)分别为:112.9,99.5,100.7,101.0,112.1,118.7,107.9,108.1,99.1,104.8,116.5,求平均身高。x

=112.9,99.5

~116.511=107.39cmthe

Greek

letter

Ssamplesize加权法:x=f1x1+

f2x2

+

f3x3

+

fnxnf1+

f2

+

f3

+

fn=S

fxS

f式中fi

是第i组的频数,表示各组段频数之和Σfi,即总观察数N或n;Xi是第i组的组中值,组中值=(下限+上限)/2组中值代替本组的fi个观察值计算算术均数,所以与原始数据计算得到的算术均数略有差别。两个重要特征:各离均差的总和等于0离均差的平方和小于各观察值x与任何数a之差的平方和。best均数的应用:1、均数能全面反映全部观察值的平均数量水平,应用甚广。2、最适于对称分布资料,,对于偏态资料,均数不能较好地反映其集中趋势。3、在描述正态分布资料方面有重要意义2.几何均数geometric

meanG=n

x1

·x2

xnn或者G=

lg

-1

(

lg

x

)计算方法:直接法:加权法:S

flgxS

fG=

lg-1例:5人的血清滴度为1:2,1:4,1:8,1:16,1:32,求平均滴度?G=5

2·4·8·16·32=

8故平均滴度为1:8。几何均数的应用:等比资料,如抗体平均滴度对数正态分布资料Remember!使用几何均数时的注意点:1)

观察值不能有0。2)观察值不能同时有正值和负值。若全为负值,在计算时先把负号去掉,得出结果再加上负号。Be

careful!3.中位数median中位数指将一组观察值从小到大按顺序排列,位次居中的观察值,常用M表示。The

Median

is

that

value

for

which

50

percent

of

the

observations,

whenarranged

in

order

of

magnitude,

lie

on

each

side.(the

middle

value

of

an

ordered

list

of

observations)中位数计算方法:当n为奇数时,M=

x

(n

+1

)2当n为偶数时,M=2

(

2

)

(

2

)

x

n

+

x

n

+1

例:某病患者5人,其潜伏期分别为2,3,5,8,20,求中位数?n=5,M=x3=5(天)例:8名新生儿身长(cm)依次为50,51,52,53,54,55,58,58,求中位数?n=8,

M=(x4+x5)/2=(53+54)/2=53.5(cm)中位数例对于某项风险较高的新手术术后的生存

时间进行跟踪,共调查了7人,6人死亡之前分别生存了5天、6天、10天、16天、

25天、29天,还有一人术后30天随访时

仍存活。本资料属于“开口”资料。本例数据已经按从小到大的升序排列,n=7,为奇数,其中位数为16天。中位数例9例正常人的发汞值:1.1,

1.8

3.5

4.2

4.8

5.6

5.9

7.1

10.5M=4.89例正常人的发汞值:1.1,

1.8

3.5

4.2

4.8

5.6

5.9

7.1

>16M=4.810例正常人的发汞值:1.1,

1.8

3.5

4.2

4.8

5.6

5.9

7.1

10.5

>16M=(4.8+5.6)/2=5.2百分位数(percentile)X%

PX

(100-X)%50%分位数就是中位数25%,75%分位数称四分位数(quartile)对于频数表资料:lxxfP

=

L

+

i

(n

·

x%

-

f

)fx为Px所在组频数i为组距Σfl

为小于L各组段的累计频数M=P50中位数的应用1、中位数和百分位数的计算对资料分布没有特殊要求。2、样本含量较少时不宜用靠近两端的百分位数来估计频数分布范围;因为在例数较少时,靠近两端的百分数不够稳定。3、中位数比均数具有较好的稳定性。但是,由于只采纳了数据的相对大小的信息,不够精确。偏态分布;分布不规则或未知分布;一端或两端有不确定数据(开口资料)正态分布资料也可用。中位数的应用:平均数应用的注意事项同质的资料计算平均数才有意义。均数适用于:单峰对称分布的资料几何均数适用于:对数变换后单峰对称的资料中位数适用于:任何分布资料,有不确定值的资料只用平均数描述资料的弊病甲组

26

29

30

31

34乙组

24

27

30

33

36丙组

26

28

30

32

34均数30kg均数30kg均数30kg24

26

28

30

32

34

36丙乙甲三组儿童体重的离散程度描述离散趋势的指标变异度极差(Range)四分位数间距(interquartile

range)方差(Variance)标准差(Standard

Deviation)变异系数(coefficient

of

variation

)1.极差(range)R=max-min优点:简单方便缺点:不灵敏除了最大、最小值,不能反应组内其他数据的变异。不稳定两样本例数相差悬殊,不适用全距比较变异度。2.四分位数间距:quartileP75上四分位数P25下四分位数QUQL百分位数

percentile是一个位置单位,以Px表示,一个Px将总体或样本的全部观察值分为两部分。理论上有x%的观察值比它小,有(100-x)%的观察值比它大,而P50就是中位数,因此,中位数也是一个特定的百分位数,lxxfP

=

L

+

i

(n

·

x%

-

f

)fx为Px所在组频数对于频数表资料:i为组距Σfl

为小于L各组段的累计频数例:某市大气中SO2的日平均浓度(ug/m3)见下表,分别求第25、75、95百分位数以及中位数。表 某市大气中

SO2

日平均浓度的频数表浓度(ug/m3)天数(f)累计频数累计频率(%)25~393910.850~6710629.475~6417047.1100~6323364.5125~4527877.0150~3030885.3175933492.5225~734194.5250~634796.1275~535297.5300~335598.3325~

6

361100.0361P25=50+25/67(361*25%-39)=69.12(ug/m3)P75=125+25/45(361*75%-233)=145.97(ug/m3)M=100+25/63(361/2-170)=104.17(ug/m3)百分位数的应用:百分位数用于描述某个观察序列在某百分位置上的水平。常用于确定参考值范围,亦称正常值范围。正常值范围指特定健康状况的人群的解

剖、生理、生化等各种数据的波动范围。常用95%范围Min

QL

M

QU

Max极差四分位数间距Q

=

QU

-

QL=145.97-69.12=76.85例:计算上例频数表资料的四分位间距。比极差稳定,但仍未考虑到每个数据的变异.3.方差(variance)和标准差(standard

deviation):2(x

-

μ)

=0N离均差平方和SS

sum

of

squaress2=2(x

-x)n-1S

=自由度n=i

i

x

2

-

(

x

)2/nn-1任何统计量的自由度=变量数-限制条件的个数例:求两组数据的标准差。n=5

x

=26+28+30+32+34=150x2

=262+282+302+322+342=4540s=(4540-1502/5)/(5-1)^0.5=3.16n=5

x

=150x

2=4534s=(4534-1502/5

)/(5-1)^0.5=2.92甲组:2628

30

3234乙组:2427303336丙组:2629

30

3134极差方差标准差甲组:810.03.16乙组:1222.54.74丙组:88.52.92标准差的用途:①表示观察值的离散度。②结合均数描述正态分布特征。③计算变异系数等。4.变异系数(coefficient

of

variation):sCV=

x①比较单位不同的多组资料的变异度例:某地5岁女孩120人,其身高均数为110.15cm,标准差为5.86cm,体重均数为17.71kg,标准差为

1.44kg,欲比较身高和体重的变异度何者为大?身高CV=5.86/115.15*100=5.32%体重CV=1.44/17.71*100%=8.13%由此可见,该地5岁女孩的体重变异大于身高变异。②比较均数相差悬殊的多组资料的变异度表

某地年龄段儿童身高(cm)变异年龄组人数均数标准差变异系数1-2月10056.32.13.75-6月12066.52.23.33-3.5岁30096.13.13.25-5.5岁400107.83.33.1正确应用(1)算术均数:适用于单峰对称分布资料;几何均数:适合于作对数变换后单峰对称分布资料;中位数和百分位数:适用于任何分布的资料;中位数和百分位数在样本含量较少时不稳定,越靠两端越不稳定;中位数在抗极端值的影响方面,比均数具有较好的稳定性,但不如均数精确。因此,当资料适合计算均数或几何均数时,不宜用中位数表示其平均水平。不同质的资料应考虑分别计算平均数。正确应用(2)标准差的基本内容是离均差,它显示一组变量值与其均数的间距,故标准差直接地、总结地、平均地描述了变量值的离散程度。在同质的前提下,标准差大表示变量值的离散程度大,即变量值的分布分散、不整齐、波动较大;反之,标准差小表示变量值的离散程度小,即变量值的分布集中、整齐、波动较小。变异系数派生于标准差,其应用价值在于排除了平均水平的影响,并消除了单位。平均数与变异度均数±标准差(min,max)中位数±四分位数间距(min,max)变异度小,则均数代表性好!变异度大,数据分散,则均数代表性差!平均数所表示的集中性与变异度所表示的离散性,从两个不同的角度阐明计量资料的特征!总结:每个观察指标均有其特定的变异规律;描述变异:图形描述统计量描述平均数:均数、几何均数、中位数变异度:标准差、四分位数间距、变异系数、极差不同分布的指标,用不同的统计量描述;用平均数与变异度共同描述。Normal

distributionand

its

applications统计学中最重要的理论分布之一正态分布及其应用主要内容(Content)随机变量的概率分布正态分布的概念及图形正态分布的特征正态分布曲线下面积的规律标准正态分布正态分布的应用总结生物医学中,对研究对象的某项指标的测定、

调查、观察和试验等,由于其结果的不确定性,均可视作随机试验;测定、调查和观察结果在

个体间的变异总是客观存在的,因此,称表示

随机试验结果的变量为随机变量。故用随机变

量表示变量值的可变的特征。如用一定剂量的

毒剂注射小白鼠,其结果可以生存,也可以死

亡;又如测量12岁男孩的身高,其测量值是不

确定的,随机变量变量和随机变量变量取值的相对频率说明了具有某个性质的观察对象的出现的可能性。随机变量离散型:性别、血型、子女数、事故数连续型:身高、体重随机变量取值带有随机性的变量,他们取到某个值都带有偶然性。连续型随机变量:一般来说,某变量可在某一实数区间内任意取值,称该变量为连续型随机变量;离散型随机变量:某变量只取有限个数或可列个数(如取0,1,2,3…,∞),称该变量为离散型随机变量。取不同随机变量值的概率按随机变量值的分布称为随机变量的概率分布受事物内部客观因素的支配,尽管个体变量值具有随机性,但其变量值的分布是有一定规律的。资料中120名男孩童身高有不同,但出现不同身高的频数是以均数为中心对称分布着,且愈近均数的分布频数愈多,远离均数的频数愈少。即出现在不同身高范围内的概率按身高的分布是有一定规律的。密度函数和分布函数•抛两枚硬币,P

(两枚均正面朝上=0.25P

(两枚均反面朝上)=0.25P

(A

正面B反面朝上)=0.25P

(A

反面B正面朝上)=0.25P

(至少有一枚正面朝上)=0.75P

(恰好有一枚正面朝上)=0.5密度函数分布函数密度函数和分布函数x随机变量的概率分布概率函数(ProbabilityFunction),或者说概率密度函数(Probability

DensityFunction)

、密度函数。在统计学中,我们说变量具有分布函数

(DistributionFunction)。用此函数的大小来说明变量取某些值的可能性。当变量的取值包括了所有可能的取值时,分布函数为1。当变量具备了以上两个函数之后,称它具有某种分布(Distribution)常见的随机变量概率分布有正态分布、二项

分布等。前者是连续性随机变量的概率分布,而后者是离散型随机变量的概率分布。概率分布是统计学赖以发展的理论基础,是研究随机现象的基本工具,任何统计方法都离不开特定的统计分布,而不同的分布又各具特性,通过对随机现象分布特征的描述,可以发现内在的客观规律。正态分布normal

distributionK.PearsonNormal

distribution德国数学家Gauss发现最早用于物理学、天文学Gaussian

distribution正态分布是最重要的一种概率分布。正态分布概念是由德国的数学家和天文学家Moivre于1733年首次提出的,但由于德国数学家

Gauss(CarlFriedrichGauss,1777—1855)率先将其应用于天文学家研究,故正态分布又叫高斯分布。在高斯刚作出这个发现之初,也许人们还只能从其理论的简化上来评价其优越性,其全部影响还不能充分看出来。但随着各种理论的深入研究,高斯理论的卓越贡献日显重要。正态分布在数理统计学中占有极重要的地位,现今仍在常用的许多统计方法,就是建立在“所研究的量具有或近似地具有正态分布”这个假定的基础上,而经验和理论(概率论中所谓

“中心极限定理”)都表明这个假定的现实性,现实世界许多现象看来是杂乱无章的,如不同的人有不同的身高、体重。大批生产的产品,其质量指标各有差异。看来毫无规则,但它们在总体上服从正态分布。这一点,显示在纷乱中有一种秩序存在,提出正态分布的高斯,一生在多个领域里面有不少重大的贡献,但在德国10马克的有高斯图像的钞票上,单只画出了正态曲线,以此可以看出人们对他这一贡献评价之高1809年,高斯发表了其数学和天体力学的名著《绕日天体运动的理论》。在此书末尾,他写了一节有关“数据结合”(data combination)的问题,实际涉及的就是这个误差分布的确定问题。他的做法与拉普拉斯相同。但在往下进行时,他提出了两个创新的想法。一是他不采取贝叶斯式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论