第三节 离散程度的描述指标.ppt_第1页
第三节 离散程度的描述指标.ppt_第2页
第三节 离散程度的描述指标.ppt_第3页
第三节 离散程度的描述指标.ppt_第4页
第三节 离散程度的描述指标.ppt_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第三节 描述离散趋势的统计指标,学习目标: 1、熟悉离散程度的指标种类; 2、掌握标准差s、四分位间距p75-p25、变异系数CV的适用范围; 3、掌握标准差、正态分布、参考值范围的概念; 4、掌握参考值范围的制定方法。,描述定量资料的分布特征仅有平均指标是不够的,还需要有描述离散程度的指标。假如 一班的5名同学成绩 60,70,80,90,100 平均80分 R=40 二班的5名同学成绩 70,75,80,85,90 平均80分 R=20 三班的5名同学成绩 65,75,80,85,95 平均80分 R=30,描述离散程度的指标有多种:极差、方差、标准差、四分位间距、变异系数。 一、极差和四

2、分位间距 1、极差(Range,全距) R=max-min 缺点是:只反映最大和最小值的变异,不够全面;容易受n大小的影响,不稳定。,2、四分位间距(quartile range,Q) (1)百分位数:表示一组观察值按升序排列,并等分为100等份,位居第x%位置的数。用Px 表示。是一个位置指标。 它将全部数据分成两部分,有X%的数据小于Px,有1- X%的数据大于Px,中位数M是特殊的百分位数,M=P50。是表示集中趋势的指标。,(2)四分位数 下四分位数即P25 ;上四分位数即P75; 四分位间距Q= P75-P25 是指上、下四分位数的间距,它是从小到大排列后中间一半数据所在的范围。四分

3、位数间距越大,数据分布的离散程度越大。 它描述了中间50%数据的离散程度,比极差稳定。,四分位数间距P75-P25,,计算:,例如 对例2-8题求P25,本例的四分位数间距: Q= P75 - P25 =73.20-40.91=32.29(h)。,二、方差与标准差 1、方差 (Variance) 是描述数据分布离散程度的指标。S2表示样本方差, 表示总体方差,总体方差一般未知,常用样本方差来估计,样本方差的计算公式:,上式中的分子部分称为离均差平方和,它描述了每个x相对于 分布的集中程度,若数据x分布相对于 很集中,则分子部分很小;分子部分很大时,则意味着数据分布分散。 因为对所有x,均有 ,

4、所以样本含量n越大,分子越大。为消除n大小不同的影响,将离均差平方和除以(n-1)即得方差。,故方差既描述了所有数据的离散程度,又可用于不同样本含量数据离散程度的比较。方差越大,数据分布的离散度也越大。 方差计算公式中的n-1,称为自由度(degree of freedom)。 自由度:允许其自由变动的变量值个数。如有n个变量,不受任何条件的限制,可自由变动,其自由度则得n ,如受到一个条件限制,自由度则得n-1。自由度用 表示。,方差为一描述离散程度的指标,既有优点也有缺点,如5名儿童的体重方差 2、标准差(standard deviation,s ) 是描述正态分布的定量变量离散程度的指标

5、。标准差越大,说明个体变异越大。 为克服方差的单位是平方,与均数不符的缺点,将S2开方即为标准差S,标准差的计算: 公式中 是变量值的平方和 , 是变量值和的平方。,如今有5名儿童的身高为110、115、120、125、112厘米,其平均身是 其标准差是: 式中,标准差的适用范围: 适用于对称分布资料,尤其正态分布,近似正态分布的资料。与均数配套使用。,三、变异系数(coefficient variation, cv) (1)、计算 (2)、适用范围: 比较资料的变异度,度量衡单位不同时。 比较资料的变异度,均数相差较大时。,例如 调查得知,某农村周岁女童其身高均数为74.2cm,标准差3.0

6、cm;其体重均数为8.42kg,标准差0.98kg。欲比较身高与体重的变异情况,应用变异系数。 身高 体重,思考题,1、为什么要把资料列出频数分布表或图? 频数分布表的划记步骤? 2、常用平均指标在应用上有哪些异同点? 3、标准差、四分位间距、变异系数在应用上有何区别?例如?,正态分布 55页 正态分布的概念和特征 一、概念:一组变量值的频数分布是中间多,两边少,且左右对称的连续性分布。 如果设想成年男子的血清铁观察的人数很多,且组段分得很细,则频数分布图中的直条变的很窄,其顶端窄到是一个点,将这些点连线则成为一条光滑曲线,这条光滑曲线呈钟型,两头低中间高,左右对称,则称其为正态分布曲线。见P

7、56正态分布图。,二、正态分布(曲线)的特征: 1、曲线在横轴之上,以均数处最高; 2、以均数为中心左右对称,两端永远不与横轴相交; 3、正态分布有两个参数:为位置参数, 为形状参数,,描述了正态分布的集中位置,所以称为位置参数, 又称其为总体均数; 描述了正态分布的离散程度, 决定了正态曲线的形状, 越小,分布越集中,所形成的曲线形状越高尖, 越大,分布越离散,所形成的曲线形状越低平。所以称 为形状参数, 又称其为总体标准差。曲线形状见P57图,三、 正态曲线下面积分布规律 1、正态曲线下全面积为100%,或等于1。 2、 占全面积的68.27% 占全面积的95.00% 占全面积的99.00

8、%。 一个服从正态分布的指标,只要求得均数和标准差,就可全面掌握该指标的频数分布规律。 服从正态分布的指标,可简记为 xN(,),-2.58 -1.96 -1 1 1.96 2.58,标准正态分布 标准正态分布与标准化变换 虽然正态曲线下面积分布很有规律,对于服从正态分布的指标,只要知道均数,与标准差 ,就可用公式 求得曲线下(x1,x2)范围内的面积,从而估计在(x1,x2)范围内的频数分布比例,但上述积分是相当困难的,这给实际应用带来诸多不便。,为方便使用,又方便不同 , 使用,考虑对服从正态分布的变量x进行标准化转换: 则z(u) 就服从均数为0,标准差为1 的正态分布,这种正态分布称为

9、标准正态分布。简记作zN(0,1)。,引进标准化转换后,制定一个标准正态曲线下面积分布表,就可借助标准正态表估计任何(x1,x2)范围内的频数分布比例。 标准正态表即附表1 (P433)。 正态分布的应用 一、估计频数分布 例如 出生体重低于2500克为低体重儿。若由某项研究得某地婴儿出生体重均数3200克,标准差为350克,估计该地当年低体重儿所占的比例。,记X为当年该地新生儿出生体重,则X服从正态分布N(3200,350)。 先求(转换) 再查标准正态表得: 即标准正态曲线下从到u-2范围内的面积为2.28%,从而在正态分布N( 3200,350)曲线下,从到X=2500的比例为2.28%

10、,即X2500克的比例为2.28%。故估计该地当年低体重儿所占的比例为2.28%。,二、确定医学参考值范围 1、概念:参考值范围也称为正常值范围。医学上常把绝大多数正常人的某指标波动范围,称为该指标的正常值范围。这里的“绝大多数”可以是90%、95%、99%等等,最常用的是95%。所谓“正常人”不是指完全健康的人,而是指排除了影响所研究指标的疾病和有关因素的同质人群。 2、估计方法: 常用的有百分位数法和正态分布法,见P59。,3、制定正常值选计算方法的原则: (1) 根据资料的分布类型选方法 对于服从正态分布的资料,其参考值范围的制定可用正态分布法计算; u 是系数,根据%大小定, 对于不服

11、从正态分布的指标,直接利用百分位数法(或进行变量变换使之服从正态分布)制定参考值范围。求px,(2) 根据专业知识确定该指标的参考值范围是双侧范围还是单侧范围。 若一个指标过大过小均属异常,制定双侧参考值范围,即参考值范围应既有上限又有下限;若一个指标仅过大属异常,则此指标的参考值范围只有上限,是单侧参考值范围;若一个指标仅过小属异常,则此指标的参考值范围只有下限,也是单侧参考值范围。,对于一个指标,随机抽取一个大样本后,如何据样本资料利用正态分布法或百分位数法制定参考值范围。 例如 某地调查正常成年男子144人的红细胞数(近似正态分布),得均数 =55.381012/L,标准差S=0.44

12、1012/L, 试估计该地成年男子红细胞数的95%参考值范围。,因红细胞数过多或过少均为异常,故此参考值范围应是双侧范围。又因为此指标近似正态,故可用正态分布法求95%参考值范围如下:,三、进行质量控制 常用 作为上、下警戒限 作为上、下控制限 四、正态分布是许多统计方法的基础。 如t检验,F检验等。,第五章 参数估计,一、均数的抽样误差 (Sampling error of mean) 由于个体存在差异,又因抽样造成的样本均数与总体均数间的差异,称为均数的抽样误差,用均数的标准误 (Standard error ,SE) 表示。 均数的标准误 是表示均数抽样误差大小的指标,描述样本均数的离散

13、程度,反映用样本均数估计或推断总体均数的可靠性.,二、均数标准误的计算 表示总体标准差,当 不知道,只知S时,可用下式计算: 从公式中可看出,均数的标准误与两个因素有关,与标准差成正比,与样本例数的平方根成反比。 若标准差固定不变时,可增加n而缩小抽样误差。,三、均数标准误的应用 1、表示均数抽样误差大小,描述(n相同)样本均数的离散程度,反映用样本均数估计或推断总体均数的可靠性; 2、用于估计总体均数的可信区间 ; 3、用于进行均数的假设检验。,第二节 t 分布 一、t分布概念:若干个t值分布所形成的曲线分布。 t值是两均数之差相当于标准误的倍数值。即 如何理解t分布呢?不妨再回忆一下正态分

14、布和标准正态分布: 当变量x服从均数为,标准差为的正态分布时, 可简记为xN(,)。为了方便使用,可对变量x进行标准化转换:,则u的分布服从标准正态分布N(0,1),即u分布。 若从N(,)的正态分布总体中,随机抽样并算得多个样本均数 ,它们则服从总体均数为 ,总体标准差为 的正态分布,对于 也可经过标准化转换,使 服从uN(0,1)的标准正态分布。 但在实际工作中,由于 未知,多是知道 ,则 服从t分布。,二、t 分布的图形和特征 1、 t 分布的图形: t 分布是一簇曲线。它受自由度 的影响(实际是受n不同的影响), 自由度不同时,曲线的形状不同。 n小时, 亦小, t 分布曲线的形状越低

15、平,n越大, 亦越大, t 分布曲线的形状越高尖, 当 时, t 分布曲线趋近于标准正态分布曲线。 见P74图。,2、 t 分布的特征 曲线在横轴之上,以0为中心,左右对称呈钟形。 t 分布曲线有一个参数 , 越小,则 越大,t值分布越分散,t分布的峰部越矮而尾部翘得越高。 当 时, 逼近 ,t分布逼近u分布,故标准正态分布是t分布的特例,第三节 总体均数的估计 统计分析包括统计描述和统计推断两大部分,统计推断包括参数估计和假设检验。 一、参数估计的概念: 是指用样本指标值估计总体指标值。 参数估计有两种方法:点(值)估计和区间估计。 1、点估计(point estimation),2、区间估计 即按预先给定的概率估计包含未知参数的可能范围。称置信区间 (Confidenc

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论