




已阅读5页,还剩145页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1,预防医学 福医卫生统计系 林征 第七章:医学数据的统计描述,2,第七章提纲,数值变量的统计描述 分类资料的统计描述 统计图表 医学统计中常见的分布及其应用,3,统计描述,统计描述就是用适当的表格、图形、数量化的指标,表达数据的数量特征,揭示其分布的规律性 统计描述分为:形象化描述(统计图表)建立对资料的初步印象;数值化的描述(统计指标)给出分布规律及具体数值,4,统计描述,为什么要对资料进行统计描述?,医学研究得到的原始数据(raw data)往往是庞大的、混乱的 个体变异的存在,医学研究中某指标在各个体上的观察结 果不是恒定不变的,但也不是杂乱无章的;从总体的角度上 个体值的出现是有一定规律的,即呈一定的分布 统计描述的结果为进一步的统计推断提供参考,5,统计描述,统计描述的思路:,计算相应统计指标 绘制合适统计图表,判断类型,获取资料,分类汇总相应统计指标 绘制合适统计图表,6,一、数值变量的统计描述,例71:某地2019年随机抽查120名20岁健康男大学生身高(cm) 175.7 171.6 172.4 170.5 172.3 163.8 172.4 167.5 173.6 175.0 178.4 170.4 169.9 173.6 172.0 172.1 179.1 179.4 173.1 172.4 170.4 178.2 172.9 172.7 179.6 174.5 174.8 172.0 175.8 172.7 170.0 168.5 173.8 168.9 179.9 172.4 166.5 171.6 177.0 171.4 170.3 167.4 174.3 172.3 175.3 170.4 171.6 174.1 171.6 173.8 162.8 172.7 174.0 179.6 166.7 166.6 164.3 177.8 182.7 171.4 168.9 175.2 176.7 169.5 176.3 177.7 172.1 166.6 177.1 176.1 171.5 172.3 174.2 174.4 173.5 171.9 167.4 171.7 179.5 177.3 175.3 172.3 174.2 174.4 173.5 171.9 167.4 181.7 179.5 177.3 166.9 168.4 175.2 172.3 172.9 173.6 165.3 171.9 169.1 168.9 178.2 169.5 172.1 178.4 166.6 165.8 171.1 174.9 176.7 174.8 168.2 178.1 170.5 172.3 172.3 169.8 168.1 172.1 180.0 171.2,7,理想的描述结果,8,如何得到上述理想的结果?,频数分布表,分组划计,原始资料,9,求极差R:R=max-min 确定组数:组数的确定应以能够显示数据的分布特征和规律为目的。对于100余例的数据通常分为815组。或根据以下经验公式: 确定组距:组距i是一个组的下限与下一个组段下限之差,可根据全部数据的最大值和最小值及所分的组数来确定,即iInt ( max - min) 组数 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值 统计出各组的频数并整理成频数分布表,1.频数表,10,1.频数表,11,2.频数分布图(直方图),12,频数表与频数图的作用,频数表与频数图可以提供不同分组的观察人数、频率与频率密度 观察分布范围及有无可疑值 确定分布的类型:对称或不对称分布,13,289只近视眼Lasik术后1月裸眼视力,14,对称分布,该人群身高介于162183cm间 以“172”组段的频数最多 从“172”组段向两端逐渐减少 表现出以“172”组段为中心基本对称的特点,15,不对称分布,分布不对称者称为偏态分布skewness distribution 偏态分布又分为正偏分布和负偏分布 正偏分布positive skewness是指分布的长尾在峰的右侧,又称右偏分布right skewed 所谓负偏分布negative skewness是指分布的长尾在峰的左侧,又称左偏分布left skewed,16,Negative skewness:老年人生存质量自评分,自评分,人 数,17,Positive skewness: 黑色素瘤患者的生存时间,生存时间(月),人 数,18,如何更具体、精确?,了解了数据分布的形态(对称与否)、是否有异常值,仅仅意味着对数据有了初步认识,尚未得到数据的“精确”特征 例如:教务处得到04与05两个年级的预防医学成绩,如何判断优劣?,19,3、描述集中趋势与离散趋势的指标,集中趋势central tendency:反映同质的群体中数据向其中心值靠拢的倾向和程度;测量集中趋势就是寻找数据水平的代表值或中心值,该值通常称为平均数 离散趋势disperse tendency:反映各变量值远离其中心值的程度,体现了同质群体内部个体间的变异大小,也称为变异度,20,Part 1:集中趋势指标,常见的平均数指标有:算术均数、几何均数、中位数 不同分布类型的数据用不同的集中趋势指标,21,算术均数,算术均数arithmetic mean (总体均数 , 样本均数)简称均数,在已知各观察单位具体变量值时,可以采用直接法计算,公式如下:,22,算术均数,测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为:4.20、6.43、2.08、3.45、2.26、4.04、5.42、3.38;求其品均水平。 解,23,算术均数,求120名20岁健康男大学生的平均身高 资料来源于整理后的频数表,无法取得原始数据 采用加权法计算加权均数,作为算术均数的近似值,24,算术均数,加权均数(weighted mean) 直接法算术均数是加权均数的一个特例,25,算术均数,26,算术均数,直接法计算的均数为:172.75916666 加权法计算的均数为:172.90000000 二者十分接近;可见加权法计算的结果是对直接法的良好近似;而且加权法的计算较直接法稳定,简便,27,算术均数小结,它是一组数据的均衡点所在;集中趋势的最常用指标 易受极端值的影响 用于定量数据,不能用于分类数据和等级数据 适用于服从对称分布计量资料(正态或近似正态)的集中趋势描述,28,对于某项风险较高的新手术术后的生存时间进行跟踪,共调查了7人, 6人死亡之前分别生存了5天、6天、10天、16天、25天、29天,还有一人术后30天随访时仍存活;求他们的平均生存时间?,问题:,29,中位数,中位数median:观察值排序后处于中间位置上的值 对于有奇数位数的数据 Me (n + 1)/ 2 位数 对于有偶数位数的数据 Me n / 2 位数+ (n / 2 +1)位数 / 2,30,中位数,某药厂观察9只小鼠口服高山红景天醇提取物(RSAE)后在缺氧条件下生存时间(分钟)如下: 原始数据: 49.1 60.8 63.3 63.6 63.6 65.6 65.8 68.6 69.0 排 序: 49.1 60.8 63.3 63.6 63.6 65.6 65.8 68.6 69.0 位 置: 1 2 3 4 5 6 7 8 9,31,中位数,求120名20岁健康男大学生的平均身高 资料来源于整理后的频数表,无法取得原始数据 如何计算中位数?,32,中位数,33,中位数,频数表法计算公式:,式中L50、i50和f50分别为中位数所在组段的下限、组距 和频数; 为小于L50各组段的累积频数,n为总例数,34,中位数,直接法计算的中位数为:172.35 频数表法计算的中位数为:172.93 该组数据的算术平均数为:172.76 可见对于近似对称分布的数据,中位数与算术平均数是十分接近的(理论上对于完全对称分布,二者是相等的) 对于偏态分布的数据,二者的关系又是如何?,35,中位数,对于例76数据,其频数分布图如左,为正偏态 中位数为:15(直接法)或15.66(频数表法) 算术均数为17.08 算术均数大于中位数 取何者更合理些? 对于负偏态,二者关系又如何?取何为优?,36,中位数vs.算术平均数,4位职员月收入3000、3500、4000、4500;经理月收入2万,求该部门5位人员平均月收入? 算术均数求得为7000,但是不论职员还是经理的收入均与此相区甚远,即算术均数作为这一组数据的集中位置不合理 中位数求得为4000元,很好的体现了“少数服从多数”的原则:在4000附近的确人数占绝大多数,这应该是具有说服力的“集中位置”! 能否总结一下为什么舍算术均数而取中位数?,37,中位数vs.算术平均数,对于偏态分布资料,算术均数受极端值的影响,偏离了“中心”位置,不再合理反映“集中点” 所以对于偏态分布数据,多采用中位数反映平均水平 而对于近似对称分布数据,二者均可以反映平均水平,但是算术均数对数据的变化反映较中位数灵敏,得到的指标更精确,38,正、负偏态的由来,对于正偏态数据有算术均数中位数,故算术均数减去中位数为正值,称这种数据分布为正偏态 对于负偏态数据有算术均数中位数,故算术均数减去中位数为负值,称这种数据分布为负偏态,39,适用于分布呈明显偏态,数据中存在极大或极小值,分布的一端或两端无确定数值,或分布不清的资料 它是位置参数,不受极端值的影响,因此较算术均数稳定 对于对称分布的资料,理论上中位数与算术均数是相等的,中位数小结,40,假设某投资者拥有资金1000元,第一年他取得10的收益,第二年为15,第三年为20,求平均收益? 第一年末所拥有的资金为其原始的1.1倍 第二年末所拥有的资金为其原始的1.11.15倍 第三年末所拥有的资金为其原始的1.11.151.2倍 假设他三年来的投资收益是平均的,那么他的年平均收益a应该满足aaa= 1.11.151.2;所以: 即他的年均收益为14.9274905%,而不是(0.10.150.2) /3 =0.15,新问题:平均发展速度,41,新问题:平均抗体滴度,7名慢性迁延性肝炎患者的HBsAg滴度资料为:1:16、1:32、1:32、1:64、1:64、1:128、1:512,求平均滴度? 相似的思路处理抗体滴度问题:假设1:16为基础滴度,则原始数据可以看作是1倍、2倍、2倍、4倍、4倍、8倍、和32倍稀释;求平均稀释倍数 如果改用算术均数的直接法:先将各滴度取倒数,倒数的平均数约为121.14,所以平均滴度约为1:121 比1:121大的有5个数据,而比它小的只有2个,而且大多数的数据在1:100以内,所以看来1:121不合适!,42,已知矩形边长为4和1,求平均边长 已知长方体长、宽、高分别为4、1、2,求平均边长 矩形平均边长为2,长方体平均边长也为2,新问题:平均边长,43,几何平均数,上述例子可见平均边长、平均发展速度、平均抗体稀释倍数等平均指标的求法与算术均数、中位数有所差别 将这种由n个数据相乘后开n次方求得的平均数称为几何平均数geometric mean,表示为G,44,几何平均数,52名慢性肝炎患者的HBsAg滴度经过整理后如右表 采用加权法计算加权几何均数,45,几何平均数与算术均数,从上述公式中可见,几何均数的对数值相当于原观察值对数转化后所求得的算术平均数 算术平均数的使用条件是数据满足对称或近似对称分布;即意味着,如果数据在经对数转换后满足对称分布,就可以求其几何平均数,46,人群血铅含量平均值的计算,47,人群血铅含量平均值的计算,可见血铅值经对数转换后近似对称分布 考虑计算该对数值的算术平均数为1.15 经反对数转换,得到几何均数为14.13,48,几何平均数小结,适用于呈等比级数、或呈倍数变化的数据;例如医学上的抗体滴度、人口变化速度、细菌增长率、药物效价等 常用于表示呈正偏态,但是经过对数转换后可以满足对称(正态)的数据的平均水平 数据中不可以有0,如果有0用一个很小的正数代替;不可同时有正负数 在医学之外,它常用于计算事物变化的平均速度(经济学),49,对于两组资料集中趋势的描述: 样本1:样本含量9,算术均数10.11,中位数9.9 样本2:样本含量9,算术均数10.11,中位数9.9 结论:两个样本完全一样? 样本1: 8.9 9.4 9.6 9.7 9.9 10.4 10.9 11.0 11.2 样本2: 2.9 3.1 3.8 5.1 9.9 10.0 17.0 18.0 21.2,两个样本的资料相同或不同?,50,Part 2:离散趋势指标,离散趋势反映数据特征的另外一个重要方面“离心”程度 从另一个侧面说明了集中趋势测度值的代表程度 不同类型的数据有不同的离散程度测量值,51,极差,极差range:一组数据的最大值与最小值之差 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 一般极差越大,则数据的变异性越大;但是它没有考虑除极值外其他数据的变异情况;而且样本的极差通常过小地估计了总体的极差,52,四分位数,它与中位数一样,都是特殊的位置百分位数 Qu,第75%位数又称为上四分位数(上限) QL,第25%位数又称为下四分位数(下限),四分位数quartile:排序后处于25%和75%位置上的值,53,四分位数的确定,直接计算法*: (对于其他特别的百分位数也适用) 当n x%为小数时Px = X trunc(nx%)+1 当n x%为整数时Px = 0.5 X nx% + X nx%+1 trunc(a)表示对a取整数,去掉小数 : trunc(118.8)=118 频数表法: 第x百分位数 式中Lx、ix和fx分别为第x百分位数所在组段的下限组距和频数; 为小于Lx各组段的累积频数,n为总例数,54,四分位数间距,四分位数间距interquartile range:上四分位数与下四分位数之差 IRQ = QU QL 反映数据离散程度,其值越大数据离散程度越大 体现了中间50%数据的离散程度,但是仍然没有考虑到每个观测值间的变异 受极端值的影响小,比极差稳定 特别适用于分布呈明显偏态;分布形态不清;分布一端或两端无确定数值的资料 常与中位数一起,综合描述数据的集中和离散趋势,55,离均差与离均差和: 为了克服全距、四分位数间距的缺点,人们考虑到用每个变量值与均数之间的差别来反映离散的程度,所以提出了离均差的概念,其数学表达式为 离均差可正可负,但是数学上可以证明,离均差与离均差和,56,离均差平方和与离均差平方和的平均值: 为了避免离均差和等于0的情况,人们考虑将离均差取平方后求其和,于是有了离均差平方和,其数学表达式为 前者称为SS总体,后者称为SS样本;但是SS不但和变异大小有关,还和观察值的个数有关,SS随观察例数增多而增大。为了解决这个问题,人们又引入了离均差平方和的平均值,其数学表达式为,离均差平方和与均方,57,方差,离均差平方和的平均值(MS),又可称为方差variance 它是反映数据离散程度的最常用的指标 在计算方差过程中利用到每个变量值,所以它表达的离散趋势信息比极差、四分位数间距更精确 但是由于在计算方差时用到算术均数,所以方差也只能用于反映对称或近似对称分布资料的离散趋势,58,总体方差通常用希腊字母s2 (sigma)表示,记作: 但是在实际研究中,通常只观察来自总体中的一个样本,所以总体均数是未知的;此时用样本均数作为总体均数的估计值,相应的方差称为样本方差,其公式为:,式中的 n-1 又称为自由度,总体方差与样本方差,59,自由度,自由度degree of freedom, df:一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值x 确定后,只有n-1个数据可以自由取值,其中必有一个数据则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 x = 5。当 x = 5 确定后,如果x1=6,x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面解释,从实际应用角度看,在抽样估计中,当用样本方差S2去估计总体方差2时,它是2的无偏估计值,60,标准差,在取方差的过程中,对离均差作了平方转换,这样方差的单位就是原观察值单位的平方,使用不方便 为了使得观察单位的平均数指标与变异程度指标具有相同的单位,通常将方差的算术平方根作为反映变异程度的一个重要指标,人们将它称为标准差standard deviation, sd,61,方差 (MS) 标准差 (SD),样本,总体,62,方差 (MS) 标准差 (SD),样本(x为组中值),总体(x为组中值),63,1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm,试问身高与体重何者变异情况较大? 要反映变异程度本例题中宜采用标准差;从标准差的数值看来,身高变异程度大于体重。 是否合理? 身高的单位是cm,而体重的单位是kg,能否认为3cm0.98kg?,变异度间的比较问题,64,变异系数,变异系数coefficient of variation:标准差与其相应的均值之比 它反映数据相对离散程度,没有量纲 消除了数据水平高低和计量单位的影响,用于不同性质数据或均数相差较大时,离散程度的比较,65,频数分布表、图,分组划计,原始资料,分布 类型,数值变量统计描述小结,算术均数与标准差,对数转换,几何均数与对数值 标准差的反对数,中位数与四分位数间距,66,二、分类资料的统计描述,分类变量的取值为某种属性,例如: 血型(A、B、O、AB) 人群中某病发生与否(发生、不发生) 性别(男性、女性) 视力等级(差 、中、好) 这些变量值无法直接进行统计运算,通常的做法是按照类别进行统计汇总,分别计算每一个类别的观察单位数,即某个分类的频数 将上述频数绘制成频数分布表,67,某年某社区各年龄居民高血压患病情况,40与50年龄段为高血压的高危年龄段!,68,某年某单位各年龄居民高血压患病情况,60岁以上年龄段为高血压的高危年龄段!,69,相对数,对分类变量汇总后,通常这些频数不能直接比较;分类资料的统计描述与推断中通常使用相对数,而不是绝对数 相对数指标是由两个有联系的指标之比组成,70,常用的相对数指标,比(ratio) 构成比(proportion) 率(rate),71,1、相对比,相对比ratio含义:两个相关联的指标之比 计算公式: 特点:无量纲、取值可以超过1;A与B的量纲可以相同也可以不同,但是A与B互不包含 常用指标有:性别比、每千人口的医生数、动态数列分析指标等,72,2、构成比,构成比proportion含义:反映事物内部某个部分占总体的比重;分子包含在分母中 计算公式: 特点:无量纲、在01间取值、不独立性、可加性 常用指标有:性别构成、疾病构成、年龄构成、职业构成等,73,3、率,率rate含义:反映某一时间段内,某一事件出现的机会大小(近似于一段时间内发生某事件的平均概率) 计算公式: 特点:多来源于随访性资料、分母中含有时间定义、取值有时会超过1(时间取半年、半月) 常用指标有:发病率、死亡率、出生率等,74,应用相对数的注意事项,防止概念混淆;分析时不能以构成比代替率 计算相对数的分母一般不宜过小 正确地合并估计率(平均率或合计率) 相对数比较时要注意可比性,75,防止概念混淆,并非所有 含“率” 的指标都表达是发生的可能性大小,很多情况下这些含“率”的指标是相对比 例如:,76,某年某市高血压发病情况,某年某市畸胎发病情况,proportion vs. rate,77,相对数比较时的可比性,78,4、率的标准化,出现这种矛盾现象的原因在于两院不同科室病例构成不同 甲院以内科病例居多,乙院却以外科病例居多,而外科病例的治愈情况较内科好得多,造成乙院的治愈人数较多,在合计时乙院的总治愈率高于甲院 可见这两组资料内部的构成不同(不同的科室治愈率是不同的),可比性差,不可直接比较总治愈或合计治愈率,79,率的标准化,采用统一的标准对内部构成不同的各组频率进行调整,而后对比各组标准化率的方法称为率的标准化法 调整后的率为标准化率,简称标化率(standard rate),或调整率(adjusted rate) 标准化的目的是使得不同构成的各组间比较时具有可比性;其做法是对那些在各组间分布不均衡,并且可能对研究结果造成影响的因素(混杂因素)进行调整、校正,使得它们对结果的影响在各组间一致 常见的混杂因素有年龄、性别、病情等,80,率的标准化,81,标准化率的计算,率的标准化的方法通常有直接与间接法两种 两种方法的使用条件不同,82,直接标准化率,已知各构成组分的率时(或已知各组分的观察单位数与各组分观察阳性数),可采用该法 在用直接标准化法计算标准化率(标化率)时要选择一个“标准人群”,例如:标准人口、标准年龄构成,等 该标准不可随便选择,一般选用标准的方法有三种,83,直接标准化率标准选取,选择一个有代表性的、内部构成相对稳定的较大人群作为标准;例如全国人口、全省人口 将要比较的两组资料合并后作为共同的标准 将要比较的两组中任意一组作为共用标准,84,直接标准化率,期望生存 人数 ei=nipi,811,期望生存 人数 ei=nipi,649,使用合并的人口数Ni作为标准人口 甲院标化生存率 =811/1138=71.23% 乙院标化生存率 =649/1138=56.99% 排除了两院病例淋巴结转移情况不同后,甲院的生存情况较乙院好,85,直接标准化率,直接标准化法的一般公式: 求得人群不同构成标准人口ni与原构成的率pi时,标化率p:,86,标准化法的注意事项,通常在不同群体间的内部构成不同时,如果欲对它们进行相互比较,可以考虑采用标准化法 常见的内部构成因素有:年龄、性别、病情等因素 标准化率并不是本身的 “真值”,而是以标准人口作为参考,对各被标化组进行的调整后得到的相对的“率”,仅仅反映不同的组间的相对水平,87,标准化法的注意事项,标准化率随着标准人群的不同而不同;但是标化率的大小倾向是相同的;通常的“标准人群”有前述几种情况,不可随意选择 对于总体资料,经过标准化后的调整率可以直接比较;而对于样本资料,标化后的率需要作假设检验 如果资料出现“交叉”情况,慎用标准化,88,三、统计图表,避免冗长的文字叙述,使要表达的内容中 心突出,简单明了,便于直观分析和比较 它是资料组织、整理的有力工具,方便研究者进行资料的校对,89,1、统计表statistical tables,什么是统计表: 统计表就是以表格的形式,表达被研究对象的特征、内部构成及研究项目分组之间的数量关系 统计表结构与绘制要求: 三大组成(线条、文字、数字) 重点突出,简洁明了(一事一表) 层次分明(避免层次过多或结构混乱),90,统计表的结构,线条 文字 数字,91,线 条,三线到五线、只有横线,92,文字,标题 标目 备注,93,文 字,标 题 (表号3w),注 释,纵标目(谓语、宾语),(主语) 横标目,94,数 字,158.9 68.5 0.0 ,95,统计表格的种类,简单表:只有一个分组依据 组合表:有两个或两个以上的分组依据,96,简单表,97,组合表,98,统计图,统计图的结构和绘制原则 按照资料的性质与分析目的选择适当的统计图 与统计表相似,构成统计图的主要有:标题(图下方)、标目(坐标轴上)、坐标轴(5:7)、图形、图例等 坐标轴如果没有特殊要求最好从0开始 线图中各个点的连接采用线段,不作外延,99,城、郊89-98年糖尿病死亡情况,100,线图,101,线图,用线段的上升或下降表示某事物随另外一个事物变化的趋势(普通线图)或变化的相对速度(半对数线图) 绘制线图时应注意以下几点 时间一般绘在横轴,指标数据绘在纵轴 图形的长宽比例要适当,其长宽比例大致为10 : 7 一般情况下,纵轴数据下端应从“0”开始,以便于比较。数据与“0”之间的间距过大时,可以采取折断的符号将纵轴折断,102,普通线图与半对数线图,普通线图的纵坐标为算术尺度,刻度是等间距的;半对数线图的纵坐标为对数尺度,刻度间是等比例的(呈倍数变化) 普通线图用于反映一个变量随另一个变量的变化的趋势;半对数线图则反映一个变量随另一个变量变化的相对速度,103,两种疾病15年的死亡率变化,104,线图vs.半对数线图,105,线图vs.半对数线图,将线图中的纵坐标转换为对数值,而横坐标尺度仍为算术值不变,这样的线图称为半对数线图 依据对数值的特点,任意两个点纵坐标值之差可以看作相同底数的幂次之差,体现了事物发展的相对速度 所以线图反映指标随时间变化的趋势和改变的绝对幅度,而半对数线图则反映变化的趋势与相对速度,106,某年某地三种疾病的死亡率,107,直条图,用宽度相同的条形的高度或长短来表示各独立分类数据的大小 有单式条形图、复式条形图等形式 绘制时,各类别可以放在纵轴,称为条形图,也可以放在横轴,称为柱形图,108,某年某地120名20岁健康男大学生身高,109,直方图,用矩形的宽度和高度来表示频数分布的图形,实际上是用矩形的面积来表示各组的频数分布 在直角坐标中,用横轴表示数据分组,纵轴表示频数或频率,各组与相应的频数就形成了一个矩形,即直方图 设定直方图下的总面积等于1,110,直方图vs.直条图,条图是用条形的长度或高度表示各类别频数的多少,其宽度是固定的,没有意义 直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数,宽度则表示各组的组距,其高度与宽度均有意义 直方图的各矩形通常是连续排列,不同分组间不可调换;条形图则是分开排列,通常情况下任意两个或多个条块间可以相互调换 条形图主要用于展示独立分组变量的数值大小,直方图则主要用于展示定量变量的频数分布,111,两种脱落牙的再植效果,112,百分圆图,113,百分条图,114,构成图,包括百分条图和圆图 分别是用矩形以及圆形内各部分的面积来表示总体或样本中各组成部分所占的比例,即内部构成问题,115,散点图,以点的密集 程度和趋势表 示两个变量间 的关联密切程 度与关联方向,116,统计图表小结,统计图表是统计描述的得力工具 统计表展现精确的数值指标但不够直观;统计图令人映象深刻却不够精确 两者通常一起结合使用,117,四、正态分布,最早是由法国数学家德.莫阿弗尔(A. de. Moivre, 16671754)于1733年提出(The Doctrine of Chances,1738);C.F.高斯(Carl Friedrich Gauss,17771855)则将其成功推导(Theory of motion of the celestial bodies moving in conic sections around the sun ,1809),用于使得正态分布广为人知,故又称为Gauss Distribution 许多现象都可以由高斯分布来描述 :例如,在生产条件不变的情况下,抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。 于是人们将正常现象的数值满足的分布称为“Normal Distribution”,118,10 Deutsche Mark,119,随着组段的无限细分、样本含量的无限增加,原本崎岖不平的直方图的轮廓逐渐变得平整,以至于形成一条光滑的连续曲线正态分布曲线,直方图 钟形曲线,120,正如数学曲线中 x 与 y 严格的对应关系,在正态分布曲线坐标轴上的点 x, y也有严格的数学对应关系: 上式中,f(x) = 随机变量 X 的概率密度函数 = 正态随机变量X的总体均数 = 正态随机变量X的总体方差 = 3.1415926; e = 2.71828 x = 随机变量的取值 (- x ),Probability density function,121,随机变量xN( m,s2),如果随机变量X的概率密度函数满足: 则称X服从正态分布,记作xN(, 2),其中: 为分布的均数, 为分布的标准差。,122,方差相等、均数不等的正态分布图示,123,均数相等、方差不等的正态分布图示,1,124,正态分布的图形特征,单峰分布;高峰在均数处;两边沿横坐标轴无限延伸,理论上永远不与之相交 以均数为中心,均数两侧完全对称;在ms处有拐点(在该范围内是凸的,其它范围内是凹的) ,表现为关于均数完全对称的钟形曲线。 正态分布有两个参数(parameter),总体均数决定了正态分布的高峰位置,所以它是正态分布的位置参数;而总体标准差决定了正态分布的分布跨度,所以它是正态分布的形状参数。 总体均数增大,分布向横坐标右侧平移;反之,向右平移;如果总体标准差增大,分布变得矮胖,反之变得高瘦,125,正态分布曲线下面积的含义,曲线下面积是指由分布曲线与横坐标或者横坐标上的特定区间所围成的区域的面积,曲线下面积,曲线下面积,126,正态分布曲线下面积的含义,对于连续型的计量资料,x可以取某个区间或整条数轴上的任意点值;对于横坐标轴上的任意特定点,其所对应的曲线下面积都等于0(因为线的面积等于0),127,正态分布曲线下面积的含义,设定曲线下面积等于1,对于横坐标轴上的某个区间(axb)的曲线下面积,其含义为x取该区间值时对应的概率有多大;其数值的大小用分布函数式F(X)表示,128,曲线下的面积的计算,对于任意一个区间的曲线下面积,在知道变量值x对应的概率密度函数f (x)后,都可以根据微积分的方法求出其面积的大小,129,正态曲线下的面积规律,X轴与正态曲线所夹面积恒等于1(相当于x的所有取值都在横坐标轴上) 。 对称区域面积相等,F(-, -X),F( +X,),F( +X,)F(-, -X),130,正态曲线下的面积规律,-3 -2 - + +2 +3,F(-, -3)=0.0013,F(-, -2)=0.0228,F(-, -1)=0.1587,F(-, )=0.5,F(-, +3)=0.9987,F(-, +2)=0.9772,F(-, +1)=0.8413,F(-, )=1,131,正态曲线下的面积规律,正态分布的一个显著特点: 其曲线下面积完全决定于以标准差为单位从点x到的标准离差(标准离差的含义为标准差的倍数),132,正态曲线下的面积规律,正态曲线下面积总和为1 正态曲线关于均数对称;对称的区域内面积相等 对任意正态曲线,按标准差为单位,对应的面积相等 -1.96 +1.96内面积为95% -2.58 +2.58内面积为99%,133,虽然服从正态分布的指标,只要知道均数与标准差 , 就可用微积分的方法求得任意范围曲线下面积,但此积分是困难的,这给实际使用带来诸多不便。 例如:当=0,=1时,在(-1.96,1.96)范围内正态变量取值概率为0.95,而当=0, =1.96时,在 (-1.96, 1.96)范围内正态变量取值概率就不是0.95,而是0.68。这就是说P的大小不仅与区间上下限(x1, x2)有关,还与、 有关,而我们不可能针对每个不同的与都制一张表供研究者参考 为了制一张可供不同的、 共同使用的表,考虑引进标准化变换与标准正态分布。,计算曲线下面积的问题,134,标准正态分布,标准正态分布standard normal distribution是均数为0,标准差为1的正态分布 记为N(0,1) 标准正态分布是唯一的 概率密度函数:,135,正态分布转换为标准正态分布,若 xN(,2),作
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 实习生实习协议及职业规划辅导与劳动权益保障服务合同
- 演出票务推广补充协议
- 核电站核安全操作员岗位全职聘用及职业资格认证合同
- 母婴用品店智能化设备与特色商品供应协议
- 动作捕捉数据采集与三维模型重建租赁合同
- 小红书店铺运营策略与品牌建设合作合同
- 商业街区户外广告位租赁合作协议
- 《侵袭性肺炎的临床诊断与治疗》课件
- 《手腕骨折的认识与处理》课件
- 食品安全课件比赛参赛指南
- 山西太原事业单位考试《行测》模拟题带答案2024年
- 2025年中考英语第一次模拟考试(苏州卷)(原卷版)
- 福州一号线盾构法地铁工程整体施工组织设计
- 公务员考试-经济基础知识模拟题-计量经济学-协整与误差修正模型
- 资源与运营管理-第一次形考任务-国开-参考资料
- 五年级下册数学教案 - 8.1《复式条形统计图》 北师大版
- 2025年二建《建筑工程管理与实务》考前必刷必练题库500题(含真题、重点题)
- 2025云南师范大学辅导员考试题库
- 学生健康档案管理制度
- Unit 7 A Day to Remember Section A (课件)-2024-2025学年英语人教版7年级下册
- 4.2《 依法履行义务》教学设计 -2024-2025学年统编版道德与法治八年级下册
评论
0/150
提交评论