第二章-定量资料的统计描述_第1页
第二章-定量资料的统计描述_第2页
第二章-定量资料的统计描述_第3页
第二章-定量资料的统计描述_第4页
第二章-定量资料的统计描述_第5页
已阅读5页,还剩88页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定量资料的统计描述

统计图:频数分布图统计表:频数分布表

统计指标:集中趋势指标

离散趋势指标利用统计表对数据进行概括;用统计图对分布形态及分布间的关系做直观的表达;用于描述定量资料的统计指标的意义与计算。1第一节频率分布表与频率分布图

频数分布:n个变量值在各变量值区间内的个数(f)分配。频率分布:n个变量值在各变量值区间内所占的比例分配。

2例2.11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,…4,7离散型资料(discretedata)是指变量取值可以一一列举的资料。

一、离散型定量变量的频率分布表2-11998年某地96名孕妇产前检查次数频率分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5

51212.596100.0合计96100.04

频数(率)分布表(frequencytable):将资料的观察值按大小分为若干组段,描述各组段及相应组段频数(率)的统计表称为频数(率)分布表,简称频数(率)表。5

(一)频率分布表

例2-11998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,4,1,0,6,5,1,3,3,……4,7。整理成表2-1得频率分布表。一、离散型定量变量的频率分布6表2-11998年某地96名孕妇产前检查次数频率分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.5

51212.596100.0合计96100.07

频率:各组的频数除以总例数n所得的比值。频率描述了各组频数在全体中所占的比重,各组

频率之和等于100%。

累计频数:本组段的频数与以前各组段的频数

相加;

累计频率:每组段的累计频数除以总例数。

8(二)频率分布图——直条图

横坐标:变量,即产前检查次数;纵坐标:频率,即产前检查K次的妇女在被统计妇女中所占的比例%。等宽直条的高度:表示各组频率

9

图2-1某地96名孕妇产前检查次数频率分布频率(%)产前检查次数(一)频率分布表例2-2

:抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L)见P12,试编制频率分布表。二、连续型定量变量的频率分布连续型资料continuitydata:是指变量取值不能一一列举即变量取值为一定范围内的任意值的资料。11数据7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.5212

组段(1)f(2)6~18~310~612~814~1216~2018~2720~1822~24~26~28~12841合计120表2120名正常成年男子血清铁含量的频数分布表

1、求全距(极差)

极差(range):极差也称全距,即最大值和最小值之差,记作R。本例频数表的编制步骤14

根据极差选定适当“组段”数。组段数通常取8~15

组。2、确定组段数、组距15适用范围:与均数配套用绝对变异受平均水平的影响411596.含药量(mg)例2-11试观察3组数据的离散情况。101名正常人的血清肌红蛋白()含量分布354739.例2-3测得8只正常大白鼠总酸性磷酸酶含量(U/L)为4.频数累积频数累积频率66之间,其四分位数间距为0.(二)频率分布图——直条图标准差的计算公式结合均数描述正态分布的特征,并确定绝对变异受平均水平的影响①两端的组段应分别包含最小值或最大值;

组距等组距频数表:常见不等组距频数表:少见2、确定组段数、组距16组段下限(L):每个组段的起点组段上限(U):每个组段的终点3、确定各组段的上、下限①两端的组段应分别包含最小值或最大值;②尽量取较整齐的数值作为组段的端点,便于对数据进行表述;③最后一个组段应同时写出上限和下限17

6~8~10~12~14~16~18~20~22~24~26~28~30

合计

一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一13681220271812841组段划记频数120

4、列表整理、统计各组段的频数、频率

18数据7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.521920同一组资料,不同的人编制的频数表,结果不尽相同,允许几个合理的结果并存。

21横坐标——指标(变量)纵坐标——频率密度即频数/组距或频数(等组距频数表)各矩形(宽度为组距)的面积——代表各组段的频率(二)频率分布图——直方图22

图中横轴为血清铁含量,纵轴为频率密度,直条面积等于相应组段的频率。231、作为陈述资料的形式:简单明了或直观形象,便于进一步计算指标和统计分析。三、频率分布表(图)的用途24(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布

(2)偏态(峰)分布:正偏峰分布负偏峰分布2、揭示资料的分布类型25

含药量(mg)

(1)

频数

f(2)37~340~643~1546~1849~3052~1455~1158~261~641合计100表某药100片的含药量的频数表频数图100片药片含药量的直方图37404346495255586164含药量(mg)

正偏态(峰)分布115名正常成年女子血清转氨酶(mmol/L)含量分布

转氨酶含量人数12~215~918~1421~2324~1927~1430~1133~936~739~442~4532829101名正常人的血清肌红蛋白()含量分布

负偏态(峰)分布3031

频数分布对称分布型:指集中位置在正中,左右两侧频数分布大体对称。偏态分布型:指集中位置偏向一侧,频数分布不对称。偏态分布型正偏态分布:集中位置偏向数值小的一侧。负偏态分布:集中位置偏向数值大的一侧。

32集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18

这个组段,这种现象为集中趋势离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近6最高的接近30,这种现象称为离散趋势3、描述资料的分布特征33集中趋势:观察值的平均水平或集中位置,用平均数反映离散趋势:观察值的变异程度或离散程度,用变异指标反映3、描述资料的集中趋势与离散趋势344.便于发现某些特大和特小的可疑值可疑值可疑值35计量资料(定量资料、数值变量资料)总体:有限或无限个(定量)变量值样本:从总体随机抽取的n个变量值:

X1,X2,X3,……,Xn

n为样本例数(样本大小、样本含量)第二节描述集中趋势的统计指标36一、描述集中趋势的统计指标平均数(average):描述一组变量值的集中位置或平均水平的指标。常用的平均数有(算术平)均数、几何(平)均数、中位数不同的分布使用不同的平均数

371、算术均数(mean)意义:用于反映一组呈对称性分布的变量值在数量上的平均水平或者说是集中位置的特征值。应用:对称性分布,尤其是正态分布符号:38(1)直接计算法39

例2-3测得8只正常大白鼠总酸性磷酸酶含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。40

(2)加权法(频数表法,大样本资料)f:各组段的频数k:频数表的组段个数(组中值)41120名成年男子血清铁含量均数、标准差计算表(加权法)

组段

频数(f)

组中值(X0)

fX0(1)(2)(3)(4)=(2)(3)(5)=(3)(4)

6~8~10~12~14~16~18~20~22~24~26~28~30合计13681220271210841120(∑f)72766104180340513378276200108292228(∑fX0)7911131517192123252729492437261352270057809747793863485000291684143640()42均数的几何意义均数代表每组观察值的平衡点,也就是重心。如:(1,4,7,8)则均数为5。则图示如下:均数的重要特性:离均差(各观察值与均数之差)总和等于零1234567843

均数的应用

它最适用于对称分布资料,尤其是正态分布资料。因为这时均数位于分布的中心,最能反映资料的集中趋势。442、几何均数(geometricmean)意义:可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均水平。应用:倍数关系或对数转换后呈对称分布,尤其是对数正态分布符号:(样本)45

(1)直接计算法46

例:某公司五名职员的薪水分别是:

10,100,1000,10000,100000。47

例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。求其平均效价。7份HBsAg的平均滴度为1:6448

(2)加权法适用于相同观察值较多或频数表资料。49

例2-652例慢性迁延性肝炎患者的HBsAg滴度数据见表2-4,求其平均滴度。

52例慢性肝炎患者的HBsAg滴度的几何均数为1:119.7470550

几何均数应用的注意事项:

1)几何均数常用于等比级数资料或对数正态分布资料。

2)观察值中不能有0。

3)观察值中不能同时有正值和负值。

51意义:是将n个变量值从小到大排列,位置居于中间的那个变量值。用途:偏态分布资料;一端或两端无确切数值的资料(开口资料);分布不明的资料。符号:M(样本)3、中位数(median)52

1,3,7,55,86,100,中位数为多少?

1,3,7,55,100,中位数为多少?53(1)直接计算法

(小样本时)n为奇数时

n为偶数时

54(2)频数表法

(大样本时)LM,iM,fM分别为M所在组段的下限、组距和频数,

fL为M所在组段之前各组段的累积频数。

55下限值L上限值Ui;fm中位数M56发汞值(

g/g)(1)频数累积频数累积频率

(2)(3)(4)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~121210.08354739.50327966.392510487.40711193.28411596.64311899.16011899.16011899.161119100.00

某地119名正常女性发汞值资料如下表所示,试计算其中位数。

M

即该地119名正常女性平均发汞值为1.26(

g/g)57

指把数据从小到大排列后位于第X%位置的数值。它是一种位置指标,用来表示。一个百分位数是将全部变量值分为两部分,在不包含的全部变量值中有的变量值比它小,有变量值比它大。4、百分位数(percentile

)58百分位数图示X%

PX(100-X)%50%分位数就是中位数

59

百分位数示意图60

(1)百分位数的计算LX,iX,fX分别为PX

所在组段的下限、组距和频数,

fL为PX

所在组段之前各组段的累积频数。61发汞值(

g/g)(1)频数累积频数累积频率%(2)(3)(4)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~121210.08354739.50

327966.39

2510487.40711193.28

411596.64311899.16011899.16011899.161119100.00P25(

g/g)

某地119名正常女性发汞值资料如下表所示,试计算其P25,P75,P90。

62发汞值(

g/g)(1)频数累积频数累积频率

(2)(3)(4)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~121210.08354739.50

327966.39

2510487.40711193.28

411596.64311899.16011899.16011899.161119100.00P75(

g/g)

某地119名正常女性发汞值资料如下表所示,试计算其P25,P75,P90。

63发汞值(

g/g)(1)频数累积频数累积频率

(2)(3)(4)0.3~0.7~1.1~1.5~1.9~2.3~2.7~3.1~3.5~3.9~121210.08354739.50

327966.39

2510487.40711193.28

411596.64311899.16011899.16011899.161119100.00P90(

g/g)

某地119名正常女性发汞值资料如下表所示,试计算其P25,P75,P90。

64(2)百分位数的应用

用于描述样本或总体观察值序列某百分位置的水平。

用于确定偏态分布资料的参考值范围。

用于描述偏态资料的变异程度。655、众数众数:指总体中出现机会最高的数值。样本众数则是在样本中出现次数最多的数值66正态分布时:均数=中位数=众数

正偏态分布时:均数>中位数>众数

负偏态分布时:均数<中位数<众数67变异指标:描述一组变量值的变异程度或离散趋势的指标.常用的变异指标有极差、四分位数间距、方差或标准差、变异系数不同的分布使用不同的变异指标第三节描述离散趋势的特征数68例三组同龄男孩的身高值(cm)69例2-11试观察3组数据的离散情况。A组2628303234B组2427303336C组262930313470

设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、505、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。71甲医生得出的5个观察值间的差异离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。721、极差适用范围:任何计量资料,是参考变异指标极差(R):即一组变量值最大值与最小值之差。73四分位数间距,用Q

表示:

适用范围:适用于各种类型的连续型变量,特别是偏态分布的资料2、四分位数间距74极差(range):极差也称全距,均数代表每组观察值的平衡点,也就是重心。乙得出了520、510、500、490、480,例2-652例慢性迁延性肝炎患者的HBsAg滴度数据见表2-4,求其平均滴度。121210.3928~30说明有50%女性的发汞值在0.中位置,用平均数反映327966.(2)加权法(频数表法,大样本资料)(2)通常,平均数与变异指标一起描述资料的分布特征。样本方差、标准差用、表示.如:(1,4,7,8)则均数为5。适用于相同观察值较多或频数表资料。

说明有50%女性的发汞值在0.90和1.66之间,其四分位数间距为0.76(

g/g),中位数为1.26(

g/g)。上例计算四分位数间距75

方差(variance)也称均方差,与标准差(standarddeviation)都是反映一组数据的平均离散水平的指标。

适用范围:与均数配套用3、方差与标准差总体方差、标准差用、表示;样本方差、标准差用、表示.76

方差的计算公式(通常未知

)(将原有的单位平方)77样本方差为什么要除以(n-1)

与自由度(degreesoffreedom)有关。自由度是数学名词,在统计学中,n个数据如不受任何条件的限制,则n个数据可取任意值,称为有n个自由度。若受到k个条件的限制,就只有(n-k)个自由度了。计算标准差时,n个变量值本身有n个自由度。但受到样本均数的限制,任何一个“离均差”均可以用另外的(n-1)个“离均差”表示,所以只有(n-1)个独立的“离均差”。因此只有(n-1)个自由度。

78

标准差的计算公式(通常未知

)

(应用非常广泛

)

79

直接法(小样本):频数表法:

标准差的计算或80例用直接法计算甲组儿童身高的标准差公式(3-6)(2)(3)(4)合计120(∑f)2228(∑fX0)43640(∑fX02)例二:某地不同年龄组男子身高(cm)的变异程度。411596.411596.或频数(等组距频数表)负偏态分布:集中位置偏向数值大的一侧。354739.2、几何均数(geometricmean)(1)不同的分布使用不同的变异指标可用于观察指标单位不同时,如身高与体(2)通常,平均数与变异指标一起描述资料的分布特征。是统计描述的一个重要的组成部分311899.

可见:甲组5名儿童的身高的变异程度最大,丙组最小。82120名成年男子血清铁含量均数、标准差计算表(加权法)

组段

频数(f)

组中值(X0)

fX0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论