北京协和医学院统计-定量资料的统计描述_第1页
北京协和医学院统计-定量资料的统计描述_第2页
北京协和医学院统计-定量资料的统计描述_第3页
北京协和医学院统计-定量资料的统计描述_第4页
北京协和医学院统计-定量资料的统计描述_第5页
已阅读5页,还剩53页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

定量资料的统计描述主要内容频数分布集中趋势离散趋势被平均中国人公共假期每年已有115天;中国全国家庭平均住房面积116.4㎡;北京平均月薪9227元;中国男性平均身高174.2厘米;中国人平均生育1.18个孩子;中国家庭资产平均为121.69万元,城市家庭平均为247.60万元,农村家庭平均为37.70万元。变量和研究资料的类型数值变量、定量资料、计量资料分类变量、定性资料、计数资料顺序变量、有序分类变量、等级资料定量资料定量资料是指每个观察单位某个变量用测量或其他定量方法观察结果,一般有计量单位。定量资料、数值资料、计量资料(measurementdata,quantitativedata,numericdata)定量资料的各个观察值之间有量的区别,没有性质的不同。连续型资料和离散型资料连续型资料(continuousdata)

任何两个连续型数据之间都有无穷多个数据;只要测量仪器足够精确,连续型数据可以精确到小数点后无限位。离散型资料(discretedata)

是一种计数(countdata),只能是0和正整数,不会是负数,也没有小数点,如心率、血小板数。有些离散型数据的描述要参照分类资料处理,如龋齿个数、流产次数、尿失禁次数、交通事故死亡人数。分类资料分类资料、也称为定性资料、计数资料,是将观察单位按某种属性分组计数的定性观察结果。分类资料的变量值只能代表事物的某些属性或分类,表现为无不相容的类别或属性。各观察单位之间没有量的区别,但有质的不同。分类资料二分类资料如男或女;阳性或阴性;生存或死亡等。多分类资料无序多分类资料血型:A型、B型、O型和AB型;肺癌类型:腺癌、鳞癌、未分化癌、类癌等。有序多分类资料:即等级资料等级资料等级资料、也称为有序多分类资料,是介于定量资料和定性资料之间的半定量观察结果。等级资料的各个类别之间存在着大小和程度上的不同,但是不能精确地测量相邻的两个变量值之间的差别。疗效:痊愈、有效、无效和恶化;文化程度:小学、中学、大学和研究生;抑郁症的程度:轻度、中度和重度。随机变量和研究资料的类型频数分布表

当观察值很多时,直接从原始数据很难得出概括的印象,为了解资料的分布特征,可通过资料的整理,编制频数分布表,来显示数据分布的范围、数据最集中的区间和分布的形态。定量资料的频数分布表编制频数表就是把资料的取值范围分割成若干个互不相交的组段,统计每个组段内的观察值个数作为对应的频数,由各个组段的范围及其频数构成最基本的频数分布表。某地儿研所测得该地150名12岁健康男童体重(kg)原始数据如下,试编制频数表。25.234.934.338.141.327.833.837.728.433.547.334.830.536.251.038.043.840.937.536.633.447.436.441.436.542.533.729.339.637.539.633.232.129.943.733.835.137.832.438.528.236.523.435.834.127.642.623.137.144.035.644.546.535.031.836.436.247.938.720.537.129.238.241.136.243.532.836.331.830.638.539.628.733.735.142.920.1

35.426.542.039.638.735.451.231.434.125.329.638.243.733.824.529.245.932.523.536.827.234.034.744.441.235.342.634.130.031.440.827.348.635.829.745.641.833.028.333.335.140.638.237.625.537.337.541.538.444.243.231.540.234.537.437.833.432.233.432.432.836.845.741.240.936.547.935.739.342.235.330.127.2

找出最大值和最小值,计算极差。极差(R)也叫全距,它是一组变量值中最大值与最小值之差。最大值为51.2kg,最小值为20.1kg,极差R=51.2-20.1=31.1kg。按极差大小决定组段数和组距经验划分:组段数的多少一般根据观察单位的多少来确定,过多或过少均不能更好地反映资料的分布特征,以能够反映频数分布的特点为宜,一般分为8~15组。本例初步确定为10个组。按极差大小决定组段数和组距

相邻组段下限值之差称为组距,一般分组时取组距相等。组距≈极差/组数,常取整数作组距,以方便资料的整理汇总。本例组距=31.1/10=3.11≈3。确定组段的上下限每个组段的起点称“下限”,终点称“上限”;第一组段必须包括最小值,一般取略小于最小值的整数作为第一组的下限,但是第一组的下限值一般不能等于最小值;各组段既不重叠,也不能留空隙;最后一个组段应该包括最大值,并且封口。计算各组段的频数、频率本例最小值为20.1,故取20为第一组的下限。第二组下限即20+3=23,余类推。

最后一个组段为50~53,包括最大值51.2。列表划记,统计各组段频数。计算频率与累计频率。150名12岁男童体重(kg)频数分布表

组段频数f频率(%)累计频数累计频率(%)20~21.321.323~74.796.026~106.71912.729~1510.03422.732~2516.75939.335~3523.39462.738~2315.311778.041~1812.013590.044~85.314395.347~53.314898.750~5321.3150100.0合计150100.0频数分布图(直方图)频数分布的类型

频数分布分为对称分布和偏态分布两种。对称分布:集中位置在正中,左右两侧频数分布大体对称。偏态分布:正、右偏态(峰)分布:集中位置偏于左侧,频数尾部向右侧延伸。负、左偏态(峰)分布:集中位置偏向右侧,频数尾部向左侧延伸。链球菌感染咽炎患者潜伏期分布图(正偏峰分布)207例某恶性肿瘤患者年龄分布(负偏峰分布)分类资料和等级资料的频数分布编制频数分布表的方法是直接计算出每一个观察值的频数和频率。分类资料的频数分布图为条图(或称柱状图,Barplot)。分类资料和等级资料的频数分布A组B组合计N%N%婚姻状况未婚2322.11817.341已婚8177.98682.7167孕次02524.02322.14811817.32524.04323634.63129.86731918.31615.435>365.898.715频数表的用途

揭示定量资料的分布特征;描述定量资料分布的集中趋势和离散趋势。发现资料中远离群体的某些特大或特小的可疑值。定量资料的统计描述集中趋势(平均水平)离散趋势(变异程度)集中趋势

平均数用来描述一组变量的集中趋势,常作为一组资料的代表值,使资料产生简明概括的印象,又便于组间的比较,也称为位置度量指标。均数(mean)几何均数(geometricmean,G)中位数(median,M)均数均数是算术均数的简称,它反映了一组观察值在数量上的平均水平。总体均数用希腊字母μ表示,样本均数用表示。均数的计算

均数的计算方法有直接法和加权法,计算机运算中多采用直接法。均数的计算直接法是将所有性质相同的观察值x1,x2,x3…xn,直接相加再除以观察值的个数n。例:10名12岁健康男童体重(kg)分别为39.6,33.2,32.1,29.9,43.7,33.8,35.1,37.8,32.4,38.5,求平均体重。均数的计算加权法组中值:该组段下限和上限的均值,或该组段下限和下一个组段下限的均值。组中值组段组中值频数f频率(%)20~21.521.323~24.574.726~27.5106.729~30.51510.032~33.52516.735~36.53523.338~39.52315.341~42.51812.044~45.585.347~48.553.350~5351.521.3合计150100.0均数的计算均数的应用

描述呈对称分布的资料,特别是正态分布或者近似正态分布的资料的平均水平,此时均数位于分布的中心,最能反映分布的集中趋势。几何均数(G)用于描述等比级数资料和对数正态分布资料等的平均水平。几何均数常适用于右偏态分布资料。几何均数的计算直接法:是将n个观察值x1,x2,x3…xn的乘积开n次方所得的根。加权法:几何均数应用的注意事项观察值不能为0。因为0不能取对数,也不能与任何其它数呈对数关系。可以把所有的变量值均加上一个较小的常数,如加0.001。观察值不能同时有正值和负值。若全是负值,计算时可把负号去掉,得出结果后再加上负号。中位数(M)中位数是将一组观察值从小到大按顺序排列,位次居中的数值对应的观察值就是中位数。全部观察值中,大于和小于中位数的观察值的个数相等。直接法计算中位数

将原始观察值按大小顺序排列:n为奇数时,

n为偶数时,

例:临床观察7名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,求其平均潜伏天数。M=5临床观察8名某病患者,其潜伏期(天)分别为:2,3,3,5,6,9,16,20求其平均潜伏天数。M=(5+6)/2=5.5百分位数法计算中位数

以第50位百分位数(X50)作为中位数。百分位数(percentile)是指把一组资料的全部观测值分为两部分,理论上讲,有x%的观测值比它小,有(100-x)%的观测值比它大。百分位数的计算

L:该百分位数所在组段的下限;fp:该百分位数所在组段的频数;i:该百分位数所在组段的组距;ΣfL:小于L各组段的累计频数。某医师检测120例链球菌感染咽炎患者咽痛至发热出现的时间(小时),试计算中位数、第25、75百分位数。潜伏期病例数累计频数累计频率(%)12-221.724-202218.336-365848.348-288671.760-109680.072-810486.784-811293.396-411696.7108-4120100.0合计120中位数所在组段X25所在组段X75所在组段某医师检测120例链球菌感染咽炎患者咽痛至发热出现的时间(小时),试计算中位数、第25、75百分位数。四分位数(quartile)X25:第一四分位数(Q1)、下四分位数(QL);X50:第二四分位数(Q2)、中四分位数(M);X75:第三四分位数(Q3)、上四分位数(QU);中位数的应用中位数只受居中变量值波动的影响,不受两端特小值和特大值的影响。中位数常用于描述偏态分布或末端无确定数据时资料的平均水平。当数据呈对称分布时,中位数和均数相近。当数据呈右偏态分布时,均数大于中位数。当数据呈左偏态分布时,均数小于中位数。百分位数的应用

百分位数用于描述样本或总体观察值序列在某百分位置水平,多个百分位数结合应用时,可更全面地描述总体或样本的分布特征,可用来确定医学参考值范围。由于位于中部的百分位数比较稳定,所以最常用的百分位数是四分位数,它有较好的代表性。离散程度指标三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。甲组2628303234Mean=30kgR=8S=3.16乙组2427303336Mean

=30kgR=12S=4.74丙组2629303134Mean

=30kgR=8S=2.91哪一组数值的均数更具代表性?离散程度指标离散趋势即个体值之间的变异程度,数据越分散,变异程度越高。极差四分位数间距方差标准差变异系数极差(range,R)极差也叫全距,最大值与最小值之差,反映个体差异的范围。缺点:由于计算极差时只采用了最大值和最小值,未考虑组内其它数据的变异程度,因此用极差反映变异度不够全面,稳定性差;当样本例数增大时,得到较大或较小观察值的机会可能会变大,所以极差也可能更大。四分位数间距(quartilerange,QR)QR=Q3-Q1=X75–X25四分位数间距是居中的半数观测值的全距,不受最大值和最小值的影响,比极差稳定。实际工作中,常与中位数结合使用,描述偏态分布资料的分布特征。

缺点:不能全面地反映所有观察值的变异程度。离散趋势指标极差R离均差(xi-μ)离均差总和(xi)=0离均差平方和(xi)2

均方(方差)σ2=(xi)2/N

标准差四分位数间距QR样本方差与样本标准差实际工作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论