版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
卫生统计学流行病与卫生统计学系邹延峰zzyfl@163.com第二章定量资料的统计描述
案例第二章定量资料的统计描述定量资料的统计描述统计图表:频数分布表(图)统计指标:集中趋势指标离散趋势指标
利用统计表对数据进行概括,用统计图对分布形态及分布间的关系做直观的表达,用于描述定量资料的统计指标的意义与计算。第一节频数与频数分布频数与频数分布频数:重复观察某个变量,其中某个取值的个数。频数分布表(frequencydistributiontable):又称频数表。是将原始数据值适当分组后得到各组的频数,如表2-1频数分布表。适用样本量较大的资料进行统计描述的常用方法。通过频数表可以显示数据分布的范围与形态。可用手工和计算机软件(如SAS、SPSS等)方便制作频数表。频数与频数分布连续型定量变量的频数分布例2-2抽样调查某地120名18岁~35岁健康男性居民血清铁含量(μmol/L),将数据适当分组,计数每组的频数,根据这些数据编制成的频数分布表(表2-2)则能显示出这组数据分布的特点。频数与频数分布数据7.428.6523.0221.6121.3121.469.9722.7314.9420.1821.6223.0720.388.4017.3229.6419.6921.6923.9017.4519.0820.5224.1423.7718.3623.0424.2224.1321.5311.0918.8918.2623.2917.6715.3818.6114.2717.4022.5517.5516.1017.9820.1321.0014.5619.8919.8217.4814.8918.3719.5017.0818.1226.0211.3413.8110.2515.9415.8318.5424.5219.2626.1316.9918.8918.4620.8717.5113.1211.7517.4021.3617.1413.7712.5020.4020.3019.3823.1112.6723.0224.3625.6119.5314.7714.3724.7512.7317.2519.0916.7917.1919.3219.5919.1215.3121.7519.4715.5110.8627.8121.6516.3220.7522.1113.1717.5519.2612.6518.4819.8323.1219.2219.2216.7227.9011.7424.6614.1816.52频数与频数分布手工编制表2-2步骤。(1)计算全距(range,R),也称为极差
R=最大值-最小值=29.64-7.42=22.22(μmol/L)(2)确定组段数与组距:组段数一般可在8~15之间选择。组距=上限-下限=R/(预计的组段数)。本例如果预计取12个组段,则组距长度约为22.22/12=1.85,取整数2。两端的组段应分别包含最小值或最大值;(3)确定组限,列表做出如表2-2的表格,将选好的组段顺序地列在(1)列。按照“下限≤x<上限”的原则确定每一例数据x应归属的组段。
表2-2120名正常成年男子血清铁含量的频数分布表6~8~10~12~14~16~18~20~22~24~26~28~30
合计一上正一正上正正丅正正正正正正正正正丅正正正上正正丅正上止一13681220271812841组段划记频数120频率累计频数累计频率频数与频数分布频数分布图:在表2-2的基础上,可以绘制出图2-2,称为直方图(频率直方图)。横轴:血清铁含量纵轴:频率密度,即频率/组距(直条面积等于相应组段的频率)。在组距相等时,直方图中矩形直条的高度与相应组段的频率成正比。频数与频数分布直方图
频数分布的两个特征
集中趋势:血清铁含量向中央部分集中,即中等含量者居多,集中在18这个组段,这种现象为集中趋势。离散趋势:从中央部分到两侧的频数分布逐渐减少,而且血清铁含量的值参差不齐,最低的接近6,最高的接近30,这种现象称为离散趋势。由于同质性,所有实测值趋向同一数值的趋势称为集中趋势。离散趋势或变异程度是指观察值之间参差不齐的程度。频数与频数分布对称分布:频数最多的组段在中央,图2-1偏态分布:正偏峰分布:峰向左侧偏移的分布,右侧的组段数多于左侧,为右偏峰分布。图2-2负偏峰分布:峰向右侧偏移的分布,左侧的组段数多于右侧,为左偏峰分布。图2-3频数分布的两个类型
频数表的用途
1.揭示频数分布的分布特征和分布类型。文献中常将频数表作为陈述资料的形式。
2.便于进一步计算统计指标和进行统计分析处理。
3.便于发现某些特大或特小的可疑值。4.当样本含量比较大时,可用各组段的频率作为概率的估计值。
第二节定量变量的特征数
集中趋势统计指标平均数对于连续型定量变量,描述集中趋势常用的统计量为算术均数、几何均数和中位数。算术均数(Mean):适合描述对称分布资料的集中位置(也称为平均水平)。其计算公式为
定量变量的特征数1)直接计算法:计算公式为
式中X1,X2和Xn为所有观察值,n为样本含量,∑(希腊字母,读作sigma)为求和的符号。定量变量的特征数例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。算术均数=(4.20+6.43+2.08+3.45+2.26+4.04+5.42+3.38)/8=3.9075(U/L)定量变量的特征数表2-3加权法计算均数组段组中值(XO)ffXO(1)(2)(3)(4)=(2)(3)6~7178~932710~1166612~13810414~151218016~172034018~192751320~211837822~231227624~25820026~27410828~3029129合计1202228定量变量的特征数2)加权频数表法:计算公式为加权均数=2228/120=18.57(μmol/L)直接法均数=18.61(μmol/L)。定量变量的特征数几何均数(geometricmean,G)
适用于观察值变化范围跨越多个数量级的资料。其频数图一般呈正偏峰分布。人们常用几何均数描述这类资料的集中位置。在医学研究中常适用于免疫学的指标。其计算公式为
定量变量的特征数例2-57名慢性迁延性肝炎患者的HBsAg滴度资料为1:16,1:32,1:32,1:64,1:64,1:128,1:512。试计算其几何均数。定量变量的特征数加权法计算几何均数。频数表资料例2-652例慢性肝炎患者的HBsAg滴度数据如表2-4。试计算滴度的几何均数。
定量变量的特征数表2-452例慢性肝炎患者的HBsAg滴度资料抗体滴度频数(f)滴度倒数(X)lgXf(lgX)1:162161.204122.408241:327321.5051510.536051:6411641.8061819.867981:128131282.1072127.393731:256122562.4082428.898881:51275122.7092718.96489合计52
108.06977定量变量的特征数52例慢性肝炎患者的HBsAg滴度的几何均数为1∶119.74705。定量变量的特征数中位数(median,M)
可用于各种分布的定量资料。中位数的原意是指在总体中有一半个体的数值低于这个数,一半个体的数值高于这个数。奇数:偶数:定量变量的特征数百分位数法计算中位数:频数表资料百分位数的计算公式为
式中LX、iX和fX分别为第百分位数所在组段的下限、组距和频数,∑fL为小于该组段的累计频数,n为总例数。即为中位数的计算公式定量变量的特征数例2-8试利用表2-2的频数表求例2-2中血清铁含量的中位数。从表2-2可判断出位于“18-”这个组段。将相应数据代入式(2-8)该组血清铁资料的中位数为18.74(μmol/L)如果按(2-7)式计算,结果为18.99(μmol/L)。定量变量的特征数离散趋势统计指标例2-11试观察三组数据的离散状况。A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。将三组数据分别点在直线上,如图2-4所示。定量变量的特征数
1.极差(Range,R)
极差:一组变量值最大值与最小值之差。
极差不能反映所有数据的变异大小,且受样本含量的影响较大,N大,极差值相差也大,故其稳定性较差。例2-11中三组数据的极差A组R=34-26=8B组R=36-24=12C组R=34-26=8定量变量的特征数2.四分位数间距(Quartilerange,Q)
四分位数是把全部变量值分为四部分的百分位数,即第1四分位数(QL=P25)、第2四分位数(M=P50)、第3四分位数(QU=P75)。四分位数间距(quartilerange)是由第3四分位数和第1四分位数相减而得,记为Q。它一般和中位数一起描述偏态分布资料的分布特征。定量变量的特征数3.方差方差(variance)也称均方差(meansquaredeviation),反映一组数据的平均离散水平。离均差:每一个变量值与均数的差值,离均差平方和(sumofsquares):离均差平方后相加得到的值方差:离均差平方和除以观察例数得到的值定量变量的特征数方差计算公式为4、标准差(Standarddeviation)定量变量的特征数例2-14分别计算例2-11中三组数据的标准差。
按照公式(2-11)与标准差的定义
A组
B组
C组
C组的标准差最小,B组的最大。意味着C组数据的离散趋势最小,B组的最大
定量变量的特征数
5.变异系数变异系数(coefficientofvariation)记为,多用于观察指标单位不同时的变异程度或均数相差很大的时候的比较。其计算公式为定量变量的特征数例2-16通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与体重的变异系数。体重的相对变异要大于身高的相对变异
例2-17由下表资料可知,虽然儿童身高的标准差随着年龄的增大而增加,但不同年龄儿童身高的均数相差较大,在比较身高的变异度时,不能只看标准差的大小。若用变异系数分析,就可看出6岁以下儿童随着年龄增加,其身高的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年高级会计实务考试题库财务报表分析与企业决策
- 水利工程施工单位安全风险分级管控制度
- 殡葬领域普法宣传制度
- 构建家园社会协同育人制度
- 机械安全确认制度
- 旅店待客制度
- 2026年全球直播电商销售协议
- 2025四川宜宾公开选聘市属国有企业中层管理人员59人笔试参考题库附带答案详解
- 2025四川南充营山县绥丰粮油有限公司下半年招聘工作人员拟聘人员笔试历年备考题库附带答案详解
- 2025四川华丰科技股份有限公司招聘工艺工程师等岗位测试笔试历年典型考点题库附带答案详解
- 医院培训课件:《标本采集方法》
- 成都新易盛高速率光模块技术与产线扩产升级项目环境影响报告表
- 股骨干骨折脂肪栓塞护理查房
- 美容护肤技术授课张秀丽天津医学高等专科学校04课件
- GB/T 25383-2025风能发电系统风力发电机组风轮叶片
- 公司越级汇报管理制度
- 石油化工基础知识课件
- 2025年江苏省淮安市涟水县中考一模化学试题(原卷版+解析版)
- DBJ33T 1307-2023 微型钢管桩加固技术规程
- 叉车安全管理人员岗位职责
- 忠诚宣言:出轨丈夫的保证书
评论
0/150
提交评论