版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2讲资料的展示-
统计描述王玖
博士滨州医学院卫生统计学教研室
定量资料的统计描述-频率分布表
-集中趋势描述
-离散趋势描述定性资料的统计描述-相对数统计表与统计图2.1定量资料的统计描述定量资料的频率表
定量资料的统计描述指标
2.1.1定量资料的频率表
频率表和频率直方图欲了解定量资料的分布形式,可在总体中随机抽取足够多的个体,通过进一步整理,编制频率分布表,简称频率表(frequencytable)。原始数据频数表的编制1.求全距(R):R=最大值–最小值2.确定组数:通常8~15组计算组距(i)i=R/组数3.确定组段:第一组段包括最小值,最后组段包括最大值,习惯上将各组段设为左闭右开的半开区间。
4.列表划记1998年100名18岁健康女大学生身高的频数分布身高组段(1)划记频数f(2)154~★★2156~★★★★4158~★★★★★★★★★★★
11160~★★★★★★★★★★★★★13162~★★★★★★★★★★★★★★★★★★★★★★22164~★★★★★★★★★★★★★★★★★★★19166~★★★★★★★★★★★★★★★15168~★★★★★★★★★9170~★★★★4172~174★1合计100身高组段划记频数f154~★★2156~★★★★4158~★★★★★★★★★★★
11160~★★★★★★★★★★★★★13162~★★★★★★★★★★★★★★★★★★★★★★22164~★★★★★★★★★★★★★★★★★★★19166~★★★★★★★★★★★★★★★15168~★★★★★★★★★9170~★★★★4172~174★1身高组段划记频数f154~★★2156~★★★★4158~★★★★★★★★★★★
11160~★★★★★★★★★★★★★13162~★★★★★★★★★★★★★★★★★★★★★★22164~★★★★★★★★★★★★★★★★★★★19166~★★★★★★★★★★★★★★★15168~★★★★★★★★★9170~★★★★4172~174★1
1998年100名18岁健康女大学生身高的频数分布身高组段频数频率(%)154~22.00156~44.00158~1111.00160~1313.00162~2222.00164~1919.00166~1515.00168~99.00170~44.00172~17411.00合计100100.00例2某妇产科医生观察1402名临产母亲的体重(kg)资料如下(完整数据见数据文件data1-1.xls或data1-1.sav)。76.060.064.068.068.066.568.070.571.570.057.068.065.558.063.065.071.574.056.564.060.064.568.065.068.065.063.062.061.066.070.068.068.065.058.070.068.074.573.060.067.071.0……59.562.076.561.075.056.073.069.053.565.060.069.065.066.072.055.0几个概念组中值是各组段的代表值,由本组段的上、下限相加除以2得到。频数是落在各组段内的个体数.频率是频数在个体总数中所占的百分比,又称相对频数。累计频率,是否需要视情况而定。图2-1
1402名临产母亲体重(kg)的频率分布频率密度=频率/组距频率分布的两个特征
①集中趋势(centraltendency):体重值越靠近中央部分,频率越高;②离中趋势(tendencyofdispersion):绝大多数个体值并不与平均水平完全重合,而是不同程度地偏离平均水平.
分布的类型对称分布非对称分布(有称偏态分布)正偏态(positiveskewness)集中位置偏向小一侧,尾部偏向数轴正侧(或右侧)又称右偏态。负偏态(negativeskewness),分布的尾部偏向数轴负侧(或左侧),又称左偏态。正偏态(右偏态)负偏态(左偏态)频率表的用途(1)揭示资料的分布特征和分布类型。(2)由组中值近似代表原始数据,便于手工计算实现初步的统计分析。(3)便于发现某些特大或特小的可疑数值。(4)当样本含量比较大时,可用各组段的频率作为概率的估计值(5)代替繁杂的原始资料,以便进一步分析
2.1.2定量资料的统计描述指标用统计指标对定量资料进行统计描述,常从集中趋势(即平均水平)和离中趋势(即变异程度)两个方面进行。平均水平(average)是统计中应用最广泛、最重要的指标,针对不同的分布特征,应选用恰当的指标;变异程度指标,是个体离开平均水平的概括性度量,指标的选择需结合具体的应用场合。一、描述集中趋势的统计指标常用几种平均值:1.算术均数2.几何均数3.中位数1.算术均数(均数)意义:一组性质相同的观察值在数量上的平均水平。表示(总体)(样本)计算:直接法、间接法、计算机应用:对称分布资料的集中位置算术均数(arithmeticmean)简称均数(mean)。总体均数用希腊字母μ
表示,样本均数用表示。均数反映一组分布呈对称的观察值在数量上的平均水平。算法:
直接法:
加权法:(一)直接法例2-3测得8只正常大鼠血清总酸性磷酸酶(TACP)含量(U/L)为4.20,6.43,2.08,3.45,2.26,4.04,5.42,3.38。试求其算术均数。(二)间接法
表2-3加权法计算均数组段组中值(
)
fi(1)(2)(3)(4)=(2)(3)6~7178~932710~1166612~13810414~151218016~172034018~192751320~211837822~231227624~25820026~27410828~3029129合计1202228均数的应用优点:意义很容易理解,而且结果也比较稳定,因而应用广泛。但它主要应用于对称分布或斜度不大的资料,尤其是正态分布资料。缺点:对极端值太敏感。在这种情形下,它不能代表样本点的绝大多数。在极端情形下,有时可出现只有一个观察值是在均数的一边。中位数(median,M)
中位数是将一组观察值从小到大按顺序排列,位次居中的那个观察值。在全部观察值中,小于和大于中位数的个体数相等。统计学中有一个常用的位置指标百分位数(percentile),以Px表示(读作第x百分位数)。Px将总体(或样本)的全部观察值分为两部分,有x%的观察值比它小,其余(100-x)%的观察值比它大。P50就是中位数。
中位数的直接计算法
当样本量较小(如n<30)时,先将观察值按大小顺序排列,再按(2-5)或(2-6)式计算。n为奇数时n为偶数时例2-3某病患者5人,住院天数分别为7,9,12,16,20,试求中位数。本例n=5,为奇数,观察值已按大小顺序排列。按式(2-5)例2-410名食物中毒者的潜伏期分别为1,2,2,2,3,5,10,15,16,24小时,试求中位数。本例n=10,为偶数,观察值已按大小顺序排列。按式(2-6)频率表资料中位数和百分位数的手工计算
当样本量较大(如n≥30)时,一般需将其整理为频率表再作进一步计算。计算公式fx为Px所在组段的频率,i为该组段的组距,L为其下限,为取值小于L各组段的累计频率。在求中位数时,x%=50%,fx为中位数所在组段的频率,为0.5,i为中位数所在组段的组距,L为该组段的下限。几何均数(geometricmean,G)
适用条件:
医学研究中的有些资料,如抗体的滴度、细菌的计数等,均大于0,其频率分布明显为非对称分布,但对观察值取对数后的数据近似一个对称分布.几何均数的计算几何均数的直接计算。将n个观察值X1,X2,X3,…,Xn的乘积开n次方。
例2-65人的血清抗体滴度为1:2,1:4,1:8,1:16,1:32,求平均滴度。本例对滴度的倒数值做统计描述,它们是2,4,8,16,32。受最大值的影响,其算术均数为12.4,不能代表这5个观察值的平均水平。其几何均数为平均滴度为1:8
频率表资料几何均数的计算
适用条件:当样本量较大时,先将原始资料整理成频率表.计算公式:众数(mode,Mo)
在一组观察值中,出现频率最高的那个值为众数,在对资料进行概略分析时,可表示一份资料的集中趋势。若样本量较大,资料被整理为频率表形式,频率最高的那个组段所取的组中值为众数.对于同一份资料,整理频率表时所取组段形式不同,会得到不同的众数。二、描述离散趋势的特征数
A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。
图2-4三组数据离散状况比较1.极差(range,R):R=最大值-最小值
A组:26,28,30,32,34;B组:24,27,30,33,36;C组:26,29,30,31,34。A组R=34-26=8B组R=36-24=12C组R=34-26=8全距,极差(range,R)
是一组观察值中最大值与最小值之差,概略地反映个体取值的变异程度。优点:用全距来说明变异程度的大小,简单明了.缺点:①只利用了最大值和最小值提供的信息,不能概括资料中其他个体的变异程度。②受抽样误差影响,全距的计算结果容易波动、不够稳定。③样本量比较大时,抽到更极端观察值的可能性也较大,导致全距较大,故样本量相差悬殊时不宜比较全距。2.四分位数间距(inter-quartilerange)
四分位数(quartile,Q)可看成特定的百分位数,P25表示全部观察值中有四分之一的个体取值比它小,称为下四分位数(lowerquartile),记作QL;P75表示全部观察值中有四分之一的个体取值比它大,称为上四分位数(upperquartile),记作QU。四分位数间距即上四分位数QU与下四分位数QL之差,其间包括了全部观察值的一半。其数值越大,说明变异程度越大;反之,说明变异程度越小。3.标准差(standarddeviation)
标准差用于反映一组对称分布的观察值在数量上的变异程度。个体偏离总体平均水平的程度是离均差离均差平方可同等对待正的和负的离中情形,为此,人们将离均差平方的平均值作为总体中个体值偏离平均水平的概括性指标,称作总体方差(populationvariance),记为。
公式
标准差方差总体方差总体标准差标准差计算公式总体(理论)样本标准差自由度
统计学术语,指随机变量能“自由”取值的个数。如对于一个n=4的样本,若已知,有三个数据是“自由”的,一旦三个数据确定了(例如,4、3、7),受到这个条件的限制,第四个数据只能是6,否则。因而这里的自由度为。更一般的意义上,任何统计量的自由度限制条件的数目4.变异系数(coefficientofvariation,CV)
是标准差与均数之比,用百分数表示。用途①比较几个量纲不同的变量之间的变异程度。②比较量纲相同但是均数水平相差较大的变量之间的变异程度。量纲不同的变量间变异程度的比较例1985年通过十省调查得知,农村刚满周岁的女童体重均数为8.42kg,标准差为0.98kg;身高均数为72.4cm,标准差为3.0cm。试计算周岁女童身高与体重的变异系数。
某地不同年龄组男童身高(cm)
年龄组SCV%1-2月56.32.13.735-6月66.52.23.313-3.5岁96.13.13.225-5.5岁107.83.33.06结论:随着年龄增加,身高的变异变小。
均数差别较大的变量间变异程度的比较正态分布资料的统计描述
用算术均数描述其平均水平用标准差(或方差)描述其变异程度
非正态分布资料的统计描述
对于正态资料,以及半定量资料、分布的末端无确切数值或分布类型未知的资料,常用中位数描述其平均水平,四分位数间距描述其变异程度。
M(QL~QU),或M,Q分类资料的描述——频率和频率分布
人时资料的描述——强度
复合指标——比
相对数应用中需注意的问题
2.2定性资料的统计描述分类资料的描述——频率和频率分布
二分类资料的描述——频率
当事物只有两种可能的结局时,常用一个频率(relativefrequency,英文亦常作frequency)来描述结局的规律性。
医学科研中两种可能的结局十分普遍,如生存状态之存活与死亡、患病状态之患病与未患病等,这时,研究者往往关注其中一种结局(称其为此项研究的阳性事件)的频率。多分类资料的描述——频率分布
当事物有多于两种可能的结局时,常用频率分布(distributionoffrequency)来描述结局的规律性。
人时资料的描述——强度
在流行病学随访中,不同个体被观察的时间长度各不相同,常用人时总和表示被观察的人和时间的总量。例如,某人被观察半年,他被观察了0.5年×1人=0.5人年;另2个人分别被观察了1年,他两人总共被观察了1年×2人=2人年。
例在某医院的院内感染调查中,5031个病人共观察了127859人日(例均25.4日),其中有596人在医院发生感染,医院感染率=596/127859=0.0047人/人日意味着平均每天有0.47%的病人将在医院获得感染。
人时阳性率的本质是流行病学中的强度概念,它反映单位时间内发生阳性事件的频率。例如,阳性事件为发病,人时阳性率就是发病率(incidencerate);阳性事件为死亡,人时阳性率就是死亡率(mortalityrate),它们并不是一般意义上的频率,而是单位时间内的频率或强度。复合指标——比两个有关联的变量A与B之比(ratio)作为一个复合指标来描述事物的状况。A与B本身可以是绝对数,也可以是相对数;A与B的量纲可以不同,也可相同。若A和B的量纲不同,相对比是一个有量纲的指标相对比=A/B相对危险度(relativerisk,RR)
队列研究中描述暴露危险因素与疾病关联的指标之一,设暴露队列的发病率为P1,非暴露队列的发病率为P0,相对危险度按下式计算:相对危险度表示暴露于某危险因素的人群中,发病风险是非暴露人群发病风险的多少倍,它反映了危险因素对疾病发生风险的作用程度。
例为探讨EB病毒与鼻咽癌发病的关系,在广东省中山市1986年进行了EB病毒普查,共检查25-70岁居民41471人,其中38550人EB病毒抗体阴性,2921人阳性。EB病毒抗体阴性和阳性者形成两个队列,分别随访了437579人年和20477人年,EB病毒抗体阴性队列共发生鼻咽癌54例,阳性队列57例。EB病毒抗体阴性人群人时发病率P0=
100000=12.34/105(人/人年)。估计EB病毒阳性人群的人时发病率P1=57/20477=278.36/105(人/人年)。相对危险度为RR==22.56。相对数应用中需注意的问题
防止概念混淆,频率型指标的解释要紧扣总体与属性计算相对数时分母不宜过小观察单位数不等的几个相对数,不能直接相加求其平均水平相对数间的比较须注意可比性
①观察对象同质,研究方法相同②其它在专业上认为有意义的影响因素应接近均衡
2.3常用统计图表
在科研报告中,常把统计分析的内容用表格列出,称为统计表(statisticaltable)。它可代替冗长的文字叙述,概括地展示数量间的关系,便于计算、分析和对比。统计图(statisticalgraph)是用点的位置、曲线的走势、直条的长短或面积的大小等形式,直观地呈现所研究事物的数量关系。统计表和统计图在揭示资料所蕴涵的信息方面各有千秋,前者数量精准,后者形象直观,有时二者结合使用。统计表
1)统计表的结构2)统计表的种类3)编制统计表的原则和一般要求统计表的结构
①从形式上看:每张统计表都有一个标题说明表的名称;有横标目说明各横行数字的意义、纵标目说明各纵列数字的意义,必要时横(纵)标目可以进一步细分。②从内容上看:每张表都有主语部分和谓语部分。主语部分是被说明的对象,谓语部分则用以阐述主语具备的特征。统计表的种类(简单表,复合表)简单表(simpletable)只按单一特征分组复合表(combinativetable)是将两个或两个以上特征结合起来分组编制统计表的原则①重点突出,简洁明了。在一张表中只包含一个主题,使人一目了然,不要试图在一张表中概括多个主题。②主谓分明,层次清楚。主语和谓语的位置准确,标目的安排及其进一步的细分符合专业考虑。编制统计表的一般要求(1)标题
(2)标目
(3)线条(4)数字(5)注释编制统计表的一般要求
(1)标题。概括性地阐明表的内容,必要时注明研究开展的时间和地点,标出本表在全文中的序号,写于表的上方。(2)标目。文字简明,有量纲的需注明量纲。(3)线条。不宜过多,除顶线、底线
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2026年钳工理论考试卷及答案
- 木工刃磨机进场验收保证措施
- 大学生签国企外包合同
- 公用设备工程师专业基础知识(给排水)考试题库(完整版)
- 电脑机房安装外包合同
- 华住酒店劳务外包合同
- 某地景观亮化工程施工方案
- 环氧地坪中涂砂浆施工工艺
- 医疗技术临床应用及新技术新项目管理制度考核试题及答案
- 古建筑瓦当安装施工工艺
- 2025年高考作文素材汇编
- 2025年《检验检测不确定度评定》知识考试题库及答案解析
- 中国当代政治制度
- 2026-2031中国非PVC输液器市场调研及投资前景评估
- 吊篮施工安全专项培训
- 《车路云一体化系统 第4部分:云云数据交互规范》
- 2025-2030中国游戏MCN机构商业化模式与内容监管
- 桥式起重机安全课件
- 影像技术CT课件
- 桩机买卖协议书
- 大学生创新创业基础(微课版 第2版)课件 项目九 创业规划与创业计划书拟定
评论
0/150
提交评论