




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数值变量资料的统计描述山东大学公共卫生学院刘云霞山东大学公共卫生学院LiuYunxia2统计分析StatisticalAnalysis统计描述StatisticalDescription统计推断StatisticalInference指用统计指标、统计表或统计图等方法对资料的分布规律及其数量特征进行描述。指由样本信息推断总体特征,包括总体参数的估计和假设检验。变量类型(复习)数值变量(numericalvariable)其变量值是定量的,表现为数值大小,多有度量单位。如身高(cm)、体重(kg)等。由数值变量的测定值构成的资料称为数值变量资料或计量资料。分类变量(categoricalvariable)亦称定性变量,表现为互不相容的类别或属性。无序分类变量(unorderedcategoricalvariable):所分类别或属性之间无程度或顺序上的差别。如性别、血型等。有序分类变量(ordinalcategoricalvariable):所分类别或属性之间有程度或顺序上的差别。如尿蛋白化验结果等。变量类型可根据统计分析的需要进行转化。山东大学公共卫生学院LiuYunxia3山东大学公共卫生学院LiuYunxia4内容提纲§2.1频数分布频数表的概念频数表的编制方法频数表的用途
※
频数分布的特征
※
频数分布的类型山东大学公共卫生学院LiuYunxia5一、频数分布表的概念当样本含量n较大时,为了解样本中观察值的分布规律和便于指标计算,可编制频数分布表,简称频数表(frequencytable)。频数:对某一随机现象进行重复观察,或测量大量个体的某项特征,其中某个或某一组变量值出现的次数。频数表:将各变量值与其相应的频数列成表格形式即为频数表。山东大学公共卫生学院LiuYunxia6二、频数表的编制数值变量资料的频数分布
变量的取值为正整数时,如轧钢工人白细胞中的大单核细胞数:384510135347
……山东大学公共卫生学院LiuYunxia7二、频数表的编制数值变量资料的频数分布
山东大学公共卫生学院LiuYunxia8变量的取值是连续的,如身高、体重、血压等。编制频数表时需要根据变量的取值范围将变量值划分为若干组段,然后再汇总各组段的频数。具体步骤通过例子加以说明9例2.1某地2004年抽样调查100名男大学生的身高(cm)山东大学公共卫生学院LiuYunxia频数表的编制步骤1.找出观察值中的最大值和最小值,求全距(极差,range)。
本例最大值为183.5,最小值为162.9,全距R=183.5-162.9=20.6(cm)。2.确定组段数和组距,划分组段。组段数:根据样本量大小,一般划分8~15个组段。组距:即每一组段上、下限之差。一般取等距分组,组距取极差的1/10(取整或四舍五入)。划分组段:各组段是连续的,但不能有交叉和重叠,应使观察单位分组时“不重不漏”,第一个组段包含最小值,最后一个组段包含最大值。本例取组距(cm),第1个组段下限从162cm开始,第2个组段下限为164cm,……,依次类推,最后一个组段为182~184cm。3.列频数表,汇总频数。山东大学公共卫生学院LiuYunxia10山东大学公共卫生学院LiuYunxia11山东大学公共卫生学院LiuYunxia12直方图(histogram)注意:有些资料因为数据中有特大或特小的数值也可以采用不等组距,如某些食物中毒的潜伏期,大部分在短时间内出现症状,只有极少部分的人经过较长的时间后才有反应,这种情况可将后面的一些组段作适当的合并,并可以将最后一个组段以大于某个值表示,以避免出现一些组段频数为零的情况。对于不等距资料绘制直方图时,应先将不等距的各组频数折算成等距频数,然后再做图。山东大学公共卫生学院LiuYunxia13三、频数表的用途频数表可以揭示资料分布类型和分布特征;便于发现资料中的某些远离群体的特大或特小值。当样本含量比较大时,可以各组段的频率估计概率。作为资料的陈述形式,可代替原始资料,直观地反映被研究事物的分布特征,又便于作进一步的分析研究。山东大学公共卫生学院LiuYunxia14山东大学公共卫生学院LiuYunxia15图2-1某地100名18岁男大学生身高的频数分布山东大学公共卫生学院LiuYunxia16频数分布的类型对称分布:指频数分布的集中位置在中间,左右两侧大致对称。偏态分布:指频数分布不对称,集中位置偏向一侧。
集中位置偏向数值小的一侧,称为正偏态分布;集中位置偏向数值大的一侧,称为负偏态分布。
如有害化学物质在正常人体内的分布为正偏态分布;冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布。不同的分布类型应选用不同的统计分析方法。
山东大学公共卫生学院LiuYunxia17对于数值变量资料,应将集中趋势和离散程度二者结合起来分析其分布规律。
集中趋势(centraltendency):即身高向中央部分集中,以中等身高居多(172cm
组段),此为集中趋势。反映集中位置或平均水平。离散趋势(tendencyofdispersion):由中等身高到较矮或较高的频数分布逐渐减少,反映了身高的离散程度。频数分布的特征山东大学公共卫生学院LiuYunxia18山东大学公共卫生学院LiuYunxia1920山东大学公共卫生学院LiuYunxia21该地18岁男大学生身高值出现在172~组段的概率为0.24。集中趋势的描述
集中趋势指标反映一组同质观察值的集中位置或平均水平,常作为一组数据的代表值用于分析和进行组间的比较。
常用指标有算术均数、几何均数、中位数等,统称为平均数(average)。离散趋势的描述
离散趋势指标反映一组同质观察值的变异程度。常用指标有全距、四分位数间距、方差和标准差、变异系数。山东大学公共卫生学院LiuYunxia22§2.2数值变量资料的描述性指标一、集中趋势的描述1.算术均数(arithmeticmean)2.几何均数(geometricmean)3.中位数(median)山东大学公共卫生学院LiuYunxia231.算术均数算术均数(arithmeticmean),简称均数(mean)。定义:指所有观察值的代数和除以观察值的个数。符号:样本均数用表示,总体均数用(miu)表示。计算方法:直接法加权法山东大学公共卫生学院LiuYunxia24适用于样本含量n较小时。
式中,希腊字母(sigma)表示求和;
为各观察值;n为样本含量,即观察值的个数。
均数---直接法山东大学公共卫生学院LiuYunxia25例2.1某地随机抽取100名18岁健康男大学生身高(cm)分别为173.6165.8
168.7
173.6
173.7
177.8
180.3
173.1
173.0
172.6……175.5175.9,求平均身高。
适用于频数表资料或样本中相同观察值较多时。
均数---加权法该100名18岁健康男大学生身高的均数为172.70cm。山东大学公共卫生学院LiuYunxia26例2.3计算上例表2-1资料100名男大学生的平均身高。
可见,样本例数比较多的情况下,加权法与直接法的计算结果相差不大。均数的应用均数用于反映一组同质观察值的平均水平,应用甚广。主要适用于对称分布或偏度不大,特别是正态分布的数值变量资料。山东大学公共卫生学院LiuYunxia27均数的两个重要特征(1)各离均差的总和等于0,即;(2)离均差平方和小于各观察值x与任何其它实数a
()之差的平方和,即。山东大学公共卫生学院LiuYunxia28附:公式推导山东大学公共卫生学院LiuYunxia29定义:几何均数(geometricmean)是指一组观察值的乘积,再被观察值个数开方。符号:用G
表示。计算方法:直接法加权法2.几何均数山东大学公共卫生学院LiuYunxia30几何均数---计算公式或山东大学公共卫生学院LiuYunxia31直接法:用于样本含量n较小时。加权法:适用于频数表资料或样本中相同观察值较多时。附:公式推导山东大学公共卫生学院LiuYunxia32附:公式推导山东大学公共卫生学院LiuYunxia33几何均数的应用几何均数在医学研究领域多用于血清学和微生物学中。适用于:
①对数正态分布资料:对数正态分布即变量值的对数呈正态分布,而原始变量为右(正)偏态分布。如健康人群的血铅含量、发汞含量等。②等比级数资料:观察值之间呈倍数或近似倍数变化的资料。如医学实践中的抗体滴度、平均效价等。山东大学公共卫生学院LiuYunxia34例2.4有6份血清的抗体效价为1:10,1:20,1:40,1:80,1:80,1:160,求其平均效价。几何均数---直接法该6份血清的平均抗体效价为1:45。山东大学公共卫生学院LiuYunxia35几何均数---加权法山东大学公共卫生学院LiuYunxia例2.5某地区50名麻疹易感儿童接种麻疹疫苗1个月后,测其血凝抑制抗体滴度,如表2-2中(1)、(2)栏,求平均抗体滴度。36注意:计算几何均数时观察值中不能有0;一组观察值中不能同时有正值和负值。几何均数---加权法即其血凝抗体滴度的平均滴度为1:57。山东大学公共卫生学院LiuYunxia37定义:中位数(median)是一种位置指标,即将一组观察值按由小到大的顺序排列后位次居中的数值。在全部观察值中,小于和大于中位数的观察值个数相等。符号:用M表示。计算方法:直接法频数表法3.中位数50%50%M山东大学公共卫生学院LiuYunxia38直接法:适用于样本含量n较小的资料。
n为奇数时,n为偶数时,例2.6某病患者9名,其发病的潜伏期(d)分别为:2,3,3,3,4,5,6,9,16,求发病潜伏期的中位数。
本例n=9,为奇数,故(d)。
中位数---直接法山东大学公共卫生学院LiuYunxia39频数表法:适用于样本含量n较大的资料。
计算步骤如下:(1)按所分组段由小到大计算累计频数和累计频率;(2)确定中位数所在组段,即累计频率包含50%的组段;(3)求中位数。
式中,分别为中位数所在组段的下限、组距和频数;
为小于L的各组段的累计频数。中位数---频数表法适用于n较大时山东大学公共卫生学院LiuYunxia40山东大学公共卫生学院LiuYunxia41Mn*50%n*50%iLii中位数频数表法计算公式图解fM例2.7某疾病控制中心记录了199名沙门氏菌属食物中毒患者发病的潜伏期(表2-3),计算平均发病潜伏期。中位数---频数表法山东大学公共卫生学院LiuYunxia42中位数的应用中位数不受少数特大或特小值的影响,这一点优于均数。适用于:①偏态分布资料;②频数分布的一端或两端无确切数据资料;③分布类型未知或不明的资料。山东大学公共卫生学院LiuYunxia43山东大学公共卫生学院LiuYunxia44均数与中位数的关系山东大学公共卫生学院LiuYunxia45均数与中位数的关系正偏态分布:均数>中位数对称分布:
均数=中位数负偏态分布:均数<中位数负偏态分布左偏态分布均数<中位数
对称分布
正偏态分布
均数中位数均数=中位数正偏态分布
均数中位数正偏态分布
均数中位数<正偏态分布右偏态分布
均数附:百分位数百分位数(percentile)用Px表示,0<x<100,是描述一组数据某百分位的位置指标。
Px将全部观察值分为两部分,理论上有x%的观察值比它小,有(100-x)%的观察值比它大。最常用的百分位数是P50,即中位数。山东大学公共卫生学院LiuYunxia46*百分位数(percentile)应用①与中位数结合应用,描述一组资料在某百分位置上的水平,也可以描述资料的分布特征。如:
M-P5=P95–M时,近似对称;M-P5<P95–M时,正偏态;
M-P5>P95–M时,负偏态②可用多个百分位数的结合来描述一组观察值的分布特征,如P25和P75合用时,反映中间50%观察值的分布情况;③可用于确定非正态分布资料的医学参考值范围。注意:应用百分位数,样本含量要足够大,否则不宜取靠近两端的百分位数。山东大学公共卫生学院LiuYunxia47设有n个原始数据从小到大排列,第x百分位数的计算公式为:当nx%带有小数位时:
当nx%为整数时:*百分位数—直接法例对某医院细菌性痢疾治愈者的住院天数统计,120名患者的住院天数从小到大排列如下,试求第5百分位数和第99百分位数。
*百分位数—直接法患者:123456789…117118119120住院天数:122233445…40404245(1)n=120,120*5%=6为整数(2)n=120,120*99%=118.8带有小数,故取整trunc(118.8)=118*百分位数—频数表法计算公式:
分别为Px所在组段的下限、组距和频数;
为小于L的各组段的累计频数。山东大学公共卫生学院LiuYunxia50山东大学公共卫生学院LiuYunxia51例:分别取甲、乙、丙三人每人的耳垂血,然后红细胞计数,每人数5个计数盘,得结果如下(万/mm3)二、离散趋势甲乙丙山东大学公共卫生学院LiuYunxia52离散趋势山东大学公共卫生学院LiuYunxia53离散趋势的描述1.全距(range)2.四分位数间距(quartileinterval)3.方差(variance)4.标准差(standarddeviation)5.变异系数(coefficientofvariation)山东大学公共卫生学院LiuYunxia54定义:全距(range,R),亦称极差。指一组同质观察值中最大值与最小值之差。反映了个体差异的范围。
全距大,变异度大;反之,全距小,变异度小。应用:简单明了。常用于说明传染病、食物中毒等的最短及最长潜伏期。公式:R=xmax-xmin不足:①仅考虑了最大值与最小值之差
,不能反映组内其它观察值的变异度;②样本含量越大,抽到较大或较小观察值的可能性越大,故全距可能越大。故样本含量相差悬殊时不宜用全距比较。
1.全距山东大学公共卫生学院LiuYunxia55定义:四分位数间距(quartileinterval,Q)为上四分位数与下四分位数之差(或P75与P25之差)。计算公式:应用:用于描述偏态分布以及分布的一端或两端无确切数值资料或分布类型未知资料的离散程度。2.四分位数间距QLQMQU25%25%25%25%山东大学公共卫生学院LiuYunxia56意义:Q越大,变异度越大;Q越小,变异度越小。
【四分位数间距包括了一组观察值的一半,故可把四分位数间距看成是中间50%观察值的极差。】特点:由于四分位数间距不受两端个别极大值或极小值的影响,因而较全距稳定,但仍未考虑全部观察值的变异度。
四分位数间距山东大学公共卫生学院LiuYunxia57离均差:总体中每个观察值X与总体均数μ的差值离均差之和
离均差平方和
离均差平方和的大小除与变异度有关外,还与变量值的个数N有关。为了消除这一影响,取离均差平方和的均数,称方差(variance)或均方(meanofsquares)。3.方差山东大学公共卫生学院LiuYunxia58计算公式:总体方差样本方差n-1为自由度(degreeoffreedom),一般用ν(niu)表示。因方差的度量单位是原度量单位的平方,故计算结果难以解释。离散程度的描述指标---方差样本方差用自由度n-1去除!山东大学公共卫生学院LiuYunxia59计算公式:总体标准差样本标准差4.标准差样本标准差用自由度n-1去除!山东大学公共卫生学院LiuYunxia60样本标准差离均差平方和常用SS或lXX
表示。直接法:加权法:求表2-1中100名18岁男大学生身高的标准差。山东大学公共卫生学院LiuYunxia61意义:标
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 《医学影像信息交流实施工具》课件
- 仿铜浮雕画培训
- 轮胎购销合同协议版
- 残联免责协议书
- 《管理基础理论》教学课件
- 灌浆施工协议书
- 转让家具工具合同协议
- 《中医养生基础》课件
- 事业单位医院聘用合同
- 化工原料采购合同
- 全套老年人能力评估师考试题库(50题+答案)
- 读后续写制作稻草人(T8联考)讲义-高考英语作文复习专项
- 食堂员工培训内容-食堂从业人员培训资料
- 痛觉及其调制
- 基于文化创意视角的妈祖文化旅游地产发展研究莆田妈祖文化旅游地产发展条件及思路研究
- 七年级上册语文人教版全册文言文全文详解及翻译
- 北师大小学数学小升初《简便运算》复习课件
- 三相异步电动机的电力拖动课件
- 中央新疆税收政策解读
- “校园之星”评选实施方案
- 部编版二年级下册语文园地八(完美版)教学设计1
评论
0/150
提交评论