数值变量资料的统计描述_第1页
数值变量资料的统计描述_第2页
数值变量资料的统计描述_第3页
数值变量资料的统计描述_第4页
数值变量资料的统计描述_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数值变量资料的统计分析,窦东梅 河南大学护理学院公共卫生教研室,统计分析,统计描述,统计推断,数值变量资料的统计描述,统计描述:利用统计图、统计表、统计指标等来描述样本资料的特征。,数值变量资料的统计描述,一 频数分布二 集中趋势的描述三 离散趋势的描述四 正态分布,一 频数分布表及其用途 数值变量资料进行描述时,如果样本量较大,需要对原始资料进行整理,列出频数分布表,通过频数表以显示资料的分布类型。,例2-1 某医院用随机抽样方法检查了138名成年女子的红细胞数,其测量结果如下,试编制频数分布表。,3.96 4.23 4.42 3.59 5.12 4.02 4.32 3.72 4.76 4.16 4.61 4.26 3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25 4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26 4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26 4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27 4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61 4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36 5.28 4.21 4.42 4.36 3.66 4.02 4.31 4.83 3.59 3.97 3.96 4.49 5.11 4.20 4.36 4.54 3.72 3.97 4.28 4.76 3.21 4.04 4.56 4.25 4.92 4.23 4.47 3.60 5.23 4.02 4.32 4.68 4.76 3.69 4.61 4.26 3.89 4.21 4.36 3.42 5.01 4.01 4.29 3.68 4.71 4.13 4.57 4.26 4.03 5.46 4.16 3.64 4.16 3.76,(1)求极差(range):即最大值与最小值之差,又称为全距。 R5.46 3.07 =2.39(1012/L)(2) 决定分组组数、组距:根据研究目的和样本含量n确定分组组数,通常分为1015个组。组距=极差/组数,为方便计,组距为极差的十分之一, 再略加调整。 2.39/12=0.1990.20(1012/L)(3) 列出组段:第一组段的下限略小于最小值,最后一个组段上限必须包含最大值。(4) 划记计数:用划记法将所有数据归纳到各组段,得到各组段的频数。,频数表的编制步骤,Nf,138名成年女子的红细胞数(1012/L)频数分布,二、频数分布表的用途 1、揭示资料的频数分布类型 2描述频数分布的特征 3便于发现一些特大或特小的可疑值 4便于进一步统计分析与处理,1、揭示资料的频数分布类型,频数分布可分为对称分布和偏态分布两种类型。 对称分布:是指各组段的频数以频数最多组段(集中位置)为中心,左右两侧大体对称。 偏态分布:是指频数最多的组段(集中位置)偏向一侧,频数分布不对称。 正偏态:集中位置偏向数值小的一侧(左侧)。 负偏态:集中位置偏向数值大的一侧(右侧)。,(1)对称分布,若各组段的频数以中心位置左右两侧大体对称,就认为该资料是对称分布,115名正常成年女子血清转氨酶(mmol/L)含量分布,(2)偏态分布 1)右偏态分布(正偏态分布):右侧的组段数多于左侧的组段数,频数向右侧拖尾。,表 101名正常人的血清肌红蛋白含量分布,2)左偏态分布(负偏态分布),左侧的组段数多于右侧的组段数,频数向左侧拖尾。,2描述频数分布的特征,根据上表数据的频数分布特征:数据变异(离散)的范围在5784 (次/分 )数据集中(平均)的组段在6873 (次/分)之间,尤以组段的人数71(次/分)最多。且上下组段的频数分布基本对称。,3便于发现一些特大或特小的可疑值,二 集中趋势的描述,统计上使用平均数(average)这一指标体系来描述一组变量值的集中位置或平均水平。 常用的平均数有: 算术均数(均数)(mean) 几何均数(geometric mean) 中位数 (median)与百分位数 (percentile),算术均数,算术均数:简称均数(mean) 可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征值。,1、计算方法,(1)直接计算法 公式 :,举例:试计算4,4,4,6,6,8,8,8,10的均数?,例2-1 某医院用随机抽样方法检查了138名成年女子的红细胞数,其测量结果如下,试编制频数分布表。,3.96 4.23 4.42 3.59 5.12 4.02 4.32 3.72 4.76 4.16 4.61 4.26 3.77 4.20 4.36 3.07 4.89 3.97 4.28 3.64 4.66 4.04 4.55 4.25 4.63 3.91 4.41 3.52 5.03 4.01 4.30 4.19 4.75 4.14 4.57 4.26 4.56 3.79 3.89 4.21 4.95 3.98 4.29 3.67 4.69 4.12 4.56 4.26 4.66 4.28 3.83 4.20 5.24 4.02 4.33 3.76 4.81 4.17 3.96 3.27 4.61 4.26 3.96 4.23 3.76 4.01 4.29 3.67 3.39 4.12 4.27 3.61 4.98 4.24 3.83 4.20 3.71 4.03 4.34 4.69 3.62 4.18 4.26 4.36 5.28 4.21 4.42 4.36 3.66 4.02 4.31 4.83 3.59 3.97 3.96 4.49 5.11 4.20 4.36 4.54 3.72 3.97 4.28 4.76 3.21 4.04 4.56 4.25 4.92 4.23 4.47 3.60 5.23 4.02 4.32 4.68 4.76 3.69 4.61 4.26 3.89 4.21 4.36 3.42 5.01 4.01 4.29 3.68 4.71 4.13 4.57 4.26 4.03 5.46 4.16 3.64 4.16 3.76,(2)加权法(利用频数表),公式 :,k:频数表的组段数, f :频数, X:组中值。,138名成年女子的红细胞数(1012/L)频数分布,2、应用,均数适用于对称分布,特别是正态分布资料。,几何均数(geometric mean),可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平。,几何均数(geometric mean),几何均数:变量对数值的算术均数的反对数。,其他对数(如自然对数)变换获得相同的几何均数,例 有8份血清的抗体效价分别为1:5, 1:10, 1:20, 1:40, 1:80, 1:160,1:320,1:640,求平均抗体效价。,平均抗体效价为: 1:57,(2)加权法,公式:,例 69例类风湿关节炎(RA)患者血清EBV-VCA-lgG抗体滴度的分布见表2-4第(1)、(2)栏,求其平均抗体滴度。,2、应用:,适用于成等比数列的资料,特别是服从对数正态分布资料。,中位数(median,M) 是指一组观察值从小到大顺序排列后居于中间位置的数。 即总数中有一半的数低于它,一半的数高于它。 M的适用范围 : 理论上用于各种分布的定量资料。 实际用于: 偏态分布资料;布类型不清的资料。,11个大鼠存活天数:4,10,7,50,3,15,2,9,13,60,60 平均存活天数?,1、M的计算方法:,小样本: n为奇数时 n为偶数时,例 9名中学生甲型肝炎的潜伏期分别为12,13,14, 14, 15, 15, 15, 17, 19天,求其中位数。,大样本频数表资料,可用百分位数法计算:百分位数(percentile,Px): 它表示一组观察值按升序排列,并等分为100等份,位居第x%位置的数。其中,中位数M=P50,定量,百分位数示意图,百分位数(percentile),频数表资料的中位数,下限值L,上限值U,i; fm,中位数M,例21频数表中位数的计算,Nf,中位数71+3x(130x50%59)/2671.69,表2-2 某地630名正常女性血清甘油三脂含量(mg/dl),L、iM、fM分别为M所在组段的下限、组距和频数, fL为M所在组段之前各组段的累积频数。,2 应用,1、各种分布类型的资料2、特别适合大样本偏态分布资料或者一端或两端无确切数值的资料。,小 结 1. 运用频数表、直方图和统计指标这些技巧能够有效地组织、整理和表达计量资料的信息。 2.平均数是描述一组观察值集中位置或平均水平的统计指标,常用的有算术均数、几何均数和中位数。其中均数的应用最为广泛,几何均数则多用于血清学和微生物学中,中位数主要用于偏度较大的数据分布资料。 3.百分位数可用来描述资料的观察值序列在某百分位置的水平,中位数是其中的一个特例。,设有甲、乙、丙三名医生,分别对相同的5份血样进行红细胞计数(万/mm3),甲得出了560、540、500、460、440,乙得出了520、510、500、490、480,丙得出了510、505、500、495、490,见下图2,三名医生的计数结果得到的均数均为500,5个数值之和均为2500。,三 离散趋势的描述,甲医生得出的5个观察值间的差异(离散程度)较大,而丙医生得出的5个观察值间的差异(离散程度)较小。,描述离散趋势的特征数 常用的描述定量资料离散趋势的指标有极差、四分位数间距、方差、标准差、变异系数。,1、极差(Range) 极差,用R表示:即一组变量值最大值与最小值之差。 例2-1数据,有,简单,但仅利用了两端点值,稳定性差。,2、四分位数间距 (quartile range),四分位数间距,用Q表示:Q=下四分位数: 上四分位数:,3、方差(variance)离均差每一个观察值与均数之差,即X-,可以反映所有观察值的变异程度。 离均差平方和方差离均差平方的平均值观察值离均数近,方差就小,表示观察值离散小,数据较集中。若各观察值离均数远,方差就大,表示各观察值离散度大,数据分布分散。,方差(variance)也称均方差(mean square deviation),反映一组数据的平均离散水平。 总体方差 样本方差,离均差平方和SS,自由度: 表示随机变量能“自由”取值的个数,例如有一四个数据的样本,受到均数为5的条件的限制,在自由确定4、2、5三个数据后,第四个数据只能是9,=3,=n-限制条件的个数。方差的自由度为n-1。它描述了当均数选定时n个观察值能自由取值个数。,由于方差的度量单位是原度量单位的平方,为了方便实际使用,将方差公式开方,即得到标准差,标准差(standard deviation/SD),标准差的用途 1、反映个体观察值的离散程度大小 2、结合均数描述正态分布特征 3、计算其他指标,如标准误等,5、变异系数(coefficient of variation) CV 1、意义 标准差与均数之比用百分数表示 2、计算 3、用途 比较度量衡单位不同资料的变异度 比较均数相差悬殊资料的变异度,变异系数的应用,(1)比较度量衡单位不同的多组资料的变异度。 例如 某地20岁男子100人,其身高均数为166.06cm,标准差为4.95 cm;其体重均数为53.72 kg,标准差为2.96 kg。欲比较身高与体重的变异度何者为大,由于度量单位不同,不能直接比较标准差,而应比较其变异系数。现,身高的变异系数:,体重的变异系数:,由此可见,该地20岁男子体重的变异度大于身高的变异度。,(2)比较均数相差悬殊的多组资料的变异度如下表资料可见,虽然儿童身高的标准差随着年龄的增大而增大。但不同年龄儿童身高的均数相差较大,在比较身高的变异度时,不能只看标准差的大小。若从变异系数分析,就可看出6岁以下儿童随年龄增加其身高的变异程度逐渐减少。,正态分布及其应用,观察前述资料绘成的直方图,一、正态分布的概念正态曲线:高峰位于中央,两侧逐渐下降并完全对称,曲线两端永远不与横轴相交的钟型曲线。该曲线的函数表达式f(x)称为正态分布 密度函数,标准差相同、均数不同的四条正态曲线,均数相同、标准差不同的四条正态曲线,二、正态概率密度曲线的特点 (1)集中性:正态曲线在横轴上方均数处最高 (2)曲线下面积为1。 (3)决定曲线在横轴上的位置, 增大,曲线沿横轴向右移;反之, 减小,曲线沿横轴向左移。 决定曲线的形状,当恒定时, 越大,数据越分散,曲线越“矮胖”; 越小,数据越集中,曲线越“瘦高”。习惯上用N( , 2)表示均数为、标准差为的正态分布。 (4)正态曲线下的面积分布有一定规律。,正态曲线下横轴上一定区间的面积占总面积的百分数,用以反映该区间的例数占总例数的百分数(频率分布)。 或变量值落在该区间的概率(概率分布)。一定区间的面积可以通过对密度曲线函数积分求得,F(X)称为正态分布曲线的分布函数。它表示正态分布曲线下自到某定值X的左侧累计面积(概率)。,F(X),标准正

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论