数值变量资料_第1页
数值变量资料_第2页
数值变量资料_第3页
数值变量资料_第4页
数值变量资料_第5页
已阅读5页,还剩60页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、1第八章第八章 数值变量资料数值变量资料 的统计描述的统计描述2第一节第一节 数值变量数值变量资料的频数分布资料的频数分布3 统计描述:统计描述:是用统计图表、统计指是用统计图表、统计指标来描述资料的分布规律及其数量标来描述资料的分布规律及其数量特征。特征。 频数分布表频数分布表:主要由组段和频数两:主要由组段和频数两部分组成的表格。部分组成的表格。4例例8.1 某地区某地区2002年年5558岁健康成人的空腹血糖岁健康成人的空腹血糖(mmol/L)测定测定值如下,值如下,试编制频数表和观察频数分布情况。(试编制频数表和观察频数分布情况。(132)5.175.175.565.564.864.8

2、64.874.874.744.745.245.245.515.514.464.464.964.964.824.824.904.905.305.305.225.225.585.584.484.484.804.804.64.64.024.025.165.165.365.364.344.344.244.244.644.644.274.274.254.254.444.444.464.464.624.624.874.874.344.344.904.905.255.254.774.774.854.855.075.074.164.164.664.664.704.704.204.203.953.954.094

3、.094.644.644.334.335.215.214.614.614.984.985.245.244.604.604.254.254.784.785.005.003.603.604.114.114.614.614.084.084.784.784.264.264.444.444.384.384.44.44.794.794.764.764.924.924.604.604.784.785.035.034.354.354.184.184.684.684.654.654.574.574.274.274.994.994.214.214.894.894.714.714.724.724.414.414.3

4、84.384.064.064.794.794.964.964.834.834.454.454.514.514.274.274.504.504.314.315.055.055.595.595.085.085.165.163.743.744.364.365.365.364.644.645.095.094.574.574.464.464.564.564.394.395.245.244.614.614.214.214.964.964.344.344.454.454.864.864.504.504.904.904.454.454.494.494.424.424.684.684.564.565.385.3

5、84.344.344.464.464.164.164.984.984.294.294.834.834.274.273.683.683.853.853.863.864.564.564.564.564.554.555.165.165.155.155.165.165频数分布表及其制作频数分布表及其制作- - 频数分布表的编制频数分布表的编制1.1.计算极差(全距):计算极差(全距):R=R=最大值最大值 - - 最小值最小值R R5.593.60 =1.99(mol/L)5.593.60 =1.99(mol/L)6 2.2.决定组数、组段和组距决定组数、组段和组距 根据研究目的和样本含量根据研究目的

6、和样本含量n n确定分组确定分组组数。一般分为组数。一般分为8 81515组。组。 相邻两组段下限值之差称相邻两组段下限值之差称组距组距,i =i =全距全距 / / 组数。组数。 i =i = 1.99 / 10 = 0.199 0.2 (mol/L) 组段:每个组段的起点称组组段:每个组段的起点称组下限下限,终点称组终点称组上限上限。第一组组段包括最小值第一组组段包括最小值最后一组组段上限必须最后一组组段上限必须大于或等于最大值大于或等于最大值73.3.列表划记:列表划记:用划记法将所有数据归纳到各组用划记法将所有数据归纳到各组段,可得到各组段的观察单位数段,可得到各组段的观察单位数(频数

7、)(频数)8表表8-1 某地区某地区2002年年5558岁健康成人的空腹血糖岁健康成人的空腹血糖(mmol/L)测定值的频数分布表测定值的频数分布表血糖血糖(mol/L)(mol/L)组组段段组中值组中值(xi)(xi)频数频数(f)(f)累计频数(累计频数(ff)频率频率(%)(%)累计频率累计频率(%)(%)3.603.603.70 3.70 3 3 3 32.27 2.27 2.27 2.27 3.803.803.90 3.90 3 3 6 6 2.27 2.27 4.55 4.55 4.004.004.10 4.10 8 8 14 14 6.06 6.06 10.61 10.61 4.

8、204.204.30 4.30 23 23 37 37 17.42 17.42 28.03 28.03 4.404.404.50 4.50 24 24 61 61 18.18 18.18 46.21 46.21 4.604.604.70 4.70 25 25 86 86 18.94 18.94 65.15 65.15 4.804.804.90 4.90 20 20 106 106 15.15 15.15 80.30 80.30 5.005.005.10 5.10 12 12 118 118 9.09 9.09 89.39 89.39 5.205.205.30 5.30 10 10 128 12

9、8 7.58 7.58 96.97 96.97 5.40 5.405.605.605.50 5.50 4 4 132 132 3.03 3.03 100.00 100.00 合计合计132132100.00 100.00 9 频数:频数: 将所有变量值通过划记逐将所有变量值通过划记逐个归入相应组段个归入相应组段 ; 频率与累计频率:频率与累计频率: 将各组的频数将各组的频数除以除以n n所得的比值被称为所得的比值被称为频率频率。累累计频率计频率等于累计频数除以总例数。等于累计频数除以总例数。10 (一)频数分布的特征(一)频数分布的特征 1.集中趋势:集中趋势:变量值变量值集中集中分布的位置。

10、分布的位置。 2.离散趋势:离散趋势:变量值围绕集中位置的变量值围绕集中位置的分布情况。分布情况。11 1.对称分布对称分布 2.偏态分布偏态分布 12三、频数分布表的用途三、频数分布表的用途1.1.揭示资料的分布类型揭示资料的分布类型 2.2.观察资料的集中趋势和离散趋势观察资料的集中趋势和离散趋势 3.3.便于发现某些特大或特小的可疑值便于发现某些特大或特小的可疑值 4.4.便于进一步计算统计指标和作统计便于进一步计算统计指标和作统计处理处理 133便于发现一些特大或特小的可疑值便于发现一些特大或特小的可疑值14第二节第二节 集中趋势指标集中趋势指标15 平均数常用于描述数值变量资平均数常

11、用于描述数值变量资料的集中趋势,是反映同质资料料的集中趋势,是反映同质资料的平均水平或集中位置的特征值。的平均水平或集中位置的特征值。算数平均数算数平均数几何均数几何均数中位数中位数16 一、一、 算术均数(均数)算术均数(均数)表示符号:表示符号:总体均数总体均数 () 样本均数样本均数 ( x )应用:应用:对称分布资料,尤其是正态对称分布资料,尤其是正态分布资料。分布资料。17 1.1.直接法:直接法:用于观察值个数不多用于观察值个数不多时时 12nXXXXXnn18 2.2.加权法:加权法:用于变量值个数较多时。用于变量值个数较多时。ffXffffffkkk212211XXXX注意:权

12、数即频数f,为权重权衡之意。19表表8-1 某地区某地区2002年年5558岁健康成人的空腹血糖岁健康成人的空腹血糖(mmol/L)测定值的频数分布表测定值的频数分布表ixiixf血糖血糖(mol/L)(mol/L)组段组段频数频数( )( ) 组中值组中值( )( ) 3.603.603 3 3.70 3.70 11.10 11.10 41.07 41.07 3.803.803 3 3.90 3.90 11.70 11.70 45.63 45.63 4.004.008 8 4.10 4.10 32.80 32.80 134.48 134.48 4.204.2023 23 4.30 4.30

13、98.90 98.90 425.27 425.27 4.404.4024 24 4.50 4.50 108.00 108.00 486.00 486.00 4.604.6025 25 4.70 4.70 117.50 117.50 552.25 552.25 4.804.8020 20 4.90 4.90 98.00 98.00 480.20 480.20 5.005.0012 12 5.10 5.10 61.20 61.20 312.12 312.12 5.205.2010 10 5.30 5.30 53.00 53.00 280.90 280.90 5.40 5.405.605.604 4

14、 5.50 5.50 22.00 22.00 121.00 121.00 合计合计132132614.20614.202878.922878.92if2iixf20 计算结果计算结果某地区某地区2002年年132名名5558岁健康成人岁健康成人的空腹血糖的空腹血糖(mmol/L) x = 614.2 / 132 = 4.653 (mmol/L)21二、几何均数二、几何均数 几何均数几何均数( (简记为简记为) ): :是将是将n个观察值个观察值x的乘积再开的乘积再开n次方的方根(或各观察值次方的方根(或各观察值x对数值均值的反对数)。对数值均值的反对数)。 适用条件:适用条件:对于变量值呈对于

15、变量值呈倍数关系倍数关系或或呈呈对数正态分布对数正态分布( (正偏态分布正偏态分布) ),如抗,如抗体效价及抗体滴度,某些传染病的潜体效价及抗体滴度,某些传染病的潜伏期,细菌计数等。伏期,细菌计数等。 22 计算方法计算方法: 直接法直接法 G = n x1 x2 xn lgx1+lgx2+lgxn lgx G = lg1 = lg1 n n f1lgx1+f2lgx2+fklgxk f lgx 加权法加权法G = lg1 = lg1 n n23二、几何均数二、几何均数 例例8.3 有有7份血清的抗体效价分别份血清的抗体效价分别为为1:2, 1:4, 1:8, 1:16, 1:32, 1:64

16、,1:128,求平均抗体效价。求平均抗体效价。 平均抗体效价平均抗体效价1:16。24二、几何均数二、几何均数 计算几何均数注意事项:计算几何均数注意事项: 变量值中不能有变量值中不能有0 0,因为,因为0 0和负数和负数不能取对数。不能取对数。 不能同时有正值和负值;不能同时有正值和负值; 若全是负值,计算时可先把负号若全是负值,计算时可先把负号去掉,得出结果后再加上负号。去掉,得出结果后再加上负号。25三、中位数三、中位数 定义:定义:将一组变量值从小到大按将一组变量值从小到大按顺序排列,位次居中的变量值称顺序排列,位次居中的变量值称为中位数为中位数( (简记为简记为M M) )。 26三

17、、中位数三、中位数v适用条件:适用条件:v变量值中出现个别特小或特大的数值变量值中出现个别特小或特大的数值; ;v资料的分布呈明显偏态,即大部分的资料的分布呈明显偏态,即大部分的变量值偏向一侧变量值偏向一侧; ;v变量值分布一端或两端无确定数值,变量值分布一端或两端无确定数值,只有小于或大于某个数值只有小于或大于某个数值; ;v资料的分布不清。资料的分布不清。27三、中位数三、中位数 计算方法计算方法 1.直接用变量值计算直接用变量值计算 M = X n+1 (n为奇数时为奇数时) 2 1 或或M= X n + X n (n为偶数时为偶数时) 2 2 2+128三、中位数三、中位数 2.用频数

18、表计算用频数表计算)2(LmfnfiLM29四、百分位数四、百分位数 (Px ) 定义:定义:百分位数是一种位置指标,百分位数是一种位置指标,以以P Px x表示。百分位数是将频数等分表示。百分位数是将频数等分为一百的分位数。为一百的分位数。 一组观察值从小到大按顺序排列,一组观察值从小到大按顺序排列,理论上有理论上有x%x%的变量值比的变量值比P Px x小,有小,有(100-(100-x x)%)%的变量值比的变量值比P Px x大。故大。故P P5050分分位数也就是中位数,即位数也就是中位数,即P P5050=M=M 。 30计算公式:计算公式:)%(LxxfxnfiLP31先找到包含

19、先找到包含PxPx的最小累计频率;的最小累计频率;该累计频率同行左边的组段值为该累计频率同行左边的组段值为L L;L L同行右边的频数为同行右边的频数为fx(fx(或或fm)fm);L L前一行的累计频数为前一行的累计频数为fLfL;将上述已知条件代入公式计算将上述已知条件代入公式计算PxPx或或P P5050 。计算中位数及百分位数的步骤:计算中位数及百分位数的步骤:32第三节第三节 离散趋势指标离散趋势指标33 离散度(变异度)离散度(变异度):一组同质计量:一组同质计量资料各数据之间参差不齐的程度,资料各数据之间参差不齐的程度,称为离散度。称为离散度。 常用指标:常用指标:全距全距四分位

20、数间距四分位数间距方差和标准差方差和标准差变异系数变异系数34一、全距一、全距 (R) R = 最大值最大值 最小值最小值 反映变量值的变异范围。反映变量值的变异范围。 全距越大,说明变量的变异程度越全距越大,说明变量的变异程度越大。大。 其度量单位与原变量单位相同。其度量单位与原变量单位相同。35二、四分位数间距二、四分位数间距 (Q) 四分位数间距为特定的百分位数,可看四分位数间距为特定的百分位数,可看作为中间作为中间1/2变量值的全距。变量值的全距。 Q = Qu QL Qu = P75 (上四分位数)(上四分位数) QL = P25(下四分位数)(下四分位数)36二、四分位数间距二、四

21、分位数间距 (Q) 用途:用途:用于表示偏态分布资料的变用于表示偏态分布资料的变异程度,常与中位数配合使用。异程度,常与中位数配合使用。37三、方差和标准差三、方差和标准差 全距和四分位数间距都未全面考虑全距和四分位数间距都未全面考虑观察值的变异情况,为了克服该缺观察值的变异情况,为了克服该缺点,需计算总体中每个观察值点,需计算总体中每个观察值x x与总与总体均数体均数 的差值(的差值(x-x- ),称为),称为离均离均差。差。38NX22 )( 由于由于(x-x- )=0=0,不能反映变异,不能反映变异的大小,而用离均差平方和的大小,而用离均差平方和 (x-x- )2 2反映。其均数,即得到

22、反映。其均数,即得到总总体的方差体的方差,用,用 2 2表示。表示。3922()1XXSn样本方差样本方差40标准差标准差v方差可以比较全面地反映变量值的方差可以比较全面地反映变量值的变异情况,但其方差的单位是原单变异情况,但其方差的单位是原单位的平方,故引入标准差的概念。位的平方,故引入标准差的概念。v标准差:将方差开平方,恢复成原标准差:将方差开平方,恢复成原度量单位,得到度量单位,得到总体的标准差总体的标准差 和和样样本标准差本标准差S。41 总体标准差总体标准差 用用表示表示 样本标准差用样本标准差用 S 表示表示2()XN2()1XXSn42应用公式(计算公式)应用公式(计算公式)2

23、2()1XXnSn22()1fXfXfSf直接法直接法加权法加权法43ixiixf血糖(mol/L)组段频数( ) 组中值( ) 3.603 3.70 11.10 41.07 3.803 3.90 11.70 45.63 4.008 4.10 32.80 134.48 4.2023 4.30 98.90 425.27 4.4024 4.50 108.00 486.00 4.6025 4.70 117.50 552.25 4.8020 4.90 98.00 480.20 5.0012 5.10 61.20 312.12 5.2010 5.30 53.00 280.90 5.405.604 5.5

24、0 22.00 121.00 合计132614.202878.922iixf例 利用表8-2中的数据和频数表法计算标准差。if44标准差用途:标准差用途: 1. 表示同质变量值的离散程度表示同质变量值的离散程度 2. 与均数结合,表示均数的代表性与均数结合,表示均数的代表性 (xs),同时描述正态分布特征,同时描述正态分布特征 3. 与均数结合,与均数结合, 计算变异系数计算变异系数 4. 与样本含量与样本含量(n)结合,计算标准误结合,计算标准误45四、变异系数四、变异系数 (CV) 定义:定义: 用途:用途: 1) 比较多组单位不同资料的变异度比较多组单位不同资料的变异度 2) 比较多组均

25、数相差较大资料的变比较多组均数相差较大资料的变度。度。C VSX 1 0 0 %46第四节第四节 正态分布和正态分布和医学参考值范围医学参考值范围4748 一一 正态分布正态分布 正态分布是以均数为中心呈对称的钟型分布正态分布是以均数为中心呈对称的钟型分布 频数(人数) 125 129 133 137 141 145 149 153 157 161身高 (cm)f 120名12岁健康男孩身高的频数分布49 二、正态分布的特征:二、正态分布的特征:1) 正态分布曲线在均数处最高正态分布曲线在均数处最高2) 正态分布以均数为中心,左右对称且逐渐减少正态分布以均数为中心,左右对称且逐渐减少3) 正态分布曲线的两个参数正态分布曲线的两个参数和和, 记作记作N (, )4) 正态曲线下的面积为正态曲线下的面积为1 (或或100%)5000.10.20.30.40.5-4-3-2-101234 2-5 正态分布位置变换示意图 00.10.20.30.40.50.60.70.80.9-6-5-4-3-2-10123456=0.5 =1=2 2-6 正态分布形态变换示意图 51 正态曲线下的面积分布规律正态曲线下的面积分布规律 1 占正态曲线下面积的占正态曲线下面积的 68.27% 1.96 占正态曲线下面积的占正态曲线下面

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论