2-统计描述(计量).ppt_第1页
2-统计描述(计量).ppt_第2页
2-统计描述(计量).ppt_第3页
2-统计描述(计量).ppt_第4页
2-统计描述(计量).ppt_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计描述 频数分布计量资料的统计描述计数资料的统计描述 第一节频数分布 计量资料的频数分布表频数分布图频数分布表的用途 一 频数与频数分布表 频数 frequency 对一个随机事件进行重复观察 其中某变量值出现的次数频数分布表 frequencydistributiontable 是用表格的形式将各变量的取值与之相对应的频数用以表达的一种统计计算或分析表 例4 1测得130名健康成年男子脉搏资料 次 分 如下 试编制频数表和观察频数分布情况 表4 1130名健康成年男子脉搏 次 分 的频数分布表 频数表的编制步骤 计算极差决定组段数确定组距确定组段列表划记 计算极差 观察值中的最大值和最小值之差称为极差或全距 range 常用R表示 本例中最大值为84 次 分 最小值为57 次 分 极差R 84 57 27 次 分 决定组数 根据研究目的及观察例数确定组数 若为计算用 组数可适当增多 以减少计算误差 若为显示分布特征 则组数不宜太多或太少 一般组数不小于5 且不大于20 通常选择10个左右为宜 确定组距 相邻两组下限值之差称为组距 classinterval 一般都用等距 且用 极差 组数 之商最接近的整数值作为组距本例若分为10组 即组距为27 10 2 7 次 分 取整数为3 该样本可分为10组 确定组段 根据组数将极差划分为相应的组段每一个组段的起点和终点 分别称为该组段的下限和上限第一组段的下限应略小于最小值 即取56最后组段的上限要略大于最大值 即取85 列表划记 将原始数据用划记法或计算机计算各组段频数 frequency 各组段内观察值的个数计算各组段频率 percent 各组段频数与总观察值个数之比 一般用百分数表示计算累计频数 cumulativefrequency 和累计频率 cumulativepercent 由上至下分别将频数和频率累加 表4 1130名健康成年男子脉搏 次 分 的频数分布表 频数分布表的观察 频数分布有两个重要的特征集中趋势 centraltendency 所有观察值的集中 中心 位置离散趋势 tendencyofdispersion 所有观察值偏离中心位置的分布情况 二 频数分布图 直方图 图2 1130名正常成年男子脉搏的频数分布 分布的类型 对称分布 symmetricdistribution 偏态分布 skeweddistribution 正偏态分布 skewedpositivelydistribution 负偏态分布 skewednegativelydistribution 分布的类型 负偏态分布 长尾向左侧偏斜延伸 正偏态分布 长尾向右侧偏斜延伸 对称分布 中部高 两侧低 左右对称 三 频数表的用途 揭示观察值的分布特征便于发现某些特大或特小的可疑值提供分组数据 便于进一步统计分析和处理 第二节计量资料的统计描述 集中趋势的描述离散趋势的描述 一 集中趋势的描述 统计上使用平均数 average 这一指标体系来描述一组变量值的集中位置或平均水平算术均数 arithmeticmean 几何均数 geometricmean 中位数 median 众数 mode 调和均数 harmonicmean 算术均数 简称均数 mean 它是一组已知性质相同的数值之和除以数值个数所得的商数总体均数用希腊字母 表示 样本均数用表示适用于对称分布 尤其是正态分布资料 1 直接计算法 当观察例数不多 如样本含量n小于30 时 或观察例数虽然很多 但有计算机及统计软件 均可选择直接法 公式 式中 读作sigma 为求和的符号 Xi为各观察值 n为总例数 实例 从例4 1数据中随机抽取一行 计算均数 若抽取的数据为第6行 数值为 81706675716377747668657769 均数为 2 加权法 当观察例数很多又缺乏计算机及统计软件时 若用直接法很容易出错 运用频数表资料 可以用加权法处理 公式 k 频数表的组段数 f 频数 X 组中值 例4 1测得130健康成年男子脉搏资料 次 分 如下 试编制频数表和观察频数分布情况 表4 2130名健康成年男子脉搏 次 分 的频数分布表 N f fX fX2 近似等于直接法 几何均数 表示符号 G适用对象 对数正态分布资料当一组观察值不呈正态分布 且其差距较大时 若用均数表示其平均水平会受少数特大或特小值的影响 但数值按大小顺序排列后 各观察值呈倍数关系或近似倍数关系 如抗体的平均滴度 药物的平均效价 食物中毒的平均潜伏期等 几何均数 适用对象本身呈正偏态分布 经对数转换后呈对称分布或正态分布的资料 仅适用于右偏态分布 不适用于左偏态分布变量x服从对数正态分布 即表示变量lg xi 服从正态分布 对于lg xi 具有正态分布的所有特性 1 直接计算法 几何均数 变量对数值的算术均数的反对数 其他对数 如自然对数 变换获得相同的几何均数 例4 2有8份血清的抗体效价分别为1 5 1 10 1 20 1 40 1 80 1 160 1 320 1 640 求平均抗体效价 平均抗体效价为 1 57 几何均数的适用实例 血清的抗体效价滴度的倒数分别为 10 100 1000 10000 100000 求几何均数 此例的算术均数为22222 显然不能代表滴度的平均水平 同一资料 几何均数 均数 2 加权法 公式 例4 369例类风湿关节炎 RA 患者血清EBV VCA lgG抗体滴度的分布见表2 4第 1 2 栏 求其平均抗体滴度 几何均数的应用注意事项 计算几何均数时 观察值不能小于或等于零观察值不能同时有正值和负值同一组资料求得的几何均数小于算术均数 中位数 中位数是将一组变量的所有观察值按大小顺序排列 位置居于中间的那个数值 中位数把全部观察值等分为两部分 有一半不比它小 有一半不比它大 它反映一批观察值在位次上的平均水平 表示符号 M 1 直接计算法 n为奇数时n为偶数时 先将观察值按从小到大顺序排列 再按以下公式计算 例4 49名中学生甲型肝炎的潜伏期分别为12 13 14 14 15 15 15 17 19天 求其中位数 2 频数表法 下限值L 上限值U i fm 中位数M 例4 1频数表中位数的计算 N f 中位数 71 3x 130 x50 59 26 71 69 中位数的特征 计算时只利用了位置居中的测量值优点 对极值不敏感缺点 并非考虑到每个观测值对于正态分布或对称分布的资料 理论上中位数等于均数 正态分布时 均数 中位数正偏态分布时 均数 中位数负偏态分布时 均数 中位数 中位数的适用条件 各种类型的资料尤其适合于大样本偏态分布的资料一端或两端无确切数值的资料分布不明的资料 二 离散趋势的描述 设甲 乙 丙三人 采每人的耳垂血 然后红细胞计数 每人数5个计数盘 得结果如下 万 mm3 甲 乙 丙 二 离散趋势的描述 反映数据的离散度 Dispersion 即个体观察值的变异程度全距 Range 百分位数 Percentile 与四分位数间距 Quartilerange 方差 Variance 标准差 StandardDeviation 变异系数 CoefficientofVariation 1 全距 Range 极差 120 40 20 全距的优缺点 优点 简便缺点全距仅利用两端的数值 未利用全部观察值的信息 增加或减少极端值时 全距也会相应地发生改变 故其稳定性差 若增加或减少中间水平的观察值时 全距不会发生改变 不能灵敏地反映数值的变动 若观察的样本含量越大 数值波动的范围越大 全距就越大 故样本含量相差悬殊时 不能通过比较全距来比较离散趋势 若一组观察值的一端或两端有不确切的数值 如大于或小于某数值 全距难以计算 百分位数 百分位数 percentile 把一组数据从小到大排列 分割成100等份 每等份含1 的观察值 分割界限上的值就是百分位数 用符号Px表示 Px将数据分成两部分 有 100 x 的数值大于Px 有x 的数值小于Px 中位数是第50百分位数 用P50表示 第5 第25 第75 第95百分位数分别记为P5 P25 P75 P95 2 百分位数与四分位数间距 百分位数示意图 百分位数的计算 通常采用频数表法 其公式为 百分位数 第X百分位数所在组下限 第X百分位数所在组的组距 第X百分位数所在组的频数 第X百分位数所在组前一组的累计频数 总例数 百分之多少 例4 5试分别求例4 1频数表的第25 第75百分位数 P25 65 3x 130 x25 19 15 65 90P75 74 3x 130 x75 85 19 74 66 四分位数间距 用Q表示 Q 下四分位数 上四分位数 四分位数间距 其值越大 说明变异程度越大 常用于描述偏态分布资料的离散程度 该指标比全距稍稳定 但仍未考虑每个观察值 百分位数的应用 多个百分位数结合使用 可更全面地描述总体或样本的分布特征确定医学参考值 正常值 范围 referencerange 以及身体发育水平等的界限 3 方差 若要克服极差和四分位数间距不能反映每个观察值之间的离散情况的缺点 就必须全面考虑到每一个观察值 因又离均差平方和受例数的影响取离均差平方和的均数 简称方差 variance 或均方 meanofsquares 方差计算公式 总体方差样本方差 离均差平方和SS 样本方差为什么要除以 n 1 与自由度 degreesoffreedom 有关自由度是数学名词 在统计学中 n个数据如不受任何条件的限制 则n个数据可取任意值 称为有n个自由度若受到k个条件的限制 就只有 n k 个自由度了 计算标准差时 n个变量值本身有n个自由度 但受到样本均数的限制 任何一个 离均差 均可以用另外的 n 1 个 离均差 表示 所以只有 n 1 个独立的离均差因此只有 n 1 个自由度 离均差和 X m 0 4 标准差 标准差 standarddeviation 是方差的平方根 由于每一个离均差都经过平方 使原来观察值的度量单位 如cm mmHg等 也都变为平方单位了 导致计算结果难以解释 为了还原成为原来的度量单位 将方差开平方 得到标准差 总体标准差用 样本标准差用S或SD表示 标准差的计算公式 总体标准差样本标准差 标准差的公式还可以写成 利用频数表计算标准差的公式为 标准差的计算实例 例4 6利用表2 2中的数据和频数表法计算标准差 N f fX fX2 标准差的意义和用途 说明资料的离散趋势 或变异程度 标准差的值越大 说明变异程度越大用于计算变异系数用于计算标准误结合均值与正态分布的规律估计参考值的范围 5 变异系数 变异系数 coefficientofvariation 用CV表示 CV实际上是标准差的另一种表示方式 即将标准差转化为均数的倍数 以百分数的形式表示 CV常常用于比较度量单位不同或均数相差悬殊的两组 或多组 资料的变异程度 计算公式 例4 7某地7岁男孩身高的均数为123 10cm 标准差为4 71cm 体重均数为22 29kg 标准差为2 26kg 比较其变异度 例4 8某地101例30 49岁健康男性 其血清总胆固醇的均数为4 73mmol L 标准差为0 90mmol L 其血清三硝酸甘油脂的均数为2 21mmol L 标准差为1 06mmol L 比较两者的变异度 总胆固醇

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论