《统计描述》PPT课件.ppt_第1页
《统计描述》PPT课件.ppt_第2页
《统计描述》PPT课件.ppt_第3页
《统计描述》PPT课件.ppt_第4页
《统计描述》PPT课件.ppt_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中医药统计学 统计描述 季聪华2012 09 21 在中医药科研实践中通过观察 调查 实验等方式搜集到的各种资料含有大量信息 由此揭示或表达样本信息特征 不仅需要依据相关专业知识 还需借助适当的统计学方法和手段 统计描述 statisticaldescription 又称描述性统计 descriptivestatistics 是运用适宜的统计指标 统计表 统计图等方法 对研究对象 变量 的分布类型和数量特征进行展示的过程 通过统计描述 可了解研究对象的基本特征 便于对样本资料作进一步的统计分析 第一节频数分布第二节数值资料的统计描述第三节分类资料的统计描述第四节统计表和统计图第五节例题和SPSS电脑实验 第一节频数分布 频数表 frequencytable 及频数图 frequencygraph 是统计描述的基本内容 也是揭示样本数据分布特征的基本手段 一 频数表 频数表 frequencytable 又称频数分布表 是将某变量各组段及其相应的频数按一定顺序排列而成的表格形式 主要用于描述数据的分布特征 是对样本含量较大的资料进行统计描述的常用方法 例2 1 随机抽取某年某地120例正常人血清铜的含量 见表2 1 试编制频数表 1 数值资料频数表的编制 通过如下步骤也可手工编制表2 2 1 找出120例血清铁数据的最小值 9 23 与最大值 19 84 2 计算全距 range R 也称为极差 R 最大值一最小值 19 84 9 23 10 61 3 确定组段数 k 组段数应根据研究目的和观察值多少而定 当n100时 通常取10 15组 不宜过粗或过细 本例n 120 可先将原始资料粗略定为11组 4 确定组距 i 组距等于全距比组数 一般等距分组 i R k本例中 i 10 61 11 0 965 1 5 确定组段 第一组段应包括最小值 最后一个组段应包括最大值 每一组段的起始值称为下限 终点值称为上限 即下一组段的下限 为避免汇总时的重复 组段不包括本组段的 上限 但最后一个组段应同时写出下限和上限 如本例最小值为9 23 为计算方便 第一组段的下限取9 00 然后每隔一个组距列一个组段 直至最后一个组段19 00 20 00 6 列表并统计频数 还可计算频率 累计频数和累计频率 见表2 2 表中 组中值 上组段下限值 下组段下限值 2 频数 frequency 即各组段内观察值的个数 频率 percent 即各组段频数与总观察值个数之比 一般用百分数表示 累计频数 cumulativefrequency 是由上至下将频数累加 累计频率 cumulativepercent 是由上至下将频率累加 从本例的分布可见 以第六组段 14 00 分布的数据最多 22例 占18 3 且以该组段为中心呈对称分布 小于15 00umol L的数据占59 1 SPSS软件绘制频数表 对 例2 1 资料进行统计描述 2 分类资料频数表的编制 1 一维频数表 用分类资料的分类水平代替上述数值资料频数表的组段 然后通过分类计数便可编制其频数表 见表2 3 2 二维频数表 分类资料的二维频数表在各种医学杂志中较为常见 按分类资料的分类水平特征 可组合成各种不同的二维表 不同二维表名称见表2 4 3 配对设计分类资料的频数表 同一研究对象同时接受两种不同的处理 观测的结果为属性相同的分类资料时 这样就形成了配对设计的分类资料 可用行数与列数相同的方形表归纳其频数分布 见表2 5 二 频数图 频数图 frequencygraph 是在频数表基础上 以直方 或直条 的面积大小表示频数的多少或频率的大小的图形 可直观显示数据的分布类型和特征 1 数值资料频数图 直方图的绘制 1 等距分组 横轴表示随机变量 纵轴表示频数 或频率 表2 1资料的频数图 见图2 1 SPSS绘制频数图 2 不等距分组 横轴表示变量 纵轴是每个横轴单位的频数 表2 6资料的频数图 见图2 2 2 分类资料频数图 直条图的绘制 三 频数表和频数图的用途 1 描述频数分布的类型资料的频数分布类型有对称分布 symrnetricdistribution 和偏态分布 skewdistribution 两种 如果频数分布集中位置 单峰最高处 在中间 左右两侧频数大体对称 称为对称分布 如果频数分布不对称 集中位置偏向一侧 则称为偏态分布 若集中位置偏向观察值小的一侧 称为正偏态 positiveskewness 又称右偏态 若集中位置偏向观察值大的一侧 称为负偏态 negativeskewness 又称左偏态 不同资料的频数分布类型 见图2 4 对于不同频数分布类型的资料 应选用不同的统计方法进行分析 描述频数分布形态的统计量有两个 峰度系数 coefficientofkurtosis KURT 和偏度系数 coefficientofskewness SKEW 理论上总体偏度系数为0时 分布是对称的 取正值时 分布为负偏态 取负值时 分布为正偏态 正态分布的总体峰度系数为0 取负值时 分布为平阔峰 取正值时 分布为尖峭峰 正态分布是一种特殊的以集中性 对称性和均匀变动性为特点的对称分布 故无论尖峭峰或平阔峰 均为非正态分布 2 展示频数分布的特征频数分布有两个重要特征 一是集中趋势 centraltendency 反映一组观察值的中心位置或平均水平 二是离散趋势 tendencyofdispersion 反映观察值之间参差不齐的程度 对数值变量资料作统计描述 就是用统计指标将这两个重要特征数量化 3 便于发现某些特大或特小的异常值对资料中出现的异常值应谨慎对待 必要时对原始资料进行核实 并再次进行观察或测量 若条件不允许再次观察或测量 在有充分依据的前提下 可将异常值予以剔除 然后再做统计描述和分析 4 有利于进一步计算有关指标和统计分析处理 第二节数值资料的统计描述 从数值资料的频数表和频数图中虽可以看出观察值的分布情况 但为了揭示数据的基本特征 还需用可量化指标作进一步的统计描述分析 本节讨论数值资料的统计描述 它包括集中趋势和离散趋势的统计描述 一 集中趋势的统计描述 描述数值资料集中趋势的代表性指标为平均数 平均数 average 是反映一组观察值 变量值 集中趋势 中心位置或平均水平的重要统计指标 其主要作用包括 作为一组观察值的代表值 表明该组观察值集中趋势的特征 便于对同类研究对象进行对比分析 按使用条件和计算方法不同 平均数分为许多种 常用的有算术均数 几何均数和中位数等 1 算术均数 arithmeticmean 简称均数 mean 它等于所有观察值之和除以观察值的个数 表示一组性质相同的观察值在数量上的平均水平 适用于呈对称分布 尤其是正态分布的数值资料的集中趋势描述 如正常人生理 生化的大多数指标 如身高 体重 血红蛋白含量 白细胞计数等均适合用均数描述其集中趋势 总体均数用希腊字母 表示 样本均数用x 读作xbar 表示 计算方法有两种 2 几何均数 geometricmean 是n个数值乘积的n次方根 表示一组资料在比例或倍数上的平均 用G表示 适用于对数正态分布资料 有些数值资料 原始数据不服从正态分布 若将数据转换成对数后的资料服从正态分布 和观察值之间呈等比关系的资料 如某些疾病的潜伏期 抗体滴度或平均效价等 SPSS计算几何均数 3 中位数 median 将一组观察值从小到大按顺序排列 位次居中的观察值就是中位数 用M表示 它表示位次上的平均 不受两端极值的影响 中位数适用于任何一种分布的数值变量资料 一般多用于描述偏态分布或数据一端或两端无确切值的开口资料 如n 60 的集中趋势 百分位数 percentile 是一个位置指标 用px表示 把一组变量值由小到大依次排列 将位次平均分成100等份 与第x百分位数相应的变量值称为第x百分位数 一个百分位数可将一组变量值分为两部分 理论上有nx 个变量值比它小 有n 1 x 个变量值比它大 所以百分位数是一个界值或分割值 百分位数常用于描述一组偏态分布的大样本资料在某个百分位置上的水平及确定偏态分布资料的医学正常值范围 中位数是一个特定的百分位数 即p50 计算百分位数的公式为 百分位数示意图 运用平均数的注意事项 1 了解各医学专业平均数的习惯用法 例如 儿童龋齿个数虽然呈偏态分布 但在口腔预防保健统计中 习惯上计算算术均数 2 同一资料有时可能同时满足几个平均数指标的应用条件 例如 对于某些偏态分布的资料 几何均数和中位数比较接近 出现这种情况时 除了专业上的习惯用法外 统计上的处理原则是 如果均数与中位数接近 几何均数与中位数接近 最终采用均数或几何均数作为平均数指标 反之 则采用中位数作为平均数指标 3 计算和运用平均数时 要注意极端值的影响 如算术平均数受极端值的影响较大 为了正确反映观察值的特征 当存在过大或过小的极端值时 应予以剔除 然后将其余数值计算平均数 通常称这种去除极端值再平均的方法为切尾平均法 该法在文艺 体育比赛评分时应用较多 4 平均数只反映变量的集中趋势 只有把平均指标与变异指标相结合 才能全面反映研究对象的数量特征 离散趋势的统计描述 离散趋势是反映一组观察值之间参差不齐的程度 即变异度 例2 9 有三组同龄男孩的身高值 cm 如下 其平均身高均为100cm 试分析其离散程度 甲组 9095100105110甲的平均值 100cm乙组 9698100102104乙的平均值 100cm丙组 9699100101104丙的平均值 100cm由资料可见 虽然三组的均数相同 即集中趋势相同 但各组数据参差不齐的程度并不相同 即离散趋势不同 所以要反映数值资料的整体特征 既要考虑集中趋势 还要考虑离散趋势 常用的离散趋势指标有极差 四分位数间距 方差和标准差 变异系数等 1 极差 range R 又称全距 是一组观察值中最大值与最小值之差 适用于任何分布类型的资料 开口资料除外 极差越大 说明变异程度越大 计算公式见式 2 1 用极差描述资料的离散趋势虽然计算简单 但除了最大值和最小值 不能反映组内其他数据的变异 且易受极端值和样本含量的影响 所以常用于资料的粗略估计和小样本数据 2 四分位数间距 将全部观察值按其位次分为四等份 有三个分点 第一个分点是下四分位数即P25 常用QL表示 第二个分点即中位数M 记为p50 第三个分点也称上四分位数 即P75 常用Qu表示 四分位数间距 quartilcinterval Q 即指上 下四分位数之差 用Q表示 四分位数间距示意图 见图2 5 四分位数间距适用于任何分布类型的资料 尤其是呈偏态分布的大样本资料 常与中位数一起描述偏态分布资料的分布特征 它作为描述数据分布离散程度的指标 比极差稳定 但仍未考虑到每个数据的大小 3 方差和标准差 为了全面考察每个观察值的变异情况 克服极差和四分位数间距的缺点 需要计算总体中每个观察值x与总体均数 的差值 x 称为离均差 由于 x 0时 不能反映变异度大小 需将离均差平方后再求和 即 x 2 称为离均差平方和 同时考虑到观察值个数N的影响 取其均数 称为总体方差 用 2表示 计算公式为 由于在实际研究中很难得到总体均数和总例数 只能用样本均数和样本例数来代替 计算出样本方差 s2 作为总体方差的估计值 为了克服s2对 2的有偏估计 统计学家提出用n 1代替n来校正 计算公式为 式中 n 1称为自由度 degreeoffreedom 统计符号为 表示在计算某一统计量时可以自由取值的变量个数或观察值个数 设某统计量的变量x共有n个取值 则v n 若它们受到k个条件限制 k n 则v n k 如计算方差和标准差时 其结果均受到样本均数这个条件的限制 k 1 故v n 1 因方差 variance 的度量衡单位是变量值单位的平方 不利于数据之间的比较 所以方差不常用于描述资料的离散度 而主要用于假设检验的方差分析 标准差 standarddeviation SD 是描述一组观察值离散度大小的常用统计学指标 标准差是方差的算术平方根 总体标准差用 表示 样本标准差用s表示 计算公式为 标准差除具有方差的优点外 还克服了度量单位被平方的不足 运用较方便 是常用的离散性指标 方差和标准差适用于正态分布或近似正态分布的资料 标准差的用途 1 描述变异程度 标准差表示一组变量值的离散度大小 其大小受每一个观察值的影响 标准差大 说明观察值的变异度大 即各观察值离均数较远 均数的代表性较差 反之 标准差小 则变异程度小 均数代表性较好 标准差常与算术均数结合 通常写成均数 标准差形式 综合描述正态分布资料的分布特征 2 计算变异系数 若比较单位不同或均数相差悬殊的几组资料的变异度 需根据标准差计算变异系数 3 描述正态分布和制定医学参考值范围 详见第三章第四节 4 结合样本含量n计算标准误 详见第四章第一节 4 变异系数 coefricientofvariation CV 是一组变量值的标准差与算术均数之比 用CV表示 通常为百分数形式 它常用于比较单位 量纲 不同或均数相差悬殊的两组或多组资料的变异度 计算公式为 CV与变异程度 离散性 呈正比 即变异系数大 表示离散性大 反之 则离散性小 CV的应用主要包括 比较度量单位不同 如身高cm与体重kg 的几组资料的离散性 比较均数相差悬殊 如儿童身高与成人身高 的几组资料的离散性 比较实验指标的稳定性及测定方法的精密度 如果实验稳定性和精密度较好 则指标数据的CV应较小 反之则大 由此可见 CV对于改进实验方

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论