医学统计学-定量资料统计描述集中离散PPT课件_第1页
医学统计学-定量资料统计描述集中离散PPT课件_第2页
医学统计学-定量资料统计描述集中离散PPT课件_第3页
医学统计学-定量资料统计描述集中离散PPT课件_第4页
医学统计学-定量资料统计描述集中离散PPT课件_第5页
已阅读5页,还剩58页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2章 例某医院用随机抽样方法检查了138名成年女子的红细胞数 其测量结果如下 1 2章 问题1 该138名正常女子的红细胞数的平均数是多少 问题2 最高红细胞数是多少 最低红细胞数是多少 红细胞数的分布范围是多少 问题3 红细胞数在3 47 4 27占多大比例 问题4 如何用一个直观的统计图来描述红细胞数的分布规律 分布是否对称 2 2章 解析 此问题涉及如何对定量资料进行统计描述 问题1集中趋势问题2离散趋势问题3 4频数分布表和频数分布图 3 2章 统计描述 统计描述就是用适当的表格 图形 数量化的指标 表达数据的数量特征 揭示其分布的规律性统计描述分为 形象化描述 统计图表 建立对资料的初步印象 数值化的描述 统计指标 给出分布规律及具体数值 4 2章 统计描述 统计描述的思路 计算相应统计指标绘制合适统计图表 判断类型 获取资料 分类汇总相应统计指标绘制合适统计图表 5 2章 6 第一节 频数分布 图 表 频数分布 FrequencyDistribution 指的是对总数据按某种标准进行分组 统计出各个组内所含个体的个数 我们把各个类分组及其相应的频数全部列出来就是 频数分布 通常人们用图与表的形式展现频数分布 通过频数分布可以了解数据的分布规律对于定量变量 据其数值取值特征又可分为连续型与离散型 2章 7 离散型资料频数分布 图 表 2章 连续型定量变量的频数分布 连续型定量变量 continuousvariable 通常是指取值连续的定量变量 可以取数轴上的任意数值例如身高 体重 血压 血清胆固醇值等例 某医院用随机抽样方法检查了138名成年女子的红细胞数 8 2章 9 理想的描述结果 9 2章 如何得到上述理想的结果 频数分布表 分组划计 原始资料 11 频数表的编制方法 1 求MAX MIN RR MAX MINR 5 46 3 07 2 392 求 组段 数 组段和组距 1 组段 数一般为10 15个 2 组距一般为R 10取整 3 第一组段要包括MIN 最末组段包括MAX 并同时写出上下限 本例i 2 39 12 0 199 0 203 列表划计 2章 12 连续型定量变量的频数分布 分组除了最后一段外均为左闭右开区间 2章 13 频数分布图 2章 频数表与频数图的作用 揭示频数分布特征揭示频数分布类型便于发现一些特大或特小的离群值便于进一步做统计分析和处理 14 2章 揭示频数分布特征 1 集中趋势centraltendency 2 离散趋势tendencyofdispersion 3 当集中趋势与离散趋势结合起来时能全面反映频数的分布 15 2章 揭示频数分布类型 对称分布 高峰位于中部 左右两侧的频数大体对称 正态分布为最常见的一种 偏态分布 正偏态分布 儿童疾病年龄分布 负偏态分布 老年疾病年龄分布 分布类型不同采用的统计分析方法不同 16 2章 17 2章 近视眼Lasik术后1月裸眼视力 18 2章 19 如何更具体 精确 了解了数据分布的形态 对称与否 是否有异常值 仅仅意味着对数据有了初步认识 尚未得到数据的 精确 特征例如 教务处得到13与14两个年级的医学统计学成绩 如何判断优劣 2章 20 第二节集中趋势的描述 算数均数几何均数中位数和百分位数 2章 21 1 算术均数 算术均数arithmeticmean 总体均数 样本均数 简称均数 在已知各观察单位具体变量值时 可以采用直接法计算 公式如下 22 直接法 例4 3利用例4 2的155名6月龄婴儿的SOS资料 计算均数 2章 23 设分组后的数据为 X1 X2 XK相应的频数为 f1 f2 fK计算公式为 对于频数表资料 用每个组段的组中值代替该组段观察值的实际取值 加权法 2章 例如 对155名6月龄婴儿的SOS资料 利用表4 2求均数为 2章 25 算术均数 求138名女性红细胞数均数资料来源于整理后的频数表 无法取得原始数据采用加权法计算加权均数 作为算术均数的近似值 2章 26 算术均数 2章 算术均数的特性 各变量值与均数的离均差之和等于零 各变量值与均数的离均差平方和最小 2章 算术均数小结 它是一组数据的均衡点所在 集中趋势的最常用指标易受极端值的影响用于定量数据 不能用于分类数据和等级数据适用于服从对称分布定量资料 正态或近似正态 的集中趋势描述 28 2章 29 假设某投资者拥有资金1000元 第一年他取得10 的收益 第二年为20 第三年为40 求平均收益 第一年末所拥有的资金为其原始的1 1倍第二年末所拥有的资金为其原始的1 1 1 2倍第三年末所拥有的资金为其原始的1 1 1 2 1 4倍假设他三年来的投资收益是平均的 那么他的年平均收益a应该满足a a a 1 1 1 2 1 4 所以 即他的年均收益为22 7158488 而不是 0 1 0 2 0 4 3 0 233333333333333333 新问题 平均发展速度 2章 30 平均抗体滴度 某地5例微丝蚴血症患者治疗7年后用间接荧光抗体试验测得其抗体滴度倒数分别为10 20 40 40 160 求其平均数 如果使用算术均数的直接法 倒数的平均数约为54 所以平均滴度的倒数为54比54大的有1个数据 而比它小的只有4个 而且大多数的数据在40以内 由于160的存在使得平均数偏向160一侧 从而偏离了大多数的观察对象集中的位置 2章 31 几何平均数 直接法 将原始数据X取对数后得到的对数值视为一个新变量Y 求Y的算术均数为 求得Y的算术均数后将其换算为原数值X 即对其取反对数得几何均数G 2章 32 例4 4对26个采样点空气中总粉尘浓度计算几何均数 2章 33 几何平均数 加权法 69例类风湿关节炎 RA 患者血清EBV VCA lgG抗体滴度的分布见右表 求其平均抗体滴度采用加权法计算加权几何均数 2章 人群血铅含量平均值的计算 34 2章 对于某项风险较高的新手术术后的生存时间进行跟踪 共调查了7人 6人死亡之前分别生存了5天 6天 10天 16天 25天 29天 还有一人术后30天随访时仍存活 求他们的平均生存时间 其中有不确定数值 无法使用算术均数或几何均数 问题 患者生存期 35 2章 三 中位数 是将一批数据从小至大排列后位次居中的数值 不受极端值的影响 尤其适合于 大样本偏态分布的资料 资料有不确定数值 资料分布不明等 2章 37 未分组数据的中位数 2章 1 61 1 91 2 24 2 24 2 30 2 60 2 84 3 15 3 33 3 75 3 75 3 75 3 81 4 42 6 42 6 42 14 76 M 3 33 g g 例4 817名砷中毒患者发砷含量 2章 1 61 1 91 2 24 2 24 2 30 2 60 2 84 3 15 3 33 3 75 3 75 3 75 3 81 4 42 6 42 6 42 14 76 15 39 例4 918名砷中毒患者发砷含量 2章 Px所在组段的组距 Px所在组段的下限 Px所在组段的频数 fL为小于L的各组段累计频数 计算中位数时 X 50 即M P50 连续型资料Px 频数表法 40 2章 41 中位数 P50 2章 正 负偏态的理解 对于正偏态数据有算术均数 中位数 故算术均数减去中位数为正值 称这种数据分布为正偏态对于负偏态数据有算术均数 中位数 故算术均数减去中位数为负值 称这种数据分布为负偏态 42 2章 对于两组资料集中趋势的描述 样本1 样本含量9 算术均数10 11 中位数9 9样本2 样本含量9 算术均数10 11 中位数9 9 两个样本的资料相同或不同 结论 两个样本完全一样 样本1 8 99 49 69 79 910 410 911 011 2样本2 2 93 13 85 19 910 017 018 021 2 43 2章 44 第三节 离散趋势的描述 集中趋势是数据分布的一个重要特征 但单有集中趋势指标还不能很好地描述数据的分布规律 而且还要看数据的离散趋势 2章 离散趋势 反映一群变量值的变异程度或参差不齐的程度 离散程度大 均数的代表性差 离散程度小 均数的代表性好 2章 1 极差 极差range 一组数据的最大值与最小值之差离散程度的最简单测度值易受极端值影响未考虑数据的分布一般极差越大 则数据的变异性越大 但是它没有考虑除极值外其他数据的变异情况 而且样本的极差通常过小地估计了总体的极差 46 2章 四分位数 quartile Q 特定的百分位数 把一组观察值分为四等份 下四分位数 QL P25上四分位数为 QU P75四分位数间距 QU QL 2 四分位数间距 2章 48 2章 M P50 48 12 24 118 2 53 51 天 P25 L i f25 n 25 fL 36 12 32 118 25 21 39 2 天 P75 L i f75 n 75 fL 60 12 18 118 75 77 67 7 天 Q P75 P25 67 7 39 2 28 5 天 即该潜伏期的四分位数间距为28 5天 49 2章 四分位数间距越大 变量值的变异程度或离散程度越大 四分位数间距比极差稳定 但仍未考虑每个观察值的变异 四分位数间距常用于描述偏态分布资料 两端无确切值或分布不明确资料的离散程度 四分位数间距的意义 50 2章 51 离均差与离均差和 为了克服全距 四分位数间距的缺点 人们考虑到用每个变量值与均数之间的差别来反映离散的程度 所以提出了离均差的概念 其数学表达式为离均差可正可负 但是数学上可以证明 离均差与离均差和 2章 52 离均差平方和与离均差平方和的平均值 为了避免离均差和等于0的情况 人们考虑将离均差取平方后求其和 于是有了离均差平方和 其数学表达式为前者称为SS总体 后者称为SS样本 但是SS不但和变异大小有关 还和观察值的个数有关 SS随观察例数增多而增大 为了解决这个问题 人们又引入了离均差平方和的平均值 其数学表达式为 离均差平方和与均方 2章 3 1方差 离均差平方和的平均值 MS 又可称为方差variance它是反映数据离散程度的最常用的指标在计算方差过程中利用到每个变量值 所以它表达的离散趋势信息比极差 四分位数间距更精确但是由于在计算方差时用到算术均数 所以方差也只能用于反映对称或近似对称分布资料的离散趋势 2章 54 总体方差通常用希腊字母s2 sigma 表示 记作 但是在实际研究中 通常只观察来自总体中的一个样本 所以总体均数是未知的 此时用样本均数作为总体均数的估计值 相应的方差称为样本方差 其公式为 式中的n 1又称为自由度 总体方差与样本方差 2章 自由度degree offreedom df 一组数据中可以自由取值的数据的个数当样本数据的个数为n时 若样本均值 x确定后 只有n 1个数据可以自由取值 其中必有一个数据则不能自由取值例如 样本有3个数值 即x1 2 x2 4 x3 9 则 x 5 当 x 5确定后 如果x1 6 x2 7 那么x3则必然取2 而不能取其他值样本方差用自由度去除 其原因可从多方面解释 从实际应用角度看 在抽样估计中 当用样本方差S2去估计总体方差 2时 它是 2的无偏估计值 2章 56 3 2标准差 standarddeviation 因方差的度量单位是原度量单位的平方 故将方差开方 恢复成原度量单位 得总体标准差 标准差大 表示观察值的变异度大 标准差小 表示观察值的变异度小 2章 57 样本标准差 s 2章 58 标准差的计算 直接法加权法 2章 1985年通过十省调查得知 农村刚满周岁的女童体重均数为8 42kg 标准差为0 98kg 身高均数为72 4cm 标准差为3 0cm 试问身高与体重何者变异情况较大 要反映变异程度本例题中宜采用标准差 从标准差的数值看来 身高变异程度大于体重是否合理 身高的单位是cm 而体重的单位是kg 能否认为3cm 0 98kg 变异度间的比较问题 59 2章 4 变异系数 变异系数coefficientofvariation 标准差与其相应的均值之比它反映数据相对离散程度 没有量纲消除了数据水平高低和计量单位的影响 用于不同性

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论