实习一集中趋势与离散趋势课件_第1页
实习一集中趋势与离散趋势课件_第2页
实习一集中趋势与离散趋势课件_第3页
实习一集中趋势与离散趋势课件_第4页
实习一集中趋势与离散趋势课件_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

预防医学(医学统计学)实习 实习一:集中趋势与离散趋势 TelTel15880436478 E-mailE-mail: 邱丽君 Date1 实习纲要实习纲要 医学统计学中的基本概念; 集中趋势与离散趋势的统计指标 Date2 一、医学统计学的基本概念一、医学统计学的基本概念 1.同质及变异 2. 总体与样本 3. 变量及其分类 4. 参数与统计量 5. 抽样误差 6. 概率与小概率事件 Date3 在研究事物的形状时 同质(homogeneous)示例 在研究事物的颜色时 Date4 变异(Variation)示例 在研究事物的颜色时 Date5 变异(Variation)示例 发热者体温波动 正常人体温波动 Date6 总体和样本 总体(Population):根据研究目的所确定的 同质观察单位的全体; 样本(Sample):是从总体中按照一定的目的 按照一定的原则抽取的一部分个体。 请考虑如何判断样本是否有代表性;抽样研究 的目的? 随机、样本含量;推断总体信息 Date7 变量与变量值 在医学研究中,根据研究目的的要求对一 些观察项目或研究指标在一些研究对象中进行 观察(或测量),由于这些指标存在着变异,故 把这些观察项目或研究指标(属性、特征)称 为随机变量,简称变量(variable),而观察结 果对应的取值称为变量值或资料(value of variable) 。 Date8 病例号 年龄 (岁) 性别 身高 (cm) 血型 心电图 尿WBC 职业 RBC (1012/L) 135女1.65A正常教师4.67 244男1.74B正常工人5.21 326男1.80O正常职员4.10 425女1.61AB正常农民3.92 541男1.71A异常+工人3.49 645女1.58B正常+工人5.48 750女1.60O异常+干部6.78 828男1.76AB正常+干部7.10 931女1.62O正常军人5.24 思考下列变量的有哪些类型?依据? 依据有无度量衡单位,取值的属性 Date9 变量 类型 数值变量 分类变量 无序分类 有序分类:如血清反应,治疗效果 二项分类:如男女,有效无效 多项分类:如血型,职业特征 连续型变量:如:身高,体重 离散型变量:如子女数,脉搏数 Date10 参数和统计量 总体参数 (Parameter ):描述总体特征的指标。 统计量( Statistic):反映样本特征的指标。 总体参数与统计量有哪些区别与联系呢? 答:1.在总体被确定之后,总体参数就是一个常数,是 不会变化的,不管你是否确切知其大小;而统计量是几乎 总是随着样本而变的。 2.为了区分参数与统计量通常用希腊字母表示参数 ;用拉丁文字母表示统计量。 3.通常参数是未知的,而统计量则可以通过抽样研 究得到,故统计学通常用统计量估计参数(参数估计)。 Date11 抽样误差 【定义】由于个体变异的存在,在抽样研 究中产生样本统计量和总体参数之间的差 异,称为抽样误差(sampling error)。 各种参数都有抽样误差,这里我们以均数 为研究对象 Date12 假如事先知道某地七岁男童的平均身高为 119.41cm。为了估计七岁男童的平均身高(总体 均数),研究者从所有符合要求的七岁男童中每 次抽取100人,共计抽取了三次。 119.41cm = 4.38cm Date13 三次抽样得到了不同的结果,原因何在? 个体变异随机抽样 不同男童的 身高不同 每次抽到的 人几乎不同 抽样误差 Date14 抽样误差的表现 抽样误差的表现 样本均数和 总体均数间 的差别 样本均数和 样本均数间 的差别 Date15 概率 概率的统计学定义: 数理统计学中的大数定理表明:当观察 次数n越来越大,频率f的随机波动幅度越来 越小,并最终趋向于一个常数p:随机事件A 发生的概率 (Probability)。 概率描述了随机事件发生的可能性的大小。 是一种参数。 0P 1 Date16 小概率事件 小概率事件 医学研究中,将概率小于等于0.05或0.01的 事件称为小概率事件。 小概率原理 小概率事件并不表示不可能发生,但在某一 次试验中,由于其发生的可能性十分小,近似认 为是不会发生的。 Date17 二、数值变量的集中与离散趋势二、数值变量的集中与离散趋势 1.频数表与频数图的绘制与用途 2.集中趋势的描述:算术平均数、几何 平均数、中位数、众数 3.离散趋势的描述:极差、四分位数间 距、方差与标准差、变异系数 Date18 由于个体变异的存在,医学研究得到的原始数据 (raw data)往往是庞大的,但也不是杂乱无章的, 而是有一定规律的,呈一定的分布(distribution) 频数分布表的基本思想:将原始数据按照一定的标 准划分为若干各组,合计各组数据的个数(频数) ,得到频数分布表;在将频数表绘制成频数分布图 。通过它们探寻数据的分布规律。 Date19 离散型定量变量的频数分布 离散型定量变量(discrete variable)通 常是指取值不连续的定量变量,通常只 能取数轴上的整数值。 例如受检次数、新生儿数、手术病人数 等 例:1998年某山区96名孕妇产前检测次 数数据? Date20 表1 1998年某山区96名孕妇产前检测次数频数分布表 检查次数频数 频率( ) 累计人数 累计频率 () 044.244.2 177.31111.5 21111.52222.9 31313.53536.5 42627.16163.5 52324.08487.5 51212.596100.0 合计96100.0 Date21 频数分布图(直条图bar chart) Date22 连续型定量变量的频数分布 连续型定量变量(continuous variable )通常是指取值连续的定量变量,可 以取数轴上的任意数值。 例如身高、体重、血压、血清胆固醇 值等 例:某地120名1835岁健康男性居民 血清铁含量(mmol/L)数据 Date23 连续型定量变量频数分布表 确定组数:组数的确定应以能够显示数据的分布特征 和规律为目的。对于100余例的数据通常分为815组 。或根据以下经验公式: 确定组距:组距是一个组的下限与下一个组段下限之 差,可根据全部数据的最大值和最小值及所分的组数 来确定,即组距组距IntInt ( ( 最大值最大值 - - 最小值最小值) ) 组数 组数 列出组段:第一组段的下限略小于最小值,最后一个 组段上限必须包含最大值半开半闭,尾数关闭 统计出各组的频数并整理成频数分布表 Date24 表2 120名正常成年男子血清铁含量(mmol/L)频数表 组段频数频率()累计频数累计频率() 610.8310.83 832.5043.33 1065.00108.33 1286.671815.00 141210.003025.00 162016.675041.67 182722.507764.17 201815.009579.17 221210.0010789.17 2486.6711595.83 2643.3311999.17 283010.83120100.00 合计120100.00 Date25 频数分布表、图所提供的信息 频数分布图用以表示数据的分布规律; 观察分布范围及有无可疑值 ; 考察分布的类型 ; 对称分布 非对称分布(偏态分布) 左偏态(负偏态) 右偏态(正偏态) Date26 集中趋势(central tendency) 1. 同质的群体中数据向其中心值靠拢的倾向和程 度 2. 测量集中趋势就是寻找数据水平的代表值或中 心值,该值通常称为:平均数 3. 不同类型的数据用不同的集中趋势测量值 4. 常见的平均数指标有:算术均数、几何均数、 中位数、众数 Date27 算术均数(arithmetic mean) 它是一组数据的均衡点所在;集中趋势的最常 用指标 易受极端值的影响 用于定量数据,不能用于分类数据和等级数据 4. 适用于服从正态或近似正态计量资料(对称 分布)的集中趋势描述 Date28 几何均数(geometric mean) 适用于呈等比级数、或呈倍数变化的数据;例如医 学上的抗体滴度、人口变化速度、细菌增长率、药 物效价等 常用于表示呈正偏态,但是经过对数转换后可以满 足对称(正态)的数据的平均水平 数据中不可以有0,如果有0用一个很小的正数代替 ;不可同时有正负数 在医学之外,它常用于计算事物变化的平均速度( 经济学) Date29 1. 适用于分布呈明显偏态,数据中存在极大或极小 值,分布的一端或两端无确定数值,或分布不清 的资料 2. 它是位置参数,不受极端值的影响,因此较均数 、几何均数都稳定 3. 对于正态分布的资料,理论上中位数与算术均数 是相等的 中位数(median) Date30 众数(mode)* 是指一系列数值中出现次数(概率)最多的数值 。 在某些情况下数据中可能没有众数(全国各大城 市的人口数几乎不可能会有完全相同的),有时 可能会有几个众数(例如:16、32、32、64、64 、128);由于它的取值完全取决于频数,所以 在小样本的情况下它不太稳定。 Date31 离散趋势(disperse tendency) 1. 数据分布的另一个重要特征,反映各变量值远离其 中心值的程度(离散程度),也称为变异度。 2. 从另一个侧面说明了集中趋势测度值的代表程度 3. 不同类型的数据有不同的离散程度测量值,常用的 离散趋势指标有:极差、四分位数间距、方差、标 准差、变异系数。 Date32 极差 n受极端值影响,不稳定 n对所有两端有确定值的数据都可适用 四分位数间距 n比极差稳定,但是仍然无法反映每个观察值的变异 n所有的数据,特别是偏态分布,分布不明,数据的一端或两 端有不确定值 n常与中位数合用,综合反映资料的集中和离散趋势 方差标准差 n能够反映每个观察值的变异情况 n只适用于正态或近似正态分布的数据 n常与算术均数合用,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论