统计描述与假设检验(ppt 70页).ppt_第1页
统计描述与假设检验(ppt 70页).ppt_第2页
统计描述与假设检验(ppt 70页).ppt_第3页
统计描述与假设检验(ppt 70页).ppt_第4页
统计描述与假设检验(ppt 70页).ppt_第5页
已阅读5页,还剩64页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第四章统计描述 第一节频数分布 一 计量资料的频数分布表例1某年某市120名12岁健康男孩身高测量资料 找出全距即最大值与最小值之差 全距 R 160 9 125 9 35确定组距为相邻两组段最小值之差 通常以R的1 10进行估计 组距 i 全距 R 10 35 10 3 5可取i 4 划分组段每个组段应有一个起始值作为组下限和一个终止值作为组上限 第一个组段应包括最小值 最后一个组段应包括最大值 组段数一般取8 15个 为避免相邻两组段界限互相包含 除最末一个组段外 其余组段只写下限 整理频数分布计算各组段频数 累计频数和累计频率 表1120名12岁健康男孩身高的频数分布表 二 计数资料和等级资料的频数分布表1 计数资料的频数分布表表2100名大学生性别的频数分布表 2 等级资料的频数分布表表3100名大学生性别的频数分布表 三 频数分布表的作用1 揭示资料的频数分布特征与类型 1 频数分布的特征集中趋势反映变量值平均的数量水平 离散趋势反映变量值相互之间变异的程度 2 频数分布的类型对称分布集中位置居中 左右两侧的频数基本一致 非对称分布集中位置偏向一侧 左右两侧频数不一致 2 观察离群值便于发现一些特大 特小的可疑值 第二节计量资料的统计描述 一 集中趋势的描述含义集中趋势是指计量资料中 所有观察值的中心位置 反映一组同质变量值的平均数量水平 常用指标算术平均数 几何平均数 中位数 1 算术均数 arithmeticmean 简称均数 mean 用x及 表示 适用范围变量值呈对称分布 尤其是正态分布的计量资料计算方法直接法变量值个数不多 直接相加除以变量值个数 加权法变量值较多或频数表资料 表1120名12岁健康男孩身高的频数分布表 2 几何均数 geometricmean G 适用范围变量值呈对数对称分布等比级数资料计算方法直接法变量值个数不多 直接将其乘积开n次方 加权法变量值较多或频数表资料 表4100名患者抗体滴度的频数分布表 3 中位数 median M 一组按大小顺序排列的变量值 位次居中的数值即中位数 适用范围变量值呈偏态分布分布类型不清变量值的一端 或两端 无确定数值 开口型资料计算方法直接法变量值个数不多 频数表法变量值个数较多 先整理频数表 二 离散趋势的描述含义离散趋势是指计量资料所有观察值偏离中心位置的程度 反映一组同质变量值相互之间参差不齐的程度 即离散度或变异度 常用指标全距 方差 标准差 变异系数 1 全距 range R 又称极差 是一组变量值中最大值与最小值的差 优点计算简单缺点仅考虑了资料的最大值和最小值 不能反映组内其它数据的变异程度 2 百分位数 percentile 含义又是一个位置指标 用Xp 它表示在按照升序排列的数列中 其左侧 即小于Xp 侧 的观察值个数在整个样本中所占百分比为p 其右侧 即大于Xp 侧 的观察值个数在整个样本中所占百分比为 100 p 计算式中 是百分位数 L是所在组段的下限 i是该组段的组距 fp是该组段的频数 n是总频数 fl是该组段以前的各组段的累计频数 四分位数 quartile 四分位间距 quartilerange Q 含义统计学将3个特殊的分位数X25 X50 X75 统称为四分位数 X25 记为Q1 称作第一四分位数 X50 记为Q2 称作第二四分位数 X75 记为Q3 称作第三四分位数 并且将与差值称为四分位间距 quartilerange Q 计算Q Q3 Q1 3 方差 variance 用 2和s2表示 离均差的和离均差的平方和方差方差反映变量值变异程度的大小 方差越大 说明变量值的变异程度越大 方差越小 说明变异程度越小 优点全面考虑了一组变量值中的每一个数据 缺点将变量值的单位进行了平方 4 标准差 standarddeviation SD 用 和s表示 计算方法直接法加权法标准差反映变量值变异程度的大小 标准差的应用表示一组变量值变异程度标准差越大 说明变量值的变异程度越大 即变量值围绕均数的分布较离散 均数的代表性较差 标准差越小 表示变量值的变异程度越小 即变量值围绕均数的分布较密集 均数的代表性较好 计算变异系数当两组变量值单位不同 或两均数相差较大时 不能直接用标准差比较其变异程度 需要用变异系数做比较 估计变量值的频数分布计算标准误 5 变异系数 coefficientofvariation CV 含义是一个度量相对离散程度的指标 计算例1 某地20岁男子身高均数为166 06cm 标准差为4 95cm 体重均数为53 72kg 标准差为4 96kg 试比较身高与体重的变异程度 例2 该地新生男婴的平均身高为50cm 标准差为3 0cm 试比较该地20岁男子与新生男婴的变异程度 例1 身高CV 4 95 166 06 100 2 98 体重CV 4 96 53 72 100 9 23 例2 新生儿CV 3 50 100 6 第六章参数估计 几种重要的连续性随机变量分布 正态分布标准正态分布t分布见P72第五章第四 五节 正态分布 normaldistribution 一 正态分布的概念正态分布是一种连续性随机变量常见而重要的分布 二 正态分布的特征1 在直角坐标的横轴 X轴 上方呈钟型曲线 以X 为对称轴左右完全对称 但与X轴永不相交 2 在X 处有最大值 X越远离 曲线位置越低 3 取决于两个重要参数表示方式 位置参数 形状参数表示方式 2 三 正态分布的面积规律 正态分布曲线下面积分布规律 范围内的面积占正态分布曲线下总面积的68 27 即有68 27 的变量值分布在此范围内 1 96 范围内的面积占正态分布曲线下总面积的95 00 即有95 00 的变量值分布在此范围内 2 58 范围内的面积占正态分布曲线下总面积的99 00 即有99 00 的变量值分布在此范围内 四 正态分布的应用估计医学正常值范围 正常值范围的含义正常值范围的计算公式x us质量控制x 2s上 下警戒值x 3s上 下控制值表5常用的u界值表是其它许多统计方法的理论基础 标准正态分布 standardnormaldistribution 正态分布是一个分布簇 对应于不同参数其位置和形状均不相同 为应用方便 可进行变量转换 式中的u值称为标准正态变量 其频数曲线图即为标准正态分布 u分布 一般的正态分布N 2 即转化为标准正态分布N 0 1 其面积分布可直接查表 t分布 t distribution 一 t分布的概念由于样本均数服从总体均数为 总体标准差 为的正态分布N 2 因此可同样进行u变换 将其转换为u分布N 0 12 实际工作中 由于未知 用替代 则 不再服从标准正态分布 而服从t分布 t分布 t distribution 二 t分布的图形与特征1 t分布是一簇对称的 均数为0的单峰分布曲线 2 当自由度不同时 曲线的形状不同 3 越小 则t值越分散 t分布的峰部越矮而尾部翘得越高 随着增大 t分布曲线越来越接近于标准正态分布曲线 当 时 t分布逼近标准正态分布 三 t分布的界值 第一节抽样分布与抽样误差 一 样本均数的抽样分布与抽样误差抽样误差的概念由抽样而引起的样本均数与总体均数之间的差别 抽样研究中不可避免 有两种表现形式 样本均数的抽样分布从一个正态的总体中进行随机抽样 各样本均数未必等于总体均数 各样本均数间存在差异 样本均数的频数分布仍是以总体均数为中心的正态分布 样本均数的变异范围较原变量的变异范围小 随着样本量的增大 样本均数的变异范围逐渐缩小 标准误的意义及其计算含义样本均数的标准差即标准误 它表示样本均数间的离散程度 标准误越小 说明抽样误差越小 表示样本均数与总体均数较接近 反之 标准误越大 说明抽样误差大 表示样本均数距总体均数较远 影响抽样误差的因素样本含量总体内各个体间的离散程度即变异程度计算公式 以上表明 1 从正态分布N 2 的总体中随机抽取样本量为n的样本 其样本均数因样本而异 但服从正态分布N 2 n 即样本均数的总体均数与观察值X的总体均数相同 样本均数的标准差是观察值X的标准差的 2 在非正态分布总体中进行类似抽样 如样本量较大时 如n 30 样本均数的分布接近正态分布 标准误仍然是X的标准差的倍 标准误的应用表示抽样误差的大小 说明样本均数的可靠性用以估计总体均数的可信区间应用标准误进行均数的假设检验 第二节总体均数的估计 样本均数推论总体均数的方法两种方法 点值估计与区间估计一 点值估计1 含义2 优缺点 二 区间估计1 可信区间的含义2 可信区间的计算样本含量较大 样本含量较小 第七章假设检验 第一节假设检验的概念假设检验 hypothesistesting 的概念也称显著性检验 significancetest 是判断样本均数与总体均数之间或样本均数之间的差别有无意义的一种统计分析方法 假设检验的引入例 某年某地随机抽样调查了17岁男 女青年坐高 得资料如下表 问该地17岁男 女青年坐高是否有差别 第二节假设检验的基本步骤建立假设H0 无效假设 零假设 是假设样本指标之间的差别是由单纯抽样的随机性所致即抽样误差 而不是真正两总体的差别 H1 备择假设 是假设样本指标之间的差别不是单纯由于抽样误差所致 而是两总体均数存在本质差别 确定检验水准即显著性水准 用 表示 它是判断差别有无意义的概率水准 拒绝H1所允许犯错误的概率 其大小应根据分析要求确定 通常取 0 05或 0 01 检验水准取双侧概率时记为 2 选定检验方法和计算检验统计量根据研究设计的类型和统计推断的目的要求选用不同的检验方法 确定概率P值P值是指在H0所规定的总体中作随机抽样 获得等于及大于 或小于 现有统计量的概率 当求得统计量后 一般可根据有关统计用表查得P值 在 0 05的检验水准上 t0 05 差别无统计学意义 差别无显著性 t t0 05 时 则P 0 05 差别有统计学意义 差别有显著性 作出推断结论若P 0 05 则接受H0 拒绝H1 认为两样本指标所代表的两总体指标间的差别无统计学意义 是由抽样误差所引起 若P 0 05 则接受H1 拒绝H0 认为两样本指标所代表的两总体指标间的差别有统计学意义 不可能由抽样误差所造成 假设检验的基本思想 1 反证法的思想 事先对总体分布 通常是该分布的某个参数 作出某种假设 如果样本信息不支持该假设 则认为原假设不成立 2 根据 小概率事件 原理即小概率事件在一次试验中一般不会发生 用概率的思想决定是否拒绝原假设 第三节u z 检验一 大样本均数比较的u检验两个基本条件 样本数据服从正态分布已知总体方差 但如n 60 可用样本样本标准差作为总体标准差的估计值 主要适用于总体方差未知的大样本数据 1 样本均数与总体均数比较的u检验举例 P106例7 1 根据1983年大量调查结果 已知某地成年男子的脉搏均数为72次 分钟 某医生于2003年在该地随机调查了75名成年男子 求得其脉搏均数为74 2次 分钟 标准差为6 5次 分钟 能否据此认为该地成年男子的脉搏数不同于1983年 H0 0 即该地成年男子的平均脉搏没有变化H1 0 即该地成年男子的平均脉搏与1983年不同 0 05检验界值u0 05 2 1 96 u0 01 2 2 58 u u0 01 2 得P 0 01 按 0 05的检验水准 拒绝H0 接受H1 差别有统计学意义 可认为该地成年男子的脉搏与1983年不同 2 两样本均数比较的u检验举例 P107例7 2 为研究孕妇补锌对胎儿生长发育的影响 将96名孕妇随机分为试验组和对照组 一组在孕期不同时间按要求补锌 另一组为对照组 观察两组孕妇新生儿出生体重有无不同 两组的例数 均数 标准差分别为 补锌组 n1 48 3427 8g S1 448 1g 对照组 n2 48 3361 9g S2 400 1g 问补锌对新生儿出生体重有无影响 H0 1 2 即两组总体均数相等 补锌无影响H1 1 2 即两组总体均数不相等 补锌有影响 0 05经计算 u 3427 8 3361 9 86 71 0 76检验界值u0 05 2 1 96 u u0 05 2 得P 0 05 按 0 05的检验水准 接受H0 拒绝H1 差别无统计学意义 尚不能推断补锌对新生儿出生体重有影响 第四节假设检验的两类错误 类错误 type error 原假设为真而被拒绝的错误称为第一类错误 也称假阳性错误或弃真错误 记作 即检验水准 它是在研究设计时规定的允许犯 类错误概率的最大值 类错误 type error 原假设H0不真而被接受的错误称为第二类错误 也称假阴性错误或存伪错误 记为 由于不知道 的确切概率 结论中不说 没有差别 或 两总体均数相等 只说 未见有差别 或 尚不能认为两总体均数不相同 如果P 可以明确地下 有差别 或 两总体均数不相同 的结论 第八章t检验第一节单样本均数比较的t检验应用条件样本数据服从正态分布适用范围样本均数与某已知总体均数的比较检验目的检验样本均数所代表的未知总体均数是否与已知的总体均数有差别 已知的总体均数一般指理论值 标准值或经过大量观察所得的稳定值 当样本含量较大时 可采用u检验 例8 1 通过以往大量资料得知某地20岁男子平均身高168cm 今随机测量当地16名20岁男子 得其平均身高为172cm 标准差为14cm 问当地现在20岁男子的平均身高是否比以往高 H0 0H1 0 0 05 单侧 检验界值t0 05 15 1 753 得P 0 05 按 0 05的检验水准 不拒绝H0 差别无统计学意义 可还不能认为该地20岁男子的平均身高比以往要高 第二节配对样本均数的t检验应用条件差值d变量服从正态分布 适用范围适用于配对设计的计量资料均数的比较 有两种情况 同源配对 同一受试对象分别接受两种不同处理 异源配对 将实验对象按某些重要特征如性别 年龄等相近的原则配对 并分别实施两种处理 检验目的检验两相关样本均数所代表的未知总体均数是否有差别 例8 2 某医院用A B两种血红蛋白测定仪器检测了16名健康男青年的血红蛋白含量 g L 检测结果见表8 1第 1 3 栏 问两种血红蛋白测定仪器的检测结果是否有差别 H0 d 0H1 d 0 0 05检验界值t0 05 2 15 2 131 得P 0 05 按 0 05的检验水准 拒绝H0 接受H1 差别有统计学意义 可认为两种测定仪器效果不同 第三节两独立样本均数的t检验 成组t检验 应用条件两组数据均服从正态分布 且两样本的总体方差齐性 适用范围完全随机设计两独立样本均数的比较 检验目的检验两独立样本均数所代表的未知总体均数是否有差别 例8 4 为了解内毒素对肌酐的影响 将20只雌性中年大鼠随机分为甲组和乙组 甲组中的每只大鼠不给予内毒素 乙组中的每只大鼠则给予3mg kg的内毒素 分别测得两组大鼠的肌酐见表8 3 问 内毒素是否对肌酐有影响 表8 3两组大鼠的肌酐 mg L 结果 H0 1 2H1 1 2 0 05检验界值t0 05 2 18 2 101 得P 0 0

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论