已阅读5页,还剩36页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
常用基本统计分析方法 统计分析培训项目 汪涛复旦大学公共卫生学院卫生统计教研室taowang 二项分布资料的统计分析 二项分布BinomialDistribution 二分类变量 有且只有两种结果的变量 如性别 死亡生存 复发未复发 一般用0和1表示其结果Bernouli试验 具有两值结果的一次试验 条件 1 互斥的有且只有两种结果 2 独立性 3 每次关心结果的发生概率不变 二项分布 进行的N次Bernouli试验中 所关心结果按不变概率 发生0 1 2 N 1 N次的概率分布练习 4张牌里有一张A 放回抽样抽5次 抽到0 1 2 3 4张A的概率是多少 至少抽到2张A的概率 二项分布的集中趋势和离散趋势 二项分布的均数样本计数 X0 np样本率 p二项分布的方差样本计数 Var X np 1 p 样本率 Var p p 1 p n 二项分布近似正态分布 理论上当N 和N 1 均大于5时 或同样的 当X0和N X0均大于5时 样本计数近似服从均数为N 方差为N 1 的正态分布 样本率近似服从均数为 方差为 1 N的正态分布 实际上当Np和N 1 p 均大于5时 或同样的 当X0和N X0均大于5时 样本计数近似服从均数为Np 方差为Np 1 p 的正态分布 样本率近似服从均数为p 方差为p 1 p N的正态分布 二项分布N人中B型血人数X的概率分布 10人中B型血人数X的概率分布图 100人中B型血人数X的概率分布图 0 08 0 08 举例 二项分布近似正态分布示意图 总体百分构成或总体率的统计推断 点估计p 百分构成或率 p X0 N常规疗法治疗流行性出血热病人50例 死亡8例 病死率为16 区间估计查表法 基于二项分布的确切概率 正态近似法演习 随机抽查某乡村民100人 发现感染血吸虫者21人 该乡血吸虫感染率 利用可信区间推断样本是否来自于一已知总体查表法正态近似法演习 已知某地区血吸虫感染率为15 现随机抽查某乡村民100人 发现感染血吸虫者21人 问该乡血吸虫感染率是否高于一般 总体百分构成或总体率的统计推断 利用假设检验推断样本 样本率为p 是否来自于一已知总体 总体率为 0 基本步骤1 建立无效假设和备择假设H0 0 H1 02 确定检验水准 0 053 在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值a 确切概率法b 正态近似法4 根据概率或p值作出推断演习 已知某地区血吸虫感染率为15 现随机抽查某乡村民100人 发现感染血吸虫者21人 问该乡血吸虫感染率是否高于一般 两个样本百分构成或两个样本率比较的统计分析 两个率比较的目的是其所代表的总体率相同 即 1 2或 1 2 0 无效假设 两个样本率之差的均数和方差均数 p1 p2方差 S2 p1 p2 p 1 p 1 n1 1 n2 p X1 X2 n1 n2 利用可信区间利用假设检验正态近似法 2检验法演习 随机抽查A乡村民100人 发现感染血吸虫者21人 随机抽查B乡村民100人 发现感染血吸虫者15人 问AB两乡血吸虫感染率是否相同 Poisson分布资料的统计分析 Poisson分布 单位时间 面积 空间内所关心事件发生数的概率分布二项分布数据当N很大X0很小 比例很低 时X的概率分布例 沪闵高架1天中发生的交通事故数 注 交通事故发生的时间可以短至1秒 一个参数 对于样本X0 Notation X P 练习 长期统计数据显示 沪闵高架一天发生交通事故5起 问今天发生0 1 2 3 4 5起交通事故的概率 最多 至少 发生3起的概率 Poisson分布的性质及其集中趋势和离散趋势 Poisson分布资料的性质平稳性 样本计数大小只与观察单位的大小有关独立性 各所关心事件的发生与否互不相关普通性 所关心事件离散发生 无聚集性Poisson分布的均数样本计数 X0Poisson分布的方差样本计数 X0 Poisson分布的单位问题及正态近似 虽然观察单位不是Poisson分布的参数 但Poisson分布资料的统计分析一定要注意单位的转换Poisson分布资料的可加性观察单位的不可扩展性但可缩减性 大观察单位可转换为小观察单位但反之不可Poisson分布的正态近似当 样本为X0 大于50时 样本计数X近似服从均数和方差均为 样本为X0 的正态分布 当 样本为X0 大于50时 如将大观察单位缩减为1 n的小观察单位 转换后的样本计数X 服从均数为 n 样本为X0 n 方差为 n2 样本为X0 n2 的正态分布 Poisson分布资料总体计数的统计推断 点估计X0 沪闵高架某天发生交通事故6起区间估计查表法 基于Poisson分布的确切概率 正态近似法演习 沪闵高架上个月发生交通事故60起 沪闵高架一个月发生交通事故数 利用可信区间推断样本是否来自于一已知总体查表法正态近似法演习 长期观察可知沪闵高架一个月发生交通事故50起 上个月发生60起 问上个月交通事故发生数是否多于往常 Poisson分布资料总体计数的统计推断 利用假设检验推断样本 样本计数为X0 是否来自于一已知总体 总体计数为 基本步骤1 建立无效假设和备择假设H0 0 H1 0 2 确定检验水准 0 053 在无效假设的前提下直接计算概率或利用正态近似法计算检验统计量后找到p值a 确切概率法b 正态近似法4 根据概率或p值作出推断演习 长期观察可知沪闵高架一个月发生交通事故50起 上个月发生60起 问上个月交通事故发生数是否多于往常 观察单位相同时两个样本计数比较的统计分析 两个样本计数比较的目的是其所代表的总体计数相同 即 1 2或 1 2 0 无效假设 两个样本计数之差的均数和方差均数 X1 X2方差 S2 X1 X2 X1 X2利用可信区间 两个样本计数均大于20即可 利用假设检验正态近似法演习 沪闵高架一周发生交通事故30起 南北高架一周发生交通事故40起 问两条高架一周发生交通事故数是否相同 观察单位不同时两个样本计数比较的统计分析 观察单位不同时 需要先缩减成为观察单位相同的两个样本计数 如果第一个样本的缩减倍率为1 n1 第二个样本的缩减倍率为1 n2 则缩减后的第一个样本计数X1 X1 n1 第二个样本计数X2 X2 n2 这时比较的目的是缩减后的样本所代表的总体计数相同 即 1 2 或 1 2 0 无效假设 缩减后的两个样本计数之差的均数和方差均数 X1 X2 方差 S2 X1 X2 X1 n12 X2 n22利用可信区间 两个样本计数均大于20即可 利用假设检验正态近似法演习 沪闵高架20周发生交通事故300起 南北高架10周发生交通事故200起 问两条高架一周发生交通事故数是否相同 分类数据的组间比较 2检验 分类数据的表现形式 频数表及交叉频数表cross tabulation所关心事件发生百分构成或发生率的组间比较四格表 二分类数据的两组间比较行 列表 R C表 列联表 分类水平的有序还是无序 对于水平数 3的分类变量有意义 2分布 一个标准正态变量X的平方服从自由度为1的 2分布k标准正态变量X1 X2 Xk的平方和服从自由度为k的 2分布G G 2 组间Q Q 2 分类水平百分构成或率的比较 在组间总体率或总体百分构成相同的无效假设前提下 成组设计两样本率的比较 当G 2 Q 2时 四格表资料 在两组所关心事件发生率相同的无效假设前提下 无效假设前提下 理论频数 如第一个格子 的计算 E a a b a c N 成组设计两样本率的比较 假设检验的步骤建立无效假设和备择假设确立检验水准计算检验统计量作出统计推断 四格表资料 2检验的应用条件 四格表资料 2检验是利用连续型的 2分布应用于分类资料 当样本含量较小时 不能直接应用当N 40且理论频数O均 5时 可直接应用 当N 40但有理论频数1 O 5时 需进行连续性校正 称Yates校正 当N 40 或有理论频数O 1时 只能用Fisher确切概率法直接计算概率注意 无论样本大小 均可用Fisher确切概率法进行假设检验 配对设计两样本率的比较 配对设计 针对可能影响研究结果的因素将研究对象配对后 将每个对子的研究对象随机分配至不同处理组 如同窝别小鼠 同性别病人 同一人的左右手 数据结构 配对四格表当b c 40时 行 列表的分析 行 列表又称R C表 列联表分析前要考虑的问题 水平数水平之间是否有序要回答问题的性质 变量1的水平数 变量2的水平数2 2表 四格表 2 C表C无序2 C表C有序R C表双向无序R C表单向有序R C表双向有序 成组设计多个样本率或百分构成的比较 检验统计量的计算方法相同多组间所关心事件发生率的比较假设不同 与四格表资料的 2检验相比 H0 各组所关心事件的发生率相同 H1 各组所关心事件的发生率不全相同两组间观察指标各水平百分构成的比较假设H0 两组间观察指标各水平的百分构成相同 H1 两组间观察指标各水平的百分构成不同 2检验的适用条件理论频数 80 的格子 5和100 的格子 1 行 列表的关联性分析 对于双向无序行 列表检验统计量的计算方法相同假设不同 与前相比 H0 行变量与列变量间无关联性 H1 行变量与列变量间有关联性对于单向有序行 列表行或列平均分差异检验或等级资料的秩和检验对于双向有序行 列表等级相关分析 非参数统计分析方法 秩和检验法 t检验 方差分析的应用条件 要求数据服从正态分布 两样本或多个样本比较时还要求方差齐性 当不满足上述条件时 转换数据 对数转换法 平方根转换法 反正弦转换法等使转换后数据满足正态性和方差齐性秩和检验法 秩和检验 用于计量 分类等级资料统计推断的一组方法非参数方法 不要求数据服从正态甚至是任何分布 不用考虑分布中的均数 标准差等参数 在两组或多组比较时 无需考虑方差是否齐性相对于t检验 方差分析等参数方法 统计效率较低 不能够充分利用数据信息 但稳健性好 极端值的作用较小 单样本分析Onesampleanalysis 日均能量摄入参考值7725kJ 配对设计资料的分析AnalysisofPairedData 问 闭经前后 日均能量的摄入是否有变化 配对设计资料的秩和检验 1 符号检验Signtest 如果样本观测值与参考值在平均上没有差别的话 那么小于参考值和大于参考值的观测数应大致相等 即 任一观测值在参考值左边或右边的概率相等 均为1 2 配对设计资料的秩和检验 2 符号秩和检验Wilcoxonsignedranksumtest 比符号检验进一步 考虑了量的大小 计算观测值与参考值的差 无视正负号对差从小到大排序 对所有正 或负 的顺位求和 成组设计资料的秩和检验 1 两样本比较问题 成组设计资料的秩和检验 1 两样本比较问题 混合编秩 遇数据相同时取平均秩 两样本比较时 分组求秩和 当较小样本的样本量和两样本的样本量差 10时 以较小样本的秩和为检验统计量 如样本量相同 则任取 查附表11 当样本量超范围时 则采用正态近似法 见书p132公式8 3 对同秩的校正见书p132公式8 4 成组设计资料的秩和检验 2 多个样本比较时 混合编秩 遇数据相同时取平均秩 Kruskal WallisHTest 分组求秩和 平均秩和 求总秩和 按书p134公式8 5求检验统计量H的值 对同秩的校正按书p1
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 慢性呼吸衰竭护理查房
- 初三历史“亚非拉国家的新发展”跨学科主题学习设计
- 八年级地理上册《中国的地理位置与疆域》教学设计
- 初中八年级地理“从中国看世界:成就、挑战与担当”大单元教学教案
- 八年级地理《中国的疆域》大单元教学设计:基于国家认同与空间尺度的核心素养建构
- 初中八年级历史:北洋军阀统治时期的政治失序与社会变革 深度学习设计
- 初中八年级地理《中国在世界中》会考复习专题教学设计
- 初中八年级历史《铸牢中华民族共同体意识-民族大团结》教学设计
- 本科土木工程三年级基坑监测技术实践教学设计
- 部编版小学三年级上册道德与法治《父母多爱我》深度教学设计
- 2026山东鲁泰控股集团有限公司社会招聘38人笔试备考试题及答案详解
- 2026四川省注册会计师协会招聘4人备考题库及一套参考答案详解
- 2025~2026学年河北石家庄市新华区冀教版(三起)六年级上册期末学业质量检测英语试卷
- 2026年度湖北省部分工程高、中级职称水平能力测试(电气)综合练习题及答案
- Q∕320612 QJH001-2023 QJH热固复合聚苯乙烯泡沫保温板外墙外保温系统应用技术规程
- 2026年上海市黄浦区初三下学期三模数学试卷和答案
- 人教版小升初语文试卷及答案【完整】
- 三年级下册数学期末试卷
- 2026年全套药品批发企业培训试题及答案
- 《公务员录用体检操作手册(试行)》
- 商业综合体保洁服务方案
评论
0/150
提交评论