




已阅读5页,还剩83页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
刘芬 首都医科大学 公共卫生与家庭医学学院 流行病与卫生统计学系 一、概述 . 科研统计工作的步骤 n(1)研究设计( research design): 根据研究的目的,从统计学的角度对各 步提前做出的周密的计划和安排 调查设计 实验设计 (临床设计、 新药设计) 科研设计 n(2)收集资料(data collection ) n(3)整理资料(data sorting) n(4)分析资料(data analysis) 一、概述 . 科研统计工作的步骤 统计分析 统计推断 参数估计 假设检验 点估计 区间估计 统计描述 均数、中位数、标准差 统计量 率、构成比 相关系数、回归系数等 统计表 编制规则 统计图 条图、直方图、圆图、线图等 统计描述的方法 类型、适用条件 n用样本的信息来推断总体的特征叫统计 推断 n统计分析的主要目的是由样本推断总体 ,故统计学的主体是统计推断 统计推断 统计推断 参数估计 假设检验 点估计 区间估计 参数 非参 z 检验 t 检验 F 检验 直线相关与回归 卡方检验 秩和检验 等级相关 .资料类型 n(1)定量资料 计量资料(measurement data): 对每个观察单位用定量方法测定某项指标 的数值大小所得的资料 n(2)定性资料 n计数资料(enumeration data)按性质 或类别进行分组,然后再清点各组数目所 得的资料 n等级资料(ranked data)将观察单位按 某项指标的等级顺序分组,再清点各组 观察单位的个数所得的资料 .资料类型 二、定量资料的基本统计方法 n有个模块: n 统计描述 n 区间估计 n 假设检验 n 相关与回归 1、统计描述统计指标 平均指标和变异指标分别反映资料的不同特征,常配套使用,根据 资料类型不同有不同组合, 如 正态分布: 均数、标准差 偏态分布: 中位数、四分位数间距 n描述集中趋势指标: 算术均数(简称均数)( ) 几何均数(G) 中位数(M) n描述离散程度指标: 极差(R) 四分位数间距(Q) 方差(S2) 标准差(S) 变异系数(CV) n1、描述偏态分布集中趋势(尿氟均值) 的指标:中位数 n2、比较几组量纲不同的资料的离散程度 的指标:变异系数 统计描述 1)统计表 组合表 简单表 2)统计图 条图 圆图 线图 直方图 散点图 . *类型、适用条件* 1、统计描述统计表与统计图 例1 现有145例粪链球菌食物中毒病人, 其潜伏期分布如表1所示,属于不对称分布 表1 粪链球菌食物中毒潜伏期 潜伏期(小时) 频数(f) 累计频数 0 18 18 6 45 63 12 40 103 18 30 133 24 6 139 30 0 139 36 4 143 42 2 145 图 1 粪链球菌食物中毒潜伏期分布 表2 某地144名正常成年男子红细胞数频数表 组 段 频数 f 4.2 2 4.4 4 4.6 7 4.8 16 5.0 20 5.2 25 5.4 24 5.6 22 5.8 16 6.0 2 6.2 5 6.46.6 1 直方图 图 2 144名正常男子红细胞计数的直方图 2、区间估计 正常值(参考值)范围(p21) 总体均数的可(置)信区间(p69) 正态分布(normal distribution) 可信区间(confidence interval, CI ) 注意: 95%CI与95%正常值范围区别 (p70 ) 单个样本(one sample) t 检验 配对资料 (paired sample)比较的t 检验 两独立样本(two independent sample)均数比较 的检验 t 检验(当方差不齐时) 3、假设检验(hypothesis test) t 检验 亦称students t 检验,应用t检验条件: n1)单因素两水平的定量效应指标 n2)要求各组正态分布 n3)要求方差齐性 n如不满足条件,当满足正态性而方差不 齐时可进行t检验,否则需采用变换或 非参数方法作统计分析 t 检验 t 检验的类型 n主要用于下列三种情况: n(1) 样本均数与总体均数比较; n(2) 配对数值变量资料的比较; n(3) 两样本均数的比较。 例2 应用克矽平治疗矽肺患者10名, 治疗前、后血红蛋白的含量如表3所示, 问该药是否引起血红蛋白含量的变化? 表3 克矽平治疗矽肺患者治疗前后 血红蛋白含量(g/L) 编号 治疗前 治疗后 1 113 140 2 150 138 3 150 140 4 135 135 5 128 135 6 100 120 7 110 147 8 120 114 9 130 138 10 123 120 表3 克矽平治疗矽肺患者血红蛋白量(克) 编号 治疗前 治疗后 治疗前后差数 1 113 140 27 2 150 138 -12 3 150 140 -10 4 135 135 0 5 128 135 7 6 100 120 20 7 110 147 37 8 120 114 -6 9 130 138 8 10 123 120 -3 解:.建立检验假设,确定检验水准 0:d=0,假设该药不影响血红蛋白的变化, 即治疗前后总体差数为0。 1:d0 ,假设该药影响血红蛋白的变化, 即治疗前后总体差数不为0。 =0.05. 计算检验统计量值 (1) 配对检验 3确定P值,做出统计推断 自由度 = n-1 = 10-1 = 9 , 查t 临界值(附表2)得: 0.883P0.05。按 a=0.05检验水准,不拒绝H0,差异无统计学意义,尚不能认 为男性甲状腺机能减退症患者尺骨骨矿含量与正常人有差别 。 4、相关与一致性分析 (correlation and consistency analysis) n相关: 可采用spearman秩相关 n适用于等级资料 直线相关与回归分析 n应用条件: 研究两个定量变量间的相互关系或 依存关系 l y l 。 。 l 。 l 。 l 。 。 。 l 。 l l 。 。 l l l X l 散 点 图 线性相关 n是用相关系数r来表示两个变量X,Y间的 直线关系 n相关系数r没有单位,在-1+1范围内波动 n其绝对值愈接近1,两个变量间的直线相关 愈密切,愈接近0,线性相关愈不密切 直线回归 n当两变量间存在着性线关系时,不仅可 以用相关系数r表示变量Y与X线性相关的 密切程度,还可以用一个二元一次方程 来表示 回归方程的应用-预测与估计 n 应用最小二乘法求回归方程系数 n求出回归方程后,如果方程拟合度好(决定系 数R),可根据X的值来求Y预测值 统计方法选择的思路 统计方法选择的四级思维 资料类型 分布类型 设计类型 具 体条件 统计分析的两个方面 统计描述(统计指标与图表) 统计 推断 资 料 资 料 类 型 数 值 变 量 正态 非正态 X,G,S,参考值范 围, 统计图表等 线性相关与回归 统计推断 r计算与检验,Y=a+bX 均数可信区间估计 假设检验: t与z检验 方差分析 M,QUQL, 参考值 范围,统计图表等 秩和检验 等级相关 有序 多分 类变 量 构成比,中位数 两分 类, 无序 多分 类 二项分布 率,相对比 ,构成比 假设检验 两组率比较:z检验与 卡方检验 多组率和两组或多组构 成比比较:卡方检验 配对两分类资料卡方检验 参数估计 正态近似法 直接查表法 统计方法的流程图 统计方法应用条件和适用资料 集中趋势与离散趋势的统计指标 t检验与z检验 方差分析 2检验 非参数检验 线性相关与回归 集中趋势与离散趋势统计指标 集中趋势 离散趋势 正态分布 均数 方差、标准差 对数正态 几何均数 几何标准差 偏态等 中位数 四分位数间距 变异系数:在两组或多组资料变异度比较 组间单位不同 组间均数相差较大 t检验与z检验的应用条件 两组数值变量资料比较; 小样本时用t检验,要求资料为随机样本 并服从正态分布; 大样本时用z检验,仍要求资料为随机样 本,但正态性条件可以放宽; 在两样本均数比较的t和z检验中,要求两 组总体方差相等,即方差齐性; 组间要求具有均衡可比性。 方差分析的应用条件 n多组定量资料的比较 n观察值为独立随机样本,并服从正态分 布; n样本较大时正态性条件可以放宽; n方差齐性 n组间可比性 2检验的适用资料 两组样本率的比较; 多组样本率的比较; 两组或多组构成比的比较; 配对设计下两分类资料检验。 非参数检验的适用资料 n有序多分类资料(双向有序,且分类属 性相同); n极度偏态分布; n分布不规则和未知分布资料; n数据变异较大,方差不齐 线性相关与回归的应用条件 散点图有线性趋势; 专业上要求分析两变量间关系密切程度 和变化方向,通过一个变量预测或控制 另一变量; 两变量服从双变量正态分布,或X可以精 确测量的,Y服从正态分布。 几个基本概念 n样本与总体 n频率(样本)与概率(总体) n资料(变量)类型 n相对数指标:构成比、率、相对比 n统计工作步骤 n假设检验的两类错误 几个容易混淆的基本概念 1、抽样误差与标准误 抽样研究才有抽样误差 抽样误差的概念 标准误是衡量抽样误差大小的指标 2、标准差与标准误关系 联系:离散度指标,计算上的联系 区别:描述对象不同,意义与应用不同 与n的关系不同( p67) 几个容易混淆的基本概念 3、参考值范围与可信区间关系(p70) 联系:均为一个数值范围 区别:意义不同, 与 同一资料两范围的不同 4、假设检验的意义 是通过两组或多组间有差别的样本(均 数或率),或样本与总体(均数或率) 推断他们的总体(均数或率)是否相同 (不能推断差别大小) 几个容易混淆的基本概念 5、检验假设与检验结论(p72、73) n无效假设与备择假设(单双侧); n是对总体所作,H0假设总体相同或两者 无关,检验方法建立于此; n对检验方法的H0与H1作总结; n检验结论有统计结论与专业结论; n是针对检验假设(总体)而作的。 几个容易混淆的基本概念 6、检验水准与P值(p72) n是预先确定的,表示在拒绝H0时可能犯错误的最大 概率,属于第一类错误; nP值是指如果H0成立,则抽到现有样本统计量及更极端 值(与H0 相差更大)的可能性,也可表示为在拒绝H0 时可能犯错误的实际概率大小; n 与P值间的关系:P ,接受H0,差异无统计学意义 ;P ,拒绝H0,接受H1,差异有统计学意义 几个容易混淆的基本概念 7、多组比较问题 卡方检验与秩和检验中有多组比较问题 检验思路是先作总的比较,再作两两组 间比较;注意H1、 几个容易混淆的基本概念 8、线性相关与线性相关系数 n前提是散点图有线性趋势; n两变量线性关系密切程度和变化方向; n检验的意义与 r值的意义。 9、线性回归与线性回归系数 n前提是散点图有线性趋势; n配线求直线回归方程; n线性回归系数b意义。 几个容易混淆的基本概念 10、率、构成比与相对比(相对数) 率与比不能相混淆 总率与平均率的概念 率的标准化法 11、方差分析中变异的拆分 SS总=SS组间+SS组内 总= 组间+ 组内 SS总=SS处理+SS区组+SS误差 总= 处理+ 区组+ 误差 几个容易混淆的基本概念 12、完全随机设计与配对设计 n完全随机设计是将研究对象随机分为
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 智能设备维护平台创新创业项目商业计划书
- 利用渔业废弃物生产有机肥料和饲料创新创业项目商业计划书
- 精准农业技术服务推广创新创业项目商业计划书
- 动物源天然色素提取创新创业项目商业计划书
- 功能性屠宰食品创新创业项目商业计划书
- 电商数据驱动决策支持创新创业项目商业计划书
- 国际水产养殖标准对接创新创业项目商业计划书
- 电信用户物联网设备接入服务创新创业项目商业计划书
- 2025年工业互联网平台SDN网络智能化升级与优化方案报告
- 现场培训课件
- 医院新技术、新项目准入申报表
- 项目经理安全目标考核表
- 《HSK标准教程1》第3课课件
- 三级安全教育考试试题及(全)
- 中国古代文学史《第二章:诗经》PPT课件(完整版)
- 云南省地质灾害群测群防手册
- 高级催乳师培训课程讲义
- 第三届韬奋杯全国出版社青编校大赛校对试题(已编辑)
- 关于BT项目主要法律规定
- OTN技术概述PPT课件
- 银发【2007】246号
评论
0/150
提交评论