统计设计、统计方法与结果表述.ppt

上传人：小*** IP属地：江西上传时间：2020-02-07 格式：PPT 页数：224 大小：2.69MB 积分：15 举报 版权申诉

已阅读5页，还剩219页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

统计设计统计方法与结果表述概论医学卫生陈建明2007 08 课程目标立足使用了解统计在课题研究中的应用了解统计结果的表述内容提要一统计研究项目工作的基本步骤二研究设计的基本内容重要性三研究设计的基本类型要素原则四研究设计的误差控制与抽样方法五统计方法基本知识六样本量估计七数据的组织与结果表达一统计研究项目工作的基本步骤研究设计搜集资料整理资料分析资料结果表达基本步骤设计资料搜集整理分析调查设计实验设计资料来源质量控制审核合理分组描述性统计统计推断搜集资料 datacollection 搜集资料要遵循准确完整及时三个原则资料搜集计划包括选择搜集资料的地点人员和时间搜集资料人员的培训方案预调查或预实验方案拟定资料的记录方式调查表的拟订和印刷调查或实验仪器试剂的准备调查资料的抽样复核比例和方法搜集资料所需经费的准备等一统计研究项目工作的基本步骤人员选择高素质有相关专业基础以往曾有类似研究经历的人员加以严格培训和管理是能够遵循三原则的保证搜集资料的方式直接观察采访填表和通信直接观察采访调查人员亲自参与和记录若调查人员素质高工作认真负责并接受过统一的培训调查结果可靠填表和通信由被调查者自己填写若被调查者文化水平高素质高乐意配合调查也可以得到可靠的资料否则资料的误差较大一统计研究项目工作的基本步骤整理资料 datasorting 目的是将搜集到的原始资料系统化条理化便于进一步计算与分析编码将数据输入计算机纠错改错补漏等一统计研究项目工作的基本步骤分析资料 dataanalysis 根据研究设计的目的要求资料的类型和分布的特征等选择统计分析方法 1 统计描述即计算统计指标如平均值发病率等绘制统计图 2 统计推断即可信区间估计与统计学假设检验总体均数总体率的可信区间及其假设检验两个总体均数总体率差值的可信区间及其假设检验多个总体指标之间的假设检验 3 模型分析等一统计研究项目工作的基本步骤二研究设计的基本内容重要性一设计研究基本内容确定选题研究目的选择合适的研究对象和数量科学分组设立适当的对照制定可靠的测量观察指标制定较好的原始记录表选择科学的统计分析的方法二研究设计的基本内容重要性主要步骤专业设计选题假说文献准备记录表预实验操作指导手册统计设计研究对象分组设置对照样本含量处理因素观察指标数据的质量控制与管理统计分析方法二研究设计的基本内容重要性二研究设计的重要性科研设计是科研的灵魂严密的设计是取得有价值结果的先决条件从这个意义上说没有设计就没有科研设计好 1 既省又可靠 2 可估计和控制误差 3 获取多方面知识设计不好 1 杂乱无章虽多犹无 2 只能罗列现象无规律可言二研究设计的基本内容重要性专业设计选题假说文献准备记录表预实验操作指导手册1 选题确定研究目的选题是科研的起点体现设计和实施的指导思想影响科研全过程在科研中始终处于主导地位选题就是要正确地发现和提出问题来自于实践和文献资料提出新问题新假设比完成一项科研更难没有好的假设再好的科研方法也不会有好的成果选题比科研方法更重要内容不能包罗万象明确研究主题对解决特定问题主攻方向心中有数不能逮着什么算什么缺乏严格设计或无设计的研究即使有重要的发现也属偶然二研究设计的基本内容重要性专业设计选题假说文献准备记录表预实验操作指导手册2 预实验在进行正式实验之前先在少量的人群中作的一种小规模的实验称为预实验进行预实验的目的检验实验设计的方案是否合理可行发现存在的问题便于及时修正和完善从而尽可能地保证正式实验能如期顺利地完成须注意的是预实验与正式实验除了规模不同外其余主客观条件均应一致否则就失去预实验的意义了二研究设计的基本内容重要性专业设计选题假说文献准备记录表预实验操作指导手册3 记录表操作指导手册充分考虑细节对研究的质量控制器消除偏倚和混杂都起着非常重要的作用二研究设计的基本内容重要性统计设计研究对象分组设置对照样本含量处理因素观察指标数据的质量控制与管理统计分析方法统计学家与科学研究者的合作应该在实验设计阶段而不是在需要数据处理的时候试验完成后再找统计学家无异于请统计学家为试验进行尸体解剖统计学家或许只能告诉你试验失败的原因二研究设计的基本内容重要性三研究统计设计的基本类型要素原则研究设计的基本类型研究设计的基本要素研究设计的基本原则一研究设计的基本类型 1 实验 Experiment 研究干预受试对象人临床试验动物动物实验临床试验治疗临床疗效实验预防社区干预实验2 调查 Survey 研究无干预被动地观察如实记录三研究统计设计的基本类型要素原则二研究设计的基本要素处理因素 treatmentfactor 受试对象 subject 实验效应 experimentaleffect 降压药高血压病人血压值其他因素其他效应三研究统计设计的基本类型要素原则例药剂手术方法毒物确定处理因素的注意事项 1 抓住实验中的主要因素 2 明确处理因素和非处理因素病人对治疗的反应除了治疗因素外还包括病人的心理状态生产生活条件及社会心理因素等后者可称为非处理因素 3 处理因素须标准化处理因素在整个试验过程中保持不变例如不同时期的药物批号手术操作者熟练程度处理因素 treatmentfactor 三研究统计设计的基本类型要素原则受试对象 subject 例人动物1 受试对象的选入标准明确规定受试对象选入标准 eligibilitycriteria 纳入标准 inclusioncriteria 排除标准 exclusioncriteria 2 受试对象的控制 1 受试对象的一致性人年龄性别病情病程等动物种系年龄性别体重等 2 受试对象影响因素的控制季节温度湿度生活环境嗜好试验辅助措施等三研究统计设计的基本类型要素原则实验效应 experimentaleffect 处理因素作用于受试对象的结果通过观察指标表达观察指标应客观精确 1 客观性主观指标和客观指标 2 精确性准确度 accuracy 或真实性 validity 观察值与真实值的接近程度受系统误差的影响常用指标灵敏度特异度精密度 precision 或可靠性 reliabiliy 或重复性 repeatability 重复观察时观察值与其均值的接近程度受随机误差的影响常用指标 Kappa值一致性的检验一致百分率三研究统计设计的基本类型要素原则准确度与精密度三研究统计设计的基本类型要素原则三实验设计的基本原则随机化原则 randomization 对照原则 control 重复原则 replication 三研究统计设计的基本类型要素原则随机化原则随机分组每个受试对象以机会均等的原则被随机地分配到各个处理组中随机抽样总体中每一个观察单位以机会均等的可能性被抽取 1 随机化的意义 1 随机分组使两组样本在非处理因素方面尽可能一致使处理因素产生的效应更加客观 2 随机抽样使抽取的样本具有代表总体性减少误差 3 抽样研究理论和统计分析方法的需要三研究统计设计的基本类型要素原则随机与随意随机 random机会均等客观性随意 aswill随主观意愿主观性随机化分组不仅能控制已知的混杂因素非研究因素而且还能控制未知的混杂因素三研究统计设计的基本类型要素原则随机的三个含义分组随机均衡性每个研究对象有同等机会被分配到各处理组抽样随机代表性总体中每个观察个体有同等机会被抽取实验顺序随机平衡顺序或季节的影响每个研究对象先后接受处理的机会相同三研究统计设计的基本类型要素原则 2 随机化的方法 1 抛硬币法徽与字 2 掷骰子法6面1 6点 3 抽签法捻阄 4 随机数字表法随机数字法 5 计算器计算机产生随机数三研究统计设计的基本类型要素原则几种不同设计类型的随机化分组 1 完全随机设计 2 配对实验设计 3 随机区组实验设计 4 交叉设计三研究统计设计的基本类型要素原则完全随机设计将观察单位完全随机地分配到实验组与对照组或几个对比组中去完全随机抽取样本进入实验三研究统计设计的基本类型要素原则方法 1 编号按动物体重依次编号为1 2 3 12号 2 产生随机数字对于每一个编号依次由计算器计算机产生随机数共12次 3 归组事先规定将较小随机数的4只动物分入甲组将较大随机数的4只动物分入丙组其他4只动物分入乙组三研究统计设计的基本类型要素原则例将中的12头动物用随机方法分配到甲乙丙三组中配对实验设计 pairedexperimentdesign 配对实验设计的两种情况 1 同源配对同一受试对象用两种不同的实验方法受试对象自身实验前后的对比 2 非同源配对将具有相同条件的实验对象配成对子三研究统计设计的基本类型要素原则例将已按近似条件配好的对子用随机方法分配到实验组和对照组方法 1 编号进行对子编号同时每个对子内的对象也分别编号 2 产生随机数字对于每一组合编号依次由计算器计算机产生随机数 3 归组对子内对象的随机事先规定每个对子内随机数字较小者分配到对照组随机数字较大者分配到实验组非同源配对随机化分组三研究统计设计的基本类型要素原则随机区组实验设计 1 将多方面条件相近的受试对象配成一组称作一个区组 block 2 每个区组的受试对象个数取决于对比组组数 3 每个区组的受试对象被随机地分配到各对比组中三研究统计设计的基本类型要素原则配对设计的扩展故又称配伍组设计交叉设计 cross overexperimentdesign 每个受试者随机地在两个或多个不同试验阶段分别接受指定的处理试验药或对照药同源配对设计的扩展优点 1 控制个体间的差异 2 减少受试者人数三研究统计设计的基本类型要素原则对照原则 1 对照的意义区分处理因素与非处理因素的效应是比较的必要基础消除和减少混杂因素实验误差处理组对照组比较结果三研究统计设计的基本类型要素原则包括空白对照实验对照标准对照自身对照相互对照历史对照 1 空白对照 blankcontrol 对照组不加任何处理因素特点简单易行但容易引起心理差异从而影响实验效应的测定安慰剂对照 placebocontrol 2 实验对照 experimentalcontrol 施加基础实验条件非处理因素如面包烟薰剂含赖氨酸面包非处理因素赖氨酸效应面包效应非处理因素效应面包非处理因素面包效应非处理因素效应赖氨酸赖氨酸效应中草药烟薰剂与单纯烟薰剂空气灭菌 2 对照的形式 3 标准对照 standardcontrol 以现有的标准或正常值作对照实验室应用较多 4 自身对照 self control 实验在同一受试对象上进行同源配对设计交叉设计特点简单易行使用广泛假定试验前后某些环境或自身因素保持不变 5 相互对照 inter control 几个实验组互相作为对照 6 历史对照以过去的研究结果作对照与本人或他人过去的研究结果作比较不好 2 对照的形式 3 设立对照应注意的事项 1 均衡对照组与实验组除研究因素外其他因素应尽可能相同 2 同步对照组与实验组应处于同一空间和同一时间4 设立对照存在的问题 1 缺乏对照 2 缺乏适当的对照历史对照时间不同步和中外对照空间不同步 3 对照不全 4 对照多余重复的原则重复 replication 是指各处理组与对照组要有一定样本含量 samplesizes 无限地增加样本含量将加大实验规模延长实验时间浪费人力物力反而增加系统误差出现的可能性样本含量不足检验效能 Power 1 偏低总体参数之间原本有差异也无法检验出来三研究统计设计的基本类型要素原则四研究设计的误差控制与抽样方法误差 error 实测值与真值之差随机误差抽样误差不恒定随机变化非随机误差非系统误差过失误差系统误差方向性一抽样方法常用的抽样方法1 单纯随机抽样2 系统抽样3 分层抽样4 整群抽样四研究设计的误差控制与抽样方法 1 单纯随机抽样 simplerandomsampling 先将总体的全部观察对象编号再利用抽签或随机数字表的方法随机抽取观察对象组成样本最基本的抽样方法其他抽样方法的基础优点计算误差比较简便缺点对象较多时甚为复杂三研究设计的误差控制与抽样方法方法 1 编号按从南到北或其他特征顺序依次编号为1 2 3 号 2 产生随机数字对于每一个编号依次由计算器计算机产生随机数 3 归组事先规定将较小或较大随机数的2省市进入实验组三研究统计设计的基本类型要素原则例在华东抽取两个省市进行实验 2 系统抽样 systematicsampling 按照一定的顺序机械地每隔若干个单位抽取一个单位的方法又称间隔抽样机械抽样如按门牌号每个10个号抽取用户优点节省抽样时间和费用缺点在某些特殊情况下存在偏性四研究设计的误差控制与抽样方法 3 分层抽样 stratifiedsampling 先按某种特征将总体分为若干组别类型或区域等统称为层再用随机抽样的方法从每个子总体中抽取样本要求层内齐同层间不同比例分层法在分层抽样时使样本中各层所占比例与总体中各层所占比例相同最优分层法优点抽样误差小不同层可采用不同抽样方法各层可独立进行分析各层间可进行比较分析缺点分层较多时调查和分析较麻烦四研究设计的误差控制与抽样方法 4 整群抽样 clustersampling 按群体而不是按个体抽取观察单位的抽样方法优点在大规模调查中易于组织节省人力物力缺点抽样误差大各种抽样方法的抽样误差顺序分层系统单纯整群四研究设计的误差控制与抽样方法测量值真值随机误差非随机误差Xi i i1 随机误差随机抽样误差影响因素众多变化无方向性不可避免但可用统计方法进行分析 2 系统误差受确定因素影响大小变化有方向性 3 非系统误差过失误差研究者偶然失误而造成的误差五统计方法基本知识二系统误差与控制方法 1 系统误差定义系统误差 systematicerror 在一定实验条件下由某种未发现或未确定的因素所引起观测值具有方向性和系统性的误差又称偏倚 bias 四研究设计的误差控制与抽样方法 2 产生系统误差的常见原因仪器差异方法差异试剂差异条件差异顺序差异人为差异3 系统误差类型及其控制类型发生阶段控制选择偏倚设计随机化测量偏倚实施盲法标准化混杂偏倚分析配对分层四研究设计的误差控制与抽样方法 4 盲法及其作用 1 盲法的定义和分类定义研究中使一方或多方不知道受试者分组的分配情况的方法分类单盲 simpleblind 受试者不知道己接受何种措施双盲 doubleblind 受试者和观察者均不知道受试者接受何种措施四研究设计的误差控制与抽样方法 2 盲法的作用及注意事项作用消除非处理因素引起的误差注意事项双盲法的实施较为复杂要有一套严格的管理和监督措施对于危急和重症病人不能采用盲法法律道德风俗习惯的禁忌四研究设计的误差控制与抽样方法五统计方法基本知识统计学概述定义作用统计学常用的基本概念统计学基本知识定义统计学 statistics 统计学是关于数据 data 的科学是从数据中提取信息的一门学科包括设计搜集整理分析和表达等步骤根据研究领域和研究对象统计学又分为数理统计经济统计生物统计医学统计卫生统计一统计学概述五统计方法基本知识作用 1 采用统计学方法发现不确定现象背后隐藏的规律变异 variation 是社会和生物医学中的普遍现象变异使得实验或观察的结果具有不确定性如每个人的身高体重血压等各有不同 2 用统计学思维方式考虑有关医学研究中的问题阳性结果是否是虚假联系某感冒药治疗1周后治愈率为90 能否说该感冒药十分有效阴性结果是否是样本含量不足有人曾对发表在Lancet NEnglJMed JAMA等著名医学杂志上的71篇阴性结果的论文作过分析发现其中有62篇 93 可能是由于样本含量不足造成的假阴性五统计方法基本知识 3 保证你的研究论文能通过统计学审查现在杂志投稿要求都包含了统计学要求 4 获得循证医学证据的主要手段良好愿望的医学 well meaningmedicine 转入以证据为基础的医学 evidence basedmedicine EBM 需要有统计学方法的支持全世界的医学期刊每年大约刊登600万学术论文但能作为可靠证据的论文并不多五统计方法基本知识二统计学常用的基本概念数据分类变量与随机变量测量和测量尺度总体与样本参数与统计量频率与概率五统计方法基本知识参数统计量同质变异误差变量统计学基本概念频率概率样本总体数据分类 1 定量数据允许计算均数标准差等可采用t F检验等可当做有序或定性数据处理一般有度量衡单位类别间的差别大小有实际意义2 定性数据编码是任意的不能对编码执行均数标准差等计算但可计算率或比可采用卡方检验等二项分类性别分类如男性为1 女性为0 多项无序分类血型的A B AB O型多项无序分类3 有序数据允许基于顺序的计算如计算中位数百分位数可当做定性数据处理多项有序分类疗效分显效有效好转无效4类五统计方法基本知识三定量变量的离散化与有序分类变量的数量化 1 实际年龄少年青年中年老年2 有序疗效等级显效有效好转无效4321 丢失信息赋值的合理性五统计方法基本知识定量变量定性变量例一组20 40岁成年人的血压以12kPa为界分为正常 0 与异常 1 两组统计每组例数 8低血压8 正常血压12 轻度高血压15 中度高血压17 重度高血压定量变量有序分类定性变量丢失信息五统计方法基本知识变量与随机变量 Variableandrandomvariable 1 变量可以测量的任何特征或属性Anycharacteristicorattributethatcanbemeasured 不同个体结果可能不同 2 随机变量在概率论中称变量为随机变量根据观察数据之间有无缝隙 gap 常将数据分类为离散型 discrete 变量有缝隙与连续型 continuous 变量无缝隙两大类五统计方法基本知识测量和测量尺度对随机变量的取值过程为测量取值所采用的标准为测量尺度采用统一的标准化的尺度进行测量其测量结果一般是稳定的和一致的例如身高胸围等形态指标的测量均采用统一的测量尺度全国统一研制的身高计胸围尺均以厘米为记录单位体重以公斤为记录单位肺活量以毫升为单位等五统计方法基本知识总体与样本populationandsample 总体根据研究目的确定的同质研究对象的全体集合分有限总体与无限总体样本从总体中随机抽取的部分研究对象随机抽样randomsampling为了保证样本的可靠性和代表性需要采用随机的方法抽取样本在总体中每个个体具有相同的机会被抽到五统计方法基本知识总体和样本总体population 样本sample 有限总体无限总体随机抽取统计推断外推统计描述在抽样研究中抽样误差是不可避免的参数与统计量parameterandstatistic 参数总体的统计指标如总体均数标准差采用希腊字母分别记为固定的常数推断inference 统计量样本的统计指标如样本均数标准差采用拉丁字母分别记为X S 参数附近波动的随机变量五统计方法基本知识频率与概率frequencyandprobability 频率样本的实际发生率称为频率设在相同条件下独立重复进行n次试验事件A出现f次则事件A出现的频率为f n 概率随机事件发生的可能性大小用大写的P表示取值 0 1 五统计方法基本知识频率与概率间的关系 1 样本频率总是围绕概率上下波动2 样本含量n越大波动幅度越小频率越接近概率五统计方法基本知识概率的乘法法则几个独立事件同时发生的概率等于各独立事件的概率之积概率的加法法则互不相容事件和的概率等于各事件的概率之和五统计方法基本知识必然事件P 1随机事件0 P 1不可能事件P 0P 0 05 5 或P 0 01 1 称为小概率事件习惯统计学上认为不大可能发生小概率事件 Certain Impossible 0 5 0 1 五统计方法基本知识三概率分布 probabilitydistribution 概率分布描述随机变量值xi及这些值对应概率P X xi 的表格公式或图形离散型随机变量概率分布连续型随机变量概率分布五统计方法基本知识 1 离散型随机变量的概率分布五统计方法基本知识离散型随机变量的概率分布举例五统计方法基本知识 2 连续型随机变量的概率分布变量的取值充满整个数值区间无法一一列出其每一个可能值一般将连续型随机变量整理成频数表对频数作直方图直方图的每个矩形顶端连接的阶梯形曲线来描述连续型变量的频数分布五统计方法基本知识五统计方法基本知识如果样本量很大组段很多矩形顶端组成的阶梯型曲线可变成光滑的分布曲线大多数情况下可采用一个函数拟合这一光滑曲线这种函数称为概率密度函数 probabilitydensityfunction 五统计方法基本知识如果连续型随机变量X的概率密度函数记为则在区间 x1 x2 范围内的概率可由微积分函数定义五统计方法基本知识第三节常用的概率分布一二项分布二泊松分布三卡方分布四正态分布五方差分布五统计方法基本知识一二项分布毒性试验白鼠死亡生存临床试验病人治愈未愈临床化验血清阳性阴性事件成功 A 失败非A 这类成功失败型试验称为Bernoulli试验五统计方法基本知识 Bernoulli试验序列 n次Bernoulli试验构成了Bernoulli试验序列其特点如抛硬币如下 1 每次试验结果只能是两个互斥的结果之一 A或非A 2 每次试验的条件不变即每次试验中结果A发生的概率不变均为 3 各次试验独立即一次试验出现什么样的结果与前面已出现的结果无关五统计方法基本知识二项分布的定义从阳性率为的总体中随机抽取含量为n的样本恰有X例阳性的概率为 X 0 1 2 n则称X服从参数为n和的二项分布记为 X B n 其中参数n由实验者确定而常常是未知的均数与标准差五统计方法基本知识五统计方法基本知识二项分布的应用条件各观察单位只能有互相对立的一种结果属于二分类资料已知发生某一结果如阴性的概率不变其对立结果如阳性的概率则为1 n次试验在相同条件下进行且各观察单位的结果互相独立五统计方法基本知识二泊松分布当二项分布中n很大很小时二项分布就变成为Poisson分布所以Poisson分布实际上是二项分布的极限分布由二项分布的概率函数可得到泊松分布的概率函数为五统计方法基本知识 Poisson分布的形状取决于的大小 Poisson分布为正偏态分布且愈小分布愈偏随着的增大分布逐渐趋于对称当 20时已基本接近对称分布当 50时 Poisson分布近似正态分布 50时可按正态分布原理处理之 Poisson分布的性质五统计方法基本知识 Poisson分布主要用于描述在单位时间空间中稀有事件的发生数例如 1 放射性物质在单位时间内的放射次数 2 在单位容积充分摇匀的水中的细菌数 3 野外单位空间中的某种昆虫数等五统计方法基本知识 2分布 2分布 f 2 2 五统计方法基本知识 2分布曲线下的面积与概率五统计方法基本知识第一节正态分布 NormalDistribution 100份样本的均数和标准差又称Gauss分布 Gaussiandistribution 是一个重要的连续型概率分布 1 概率密度函数 2 概率分布函数五统计方法基本知识正态分布的重要性医学研究中的某些观察指标服从或近似服从正态分布很多统计方法是建立在正态分布的基础之上的很多其他分布的极限为正态分布因此正态分布是统计分析方法的重要基础五统计方法基本知识第四节正态分布五统计方法基本知识正态分布的特征正态分布是一单峰分布高峰位置在均数X 处正态分布以均数为中心左右完全对称正态分布由参数和确定正态曲线下的面积分布有一定的规律曲线与X轴所围成的总面积为1在的区间内占总面积的68 27 在 1 96 的区间内占总面积的95 在 2 58 的区间内占总面积的99 五统计方法基本知识曲线下面积分布规律五统计方法基本知识 Z值分布曲线下面积与概率五统计方法基本知识正态分布在医学中的应用 1 大多数生理生化指标服从正态分布2 估计医学参考值范围质量控制二项分布 poisson分布的极限均为正态分布 5 卡方 t与F分布都与正态分布有关五统计方法基本知识图4 2不同自由度下的t分布图 t分布t distribution 五统计方法基本知识 t分布的特征以0为中心左右对称的单峰分布 t分布曲线是一簇曲线其形态变化与自由度的大小有关自由度越小则t值越分散曲线越低平自由度逐渐增大时 t分布逐渐逼近Z分布标准正态分布当趋于时 t分布即为Z分布五统计方法基本知识 t分布曲线下面积双侧t0 05 2 9 2 262 单侧t0 025 9单侧t0 05 9 1 833双侧t0 01 2 9 3 250 单侧t0 005 9单侧t0 01 9 2 821双侧t0 05 2 1 96 单侧t0 025 单侧t0 05 1 64 五统计方法基本知识 F分布曲线五统计方法基本知识 F分布曲线下面积与概率五统计方法基本知识方差分析的基本思想所有测量值上的总变异按照其变异的来源分解为多个部份然后进行比较评价由某种因素所引起的变异是否具有统计学意义五统计方法基本知识小结 1 随机变量概率分布抽样分布是统计学推断的基础 2 二项分布描述二项分类变量两种观察结果的出现规律泊松分布是二项分布的特例常用于事件发生率很小样本含量很大的情况 3 正态分布是其他分布的极限分布许多统计方法的理论基础不少医学现象也服从正态分布或近似服从正态分布 4 检验统计量分布或抽样分布包括卡方分布 t分布 F分布等这些分布是卡方检验 t检验方差分析等假设检验的基础五统计方法基本知识三统计学基本知识统计描述统计推断第一节中心趋势指标常用的中心趋势指标有算术均数几何均数中位数众数统称为平均数 average 一算术平均数 TheArithmeticmean 简称均数 Mean 或均值定义为所有测量值之和除以变量值个数即样本含量SampleSize 反映一组呈对称分布的变量值在数量上的平均水平统计学基本知识统计描述均数的特征最常用特别是正态分布资料均数对极值特别敏感极大值或极小值通常将均数拉向自己 1 直接计算法公式举例1 试计算1 3 7 9的均数例2 试计算1 3 3 7 7 9 9 9的均数 2 加权法二中位数与百分位数 11个大鼠存活天数 4 10 7 50 3 15 2 9 13 60 60平均存活天数一中位数 median 是将每个变量值从小到大排列位置居于中间的那个变量值存活天数2 3 4 7 9 10 13 15 50 60 60秩次1234567891011 统计学基本知识统计描述中位数的特征计算时只利用了位置居中的测量值优点对极值不敏感缺点并非考虑到每个观测值适用于各种分布类型的资料特别适合于大样本偏态分布资料或者一端或两端无确切数值的资料计算公式 n为奇数时n为偶数时统计学基本知识统计描述例9名中学生甲型肝炎的潜伏期分别为12 13 14 14 15 15 15 17 19天求其中位数频数表资料的中位数下限值L 上限值U i fm 中位数M 中位数 4 5 0 5x 150 x50 68 37 4 59 百分位数示意图百分位数 percentile 1 直接计算法2 频数表法三几何均数 geometricmean 可用于反映一组经对数转换后呈对称分布或正态分布的变量值在数量上的平均水平几何均数的特征1 几何均数适用于对数正态分布如药物的效价抗体的滴度传染性疾病的潜伏期等资料 2 变量x服从对数正态分布即表示变量lg xi 服从正态分布对于lg xi 具有正态分布的所有特性统计学基本知识统计描述 1 直接法几何均数变量对数值的算术均数的反对数其他对数如自然对数变换获得相同的几何均数 2 加权法公式四众数 Mode 是一群数据中出现次数频数最多的值适用于大样本较粗糙例有16例高血压病人的发病年龄岁为 42 45 48 51 52 54 55 55 58 58 58 58 61 61 62 62 试求众数统计学基本知识统计描述众数的特征 1 对于某些数据而言例如均匀分布并不存在众数 2 对于某些数据存在两个或多于两个的众数 3 定性数据可以存在众数众数对于进一步的统计学计算与分析不具备应用价值统计学基本知识统计描述五其他位置指标 1 四分位数 Quartile 三个四分位数 2 十分位数 Centile 9个十分位数3 百分位数 Percentile 99个百分位数统计学基本知识统计描述统计学基本知识统计描述离散与变异性指标全距四分位间距方差标准差变异系数统计学基本知识统计描述一全距 Range 与绝对差全距为最大值与最小值之差也叫极差缺点仅利用了两个极端值统计学基本知识统计描述二方差与标准差方差 Variance 也称均方差 meansquaredeviation 反映一组数据的平均离散水平统计学基本知识统计描述 2 一样本方差为各变量值到样本均数距离的平方和除以自由度的商值即 S 二总体方差定义为样本标准差为样本方差的平方根总体标准差为总体方差的平方根标准差 standarddeviation 统计学基本知识统计描述标准差的意义和用途说明资料的离散趋势或变异程度标准差的值越大说明变异程度越大均数的代表性越差标准差与原始数据的单位一致在科技论文报告中均数与标准差经常被同时用来描述资料的集中趋势与离散趋势用于计算变异系数用于计算标准误结合均值与正态分布的规律估计参考值的范围样本标准差实用公式抽样数据为例 1 3 3 7 7 9 9 9 48 n 8 样本标准差的加权公式三变异系数 coefficientofvariation 变异系数 coefficientofvariation CV 常用于比较度量单位不同或均数相差悬殊的两组或多组资料的变异程度统计学基本知识统计描述某地7岁男孩身高的均数为123 10cm 标准差为4 71 体重均数为22 59kg 标准差为2 26kg 比较其变异度四四分位数间距 inter quartilerange 四分位数间距用IQR表示 IQR 第三四分位数 Q3第一四分位数 Q1 统计学基本知识统计描述第三节率比及其注意事项一率 rate 在特定条件下可能发生某现象的总例数中实际发生某现象的强度或频率统计学基本知识统计描述构成比 Proportion constituentratio 构成比指标用以表示事物内部某一构成成分在全部构成中所占的比例或比重相对比 relativeratio 是由两个有关联的指标之比二比 ratio 统计学基本知识统计描述三应用率比指标时的注意事项 1 保证有足够的样本含量 2 分析时不能以构成比代替率 3 注意平均率的计算 p1 p2 24 率和比指标比较时要有可比性不可比时可采用率标准化 5 不要简单由样本率的差异做出结论率比和均数一样都有抽样误差需采用假设检验下结论统计学基本知识统计描述描述性统计定量数据中心趋势集中位置离散趋势变异度算术均数几何均数中位数众数十百分位数全距四分位数间距方差标准差变异系数定性数据率速率比率比相对比构成比注意事项应用条件统计推断参数估计假设检验如果总体不是正态总体但其均数和标准差分别为和则当样本含量n不断增大时样本均数的分布也趋近于正态分布且其均数为标准差为随着样本量的增大样本均数的变异范围也逐渐变窄不论总体的分布形式如何只要样本含量n足够大时样本均数的分布就近似正态分布此称为中心极限定理中心极限定理centrallimittheorem 统计学基本知识统计推断 1 称为可信度或置信度 confidencelevel 常取95 置信区间通常两个数值即置信限 confidencelimit CL 构成较小的称为置信下限 lowerlimit L 较大的称为置信上限 upperlimit U 一置信区间的有关概念统计学基本知识统计推断参数估计 95 的置信区间表示如果从同一总体中重复抽取100个独立样本将可能有95个置信区间包括总体均数有5个置信区间包括总体均数对于一次估计的置信区间可能有95 的正确率但仍有5 的置信区间估计错误三置信区间的涵义统计学基本知识统计推断参数估计单一总体均数的置信区间统计学基本知识统计推断参数估计总体均数的点估计 pointestimation 与区间估计 intervalestimation 参数的估计点估计由样本统计量直接估计总体参数区间估计在一定可信度 Confidencelevel 下同时考虑抽样误差一总体均数的可信区间估计按预先给定的概率 1 确定一个包含未知总体参数的范围这一范围称为参数的可信区间或置信区间 confidenceinterval CI 统计学基本知识统计推断参数估计二率的抽样误差与可信区间率的抽样误差与标准误总体率的可信区间统计学基本知识统计推断参数估计二率的抽样误差与可信区间率的抽样误差与标准误样本率 p 和总体率的差异称为率的抽样误差 samplingerrorofrate 用率的标准误 standarderrorofrate 度量如果总体率未知用样本率p估计统计学基本知识统计推断参数估计标准误的计算统计学基本知识统计推断参数估计总体率的可信区间 1 正态分布法 2 查表法 3 统计软件直接计算统计学基本知识统计推断参数估计三可信区间估计的优劣一是可信度1 准确度愈接近1愈好如99 的可信度比95 的可信度要好二是区间的宽度精密度区间愈窄愈好当样本含量为定值时上述两者互相矛盾在可信度确定的情况下增加样本含量可减小区间宽度统计学基本知识统计推断参数估计假设检验 HypothesisTesting 第一节假设检验的基本思想小概率与反证法一小概率事件与假设检验检验目的未知只能比较样本均数与 0 0 0有两种可能 1 与 0相等差异由抽样引起 2 与 0本身不相等统计学基本知识统计推断假设检验检验假设如法官判定一个人是否犯罪首先是假定他无罪 H0 然后通过侦察寻找证据如果证据充分则拒绝无罪的假定 H0 判嫌疑人有罪否则只能暂且认为无罪的假定 H0 成立统计学基本知识统计推断假设检验小概率事件 P 0 05或P 0 01 1 96 1 96 1 645 统计量Z对应的概率很小如小于等于0 05 则认为事件不会发生此时拒绝H0 有足够证据推断差异有统计学意义统计学基本知识统计推断假设检验二两类错误 I型错误弃真拒绝实际正确的H0 I型错误的概率记为 1 a 即可信度重复抽样时样本区间包含总体参数 m 的百分数 II型错误纳伪不拒绝实际不正确的H0 II型错误的概率记为 1 即把握度或检验效能两总体确有差别被检出有差别的能力统计学基本知识统计推断假设检验两类错误图示 m m0 m1 m m0 m0 H1 m m1 m0 统计学基本知识统计推断假设检验三单双侧检验 H1 0 双侧 0都有可能H1 0 单侧H1 0 单侧对于本例根据医学知识经常参加体育锻炼的中学男生心率不会高于一般中学男生的心率所以使用单侧即H0 0 H1 0由专业知识确定单双侧统计学基本知识统计推断假设检验第二节假设检验的基本步骤一建立检验假设确定检验水准H0 0 两总体均数相等差异仅由抽样误差所致 H1 0 或 0或拒绝H0的样本证据不足就不拒绝H0 暂且认为H0成立根据统计推断结果结合相应的专业知识给出一个专业的结论统计学基本知识统计推断假设检验假设检验常见结果专业有意义统计学检验无意义专业无意义统计学检验有意义专业有意义统计学检验有意义统计学基本知识统计推断假设检验 1 对于H0只能说拒绝与不拒绝而对H1只能说接受 2 P 则拒绝H0 接受H1 差异有统计学意义有足够的证据可认为不同或不等 3 P 则不拒绝H0 差异无统计学意义阴性结果尚不能认为不同或不等或拒绝H0的证据尚不足 4 下统计检验结论只能说有无统计学意义 statisticalsignificance 而不能说明专业上的差异大小 P值越小只能说明作出拒绝H0 接受H1的统计学证据越充分推论时犯错误的机会越小与专业上 0 差异的大小无直接关系 5 应事先确定选 0 05只是一种习惯而不是绝对的标准关于假设检验的几个观点统计学基本知识统计推断假设检验假设检验中的注意事项要保证组间的可比性要根据研究目的设计类型和资料类型选用适当的检验方法正确理解差别有无显著性的统计学意义结论不能绝对化单双侧检验应事先确定统计学基本知识统计推断假设检验配对设计资料均数的比较两组完全随机设计资料的方差齐性检验完全随机设计两总体均数的比较正态性检验趋势分析两样本率的等效检验信度和效度分析诊断和筛检试验的设计与分析等等其他检验统计学基本知识统计推断假设检验第三节检验效能及其计算检验效能 Power 又称把握度即两总体确实有差别按水准能发现它们有差别的能力真阳性用 1 表示通常要求达到80 或90 即b 0 2或不得低于75 b 0 1 为第二类错误的概率把握度 1 0 9Z 查z值表 1 统计学基本知识统计推断假设检验出现阴性结果有两种可能 1 1 较大被比较的指标间总体参数很可能无差别 2 1 较小所比较的指标间总体参数很可能有差别但由于样本含量不足而未能发现 P 在水平下不拒绝H0 即认为差别无统计学意义又称作阴性结果统计学基本知识统计推断假设检验二检验效能的影响因素个体间标准差越小或样本含量越大检验效能越大第一类错误的概率越大检验效能越大3 客观差异越大检验效能越大统计学基本知识统计推断假设检验 Z 的计算举例两样本均数比较未知时例用阻滞剂降低心肌梗塞患者血压的随机双盲对照试验结果见下表检验结果为t 1 54 P 0 05 无统计学意义认为该药无降压效果问该结论是否可靠要求 0 67kPa 0 05 Z0 05 1 96 两组心肌梗塞患者治疗后的收缩压 kPa 已知 0 67kPa 0 05 Z0 05 1 96 S 1 6 n1 n2 15 查附表P Z 0 81 1 P Z 0 81 1 0 2090 0 7910即 0 79 则Power 1 1 0 79 0 21说明检验效能太低该结论假阴性的可能性大需增加样本含量进一步试验二配对计量资料比较三两样本率比较四配对计数资料五直线相关现在可以直接利用统计软件进行计算样本含量的估计第一节概述样本含量 samplesize 为了保证研究结论的可靠性确定的实验研究或调查研究所需要的最低观察对象的数量样本含量少研究结论不可靠样本含量过多造成人财物的不必要浪费样本量估计样本含量与检验效能样本含量估计与检验效能分析是研究设计必须考虑的问题这两者之间关系密切样本含量越大检验效能越高样本含量越小检验效能就越低样本量估计 1 资料的性质计量少计数多2 误差的大小小少大多3 均衡性的好坏好少坏多4 实验效应的强弱强少弱多5 干扰因素的多少少少多多样本含量的估计时以上很多因素无法定量所以通常是由犯I类错误的概率检验出实际差异的把握度1 个体值间的离散程度s 以及容许误差d来确定样本含量一样本含量的影响因素样本量估计样本含量的影响因素 1 检验水准则n 2 检验效能1 1 则n 1 0 75 通常取0 8或0 9 3 客观差异 delta 即比较总体参数间的差值如m1 m2 p1 p2 则n 总体标准差总体平均数或总体率这里主要指离散程度指标s 则n 样本量估计第二节样本含量的估计样本量估计样本量估计例以往年的数据作为预实验数据来估算今年的样本量 P为阳性率其中检验水平a取0 05 则Ua值Ua 1 960 为允许误差允许误差根据实验目的和要求确定食品污染细菌服从二项分布分布图允许误差的确定允许误差采用阳性率与可信限边界之差的绝对值使用其中较小一个值所算出的样本量能满足近似正态分布要求具有较强的统计效能例表1各种食品最低采样量二样本均数与总体均数比较三两样本均数比较四配对计量资料比较五两样本率比较六配对计数资料比较七根据相对危险度进行估计八相关分析样本量估计模型分析基础相关回归相关变量间的互依关系回归变量间的依存关系模型分析图9 6相关系数示意图散点呈椭圆形分布 X Y同时增减正相关 positivecorrelation X Y此增彼减负相关 negativecorrelation 散点在一条直线上 X Y

人人文库> 全部分类> 应用文书 > 办公表格

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

统计设计、统计方法与结果表述.ppt

文档简介

温馨提示

最新文档

评论

统计设计、统计方法与结果表述.ppt

文档简介

温馨提示

最新文档

评论

相关文档