




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
参数估计与假设检验 童新元中国人民解放军总医院 名人格言 大胆假设 小心求证 胡适 1891 1962 引例 如何研究中国人的身体状况如身高 体重等 姚明 篮球巨星 1980年生于上海 身高2 26米 曾效力于中国国家篮球队 NBA火箭队 2011年7月退役 被美国 时代周刊 列入 世界最具影响力100人 全世界最高和最矮的人 吉尼斯世界纪录2010年01月 土耳其27岁的苏坦科森246 5cm全世界最高的人 中国内蒙21岁的何平平74 6cm的全世界最矮的人 第六次全国人口普查 2010年11月1日零时为标准时点进行了第六次全国人口普查 全国总人口为1370536875人 其中 0 14岁人口为222459737人 占16 60 15 59岁人口为939616410人 占70 14 60岁及以上人口为177648705人 占13 26 一 概论 医学研究中 总体常常是非常之大甚至是无限的 无法直接对总体进行研究 我们采用抽样的方法通过样本提供的信息来对总体进行推断 抽样研究对于无限总体来讲 是唯一可行的方法 对有限总体抽样也可节省人力和材料 增加研究工作的可行性 标准正态分布下尾端概率 出现u小于 1 96及u大于1 96的可能性多大 临界值的表示方法 将标准正态曲线双侧尾部面积之和等于 时对应的正侧变量值称为正态分布的双侧临界值 记为 u 或Z 有的教材记为u 2 u1 2 0 05时 u0 05 1 96 正态分布下尾端概率 正态分布下去掉双侧尾端概率为5 的范围为多少 统计学思想 怎样认识无限总体 用有限样本 正常参考值范围 如 舒张压95 正常值范围60 90mmHg收缩压95 正常值范围90 120mmHg怎样认识不确定性事物 概率P如 有效率 生存率 研究总体与样本的关系包括两个方面 一 从总体到样本 这就是研究抽样分布的问题 亦即抽样与抽样误差问题 二 从样本到总体 这就是统计推断问题 它包括两大部分 参数估计和假设检验 二 抽样与抽样误差 采用从总体中抽取一部分个体组成样本的方法 即抽样方法 样本所得的统计量 如样本均数或率 与总体参数不相同 从同一总体中随机抽取两个样本 其统计量也有差异 这些差异是因抽样产生的 在统计学中称为抽样误差 由于总体中的个体存在差异 有抽样就必然有抽样误差 所以抽样误差是不可避免的 抽样必须遵循随机化原则 否则产生偏倚 三 抽样分布 从总体中随机地抽取若干样本 不同的样本其统计量 如均数 标准差 率 也不相同 因而样本的统计量也是随机变量 也有其概率分布 我们把统计量的概率分布称为抽样分布 下面介绍样本均数的抽样分布 一 样本均数抽样分布 设有一个总体 总体均数为 方差为 2 总体中的变量记为x 将此总体称为原始总体 现从这个总体中随机抽取含量为n的样本 样本均数记为 可以设想 我们可以从原总体中 抽出很多个含量为n的样本 由这些样本算得的均数不尽相同 样本均数也是一个随机变量 其概率分布叫做样本均数的抽样分布 抽样举例 随机变量x服从均数为3 方差为0 25的正态分布 在该分布中随机抽取2例组成一个样本 求得其平均值 共抽取100个样本 可得100个平均值 其平均数的概率分布图如下 图5 1均数的抽样分布 N 2 例若某大学有学生1万人 其学生的身高服从正态分布X N 175 102 随机抽取n 20人 求其平均身高 反复进行若干次 得其均数的平均值和标准差 均数服从分布 N 175 102 20 随机抽取n 50人 求其平均身高 反复进行若干次 得其均数的平均值和标准差 均数服从分布 N 175 102 50 随机抽取n 100人 求其平均身高 反复进行若干次 得其均数的平均值和标准差 均数服从分布 N 175 102 100 统计学已经证明 变量x与变量的概率分布之间有下面两条性质 若随机变量x服从正态分布N 2 x1 x2 x3 xn 是由x总体得来的随机样本 则统计量 x n的概率分布服从正态分布N 2 n 2 若随机变量x服从均数是 方差是 2的非正态分布 x1 x2 x3 是由此总体得来的随机样本 则当样本n相当大时 则统计量 x n的概率分布服从正态分布N 2 n 这个性质称为中心极限定理 中心极限定理 中心极限定理告诉我们 不论x变量是连续型还是离散型 也无论x服从何种分布 一般只要n 30 的分布就近似于正态分布了 这就是为什么正态分布较之其它分布应用更为广泛的原因 四 标准误 由样本平均数构成的总体称为样本均数的抽样总体 其均数和标准差分别记为和 是样本均数抽样总体的标准差 称为标准误差 简称标准误 standarderror 记为SE 它表示均数抽样误差的大小 标准误与标准差的关系 标准误与原总体的标准差 成正比 标准误与样本含量n的平方根成反比 标准误计算方法为 标准误与标准差的关系 标准误大 说明各样本均数间差异程度大 样本均数的精确性低 反之 标准误小 说明间的差异程度小 从某特定总体抽样 由于 是一个固定常数 所以只有增大样本含量才能降低样本平均数的抽样误差 在实际工作中 总体标准差 往往是未知的 因而无法求得 此时 可用样本标准差S估计 即以估计 一般记为 称作样本标准误或均数标准误 样本标准误是平均数抽样误差的估计值 若样本中各观测值为x1 x2 x3 xn 则 例5 1 对某地36名成年男子进行红细胞数的抽样调查 s 0 171 求其标准误 例5 2 今随机抽取某厂生产的10个产品 测得其重量得数据如下 单位 克 1050 1100 1080 1120 1200 1250 1040 1130 1300 1200求其标准误是多少 CHISS软件实现 进入统计模块点击统计 统计描述 正态定量描述反应变量 标准误 确认 标准差与标准误的区别 样本标准差S是反映样本中各观测值变异程度大小的一个指标 它的大小说明了对该样本代表性的强弱 样本标准误是样本均数的标准差 它是抽样误差的估计值 其大小说明了样本间变异程度的大小 它的大小说明了抽样误差的大小 五 均数的参数估计 参数估计就是用样本统计量来估计总体参数 主要介绍总体均数的参数估计 参数估计有点估计和区间估计 一 点估计 将样本统计量直接作为总体相应参数的估计值叫点估计 Pointestimation 如常用样本均数估计总体参数均数 例5 2 今随机抽取某药厂生产的10个产品 测得其重量得数据如下 单位 克 1050 1100 1080 1120 1200 1250 1040 1130 1300 1200问该产品的平均重量是多少 CHISS软件实现 进入统计模块点击统计 统计描述 正态定量描述反应变量 确认 二 区间估计 点估计是给出总体参数一个具体估计值 但样本估计值不一定等于总体参数 即便估计值正好等于总体参数 因为我们并不知道总体参数的真值为多少 很难验证这种相等 如随机抽取2000例健康人测量其血压 计算得到样本平均收缩压100mmHg 但健康人总体平均收缩压 不一定为100mmHg 可能是99 也可能是101 无法确定 第二节 人们在得到点估计值的同时 自然希望知道样本统计量值与所估计的总体参数值到底相差多少 对估计的总体参数取值估计出一个范围 并希望知道所估计的总体参数落入这个范围的可靠程度 即 P 1 2 1 1 2 给出一个范围 使这个范围能够按足够大的概率 1 包含被估计参数 均数 的可信区间及计算 这个范围 1 2 称作参数的可信区间或置信区间 confidenceinterval CI 2 1是置信区间上 下限 1 称为置信度或置信水平 confidencelevel 是估计不准的概率 通常取 0 05 置信区间的估计常用正态法 均数抽样正态分布下尾端概率 正态分布下去掉双侧尾端概率为 的范围为多少 正态分布置信区间 1 CI估计法 在均数的抽样分布中 随机变量落在区间 的概率为1 为标准正态分布的临界值 正态分布置信区间计算的 1 置信区间是 u u 例如 0 05时 u 1 96 当均数和标准误已知时可以计算95 CI 例从某个大学6000名学生中随机抽取100名 测得其身高值 计算得其平均身高为170cm 标准差为5cm 试估计该校大学生平均身高为多少 其95 CI可信区间为多少 解 该校大学生平均身高估计值为170cm 其95 CI为 170 1 96 5 10 170 1 96 5 10 170 0 98 170 0 98 169 02 170 98 置信区间的含义 95 置信区间的意思是在相同的条件下 从同一总体中进行100次随机抽样 抽得的100样本计算出100个置信区间 有95 个置信区间包括总体的均数 亦说明用这样的范围估计总体均数 平均说来每100次有95次是正确的 5 是小概率 因此 在实际应用中 就认为总体均数在算得的区间内 这种估计方法会冒5 犯错误的风险 置信区间的两要素 准确度是置信区间包含总体均数的概率大小 其置信度是1 精度是置信区间的长度 是对总体均数的估计范围 置信区间的长度越小 精度越高 在样本例数一定的情况下 准确度越高 精度越低 准确度越低 精度越高 在准确度一定的情况下 增大样本含量 可以提高精度 CHISS软件实现 1 进入数据模块点击数据 文件 建立数据库表注 三行数分别为例数 均数 标准差2 进入统计模块进行统计计算点击统计 统计推断 可信区间 均数的可信区间反应变量 确认 均数的可信区间数据库要求 1每组各一列 2三行数据 第一行例数 第二行均数 第三行标准差 置信区间与参考值范围的区别 参考值范围 容许区间 置信区间 某厂出产一新型药丸机器 如何评价新制药丸机器是否工作正常 研发一新降糖药 如何评价其疗效 医学问题 六 假设检验 一种方法是研究整个总体 即由总体中的所有个体数据计算出总体参数进行比较 这种研究整个总体的方法是很准确的 但常常是不可能进行的 因为总体往往是无限总体 或者是包含个体很多的有限总体 另一种方法研究样本 通过样本研究其所代表的总体 一 假设检验的基本思想 抽样研究的目的是用样本提供的部分信息来推断总体特征 但是由于样本均数包含有抽样误差 用包含有抽样误差的样本均数来推断总体均数 其结论并不是绝对正确的 因而要对样本均数进行统计假设检验 假设检验又叫显著性检验 testofsignificance 是统计学中一个很重要的内容 假设检验的方法很多 常用的有u检验 t检验 F检验和 2检验等 u检验的思想 例 某药厂长期生产一种丸药 规定标准为每丸重9克 标准差为0 5克 服从正态分布 现在购置使用一台新的制丸机 问题 质检部门如何评价其工作正常 如何设计试验 如何进行试验 如何分析试验结果 螺丝帽与螺丝母问题 钢笔质量问题 试验设计及试验实施 试验方法 现让机器生产一大批丸药 随机抽取100颗丸药 测其重量数据为 8 9 9 9 1 9 8 9 1 9 如何进行分析 数据结果分析 对100例丸药进行统计 计算得到丸药重的平均数为9 1克 与标准重9克相差0 1克 问制丸机工作是否符合要求 正常 与标准重9克相差0 1克的原因 1 制丸机的质量不符合要求 2 抽样误差 问题的解决方法 采用反正法 假设制丸机的质量符合要求 相差0 1克都是由于抽样误差造成的 分析其可能性有多大 如果不可能 或者可以性非常小 则否定原假设 反证法的思想回顾 反证法是首先假设某命题不成立 然后推理出明显矛盾的结果 从而下结论说原假设不成立 原命题得证 反证法在数学中经常运用 当论题从正面不容易或不能得到证明时 就需要运用反证法 此即所谓 正难则反 反证法应用案例 证明命题 素数有无穷多个 质数又称素数 指在一个大于1的自然数中 除了1和此整数自身外 不能被其他自然数整除的数 素数在数论中有着很重要的地位 比1大但不是素数的数称为合数 这个古老的命题最初是由古希腊数学家欧几里德 约公元前330 275 在他的著作 几何原本 里给出一个反证法 证明 假设命题不真 则只有有限多个素数 设所有的素数是 a1ai所有的ai i 1 2 n 都不是M的因子 那么有两个可能 M或者为合数 有另外的素数真因子 或者M本身就是一个素数 无论哪种情况 都将和假设矛盾 所以素数有无穷多个 反证法是数学家最精当的武器 牛顿 1 1 2 哥德巴赫猜 1978年徐迟报告文学 哥德巴赫猜想 中国人知道了陈景润和哥德巴赫猜想 1742年 德国数学家哥德巴赫公写信给当时的大数学家欧拉提出猜想 每个不小于6的偶数都可以表示为两个奇素数之和 自然科学的皇后是数学 数学的皇冠是数论 哥德巴赫猜想 则是皇冠上的明珠 反证法的思想 欲证 若P则Q 为真命题 从相反结论出发 得出矛盾 从而原命题为真 反证法的证题可以简要的概括为 否定 得出矛盾 否定 即从否定结论开始 得出矛盾 达到新的否定 反证法的思想就是 否定之否定 解决方案 1 无效假设H0 新制丸机 9对立假设H1 新制丸机 9我们计算在无效假设H0成立下 出现目前所得试验数据以及更不利于无效假设H0成立数据的可能性有多大 概率P 如果不大可能出现 概率P很小 或者不可能出现 则认为无效假设H0不成立 2 构造统计量 已知该厂生产的药丸重量服从正态分布 x N 9 0 52 根据抽样分布的性质 知抽取100颗药丸其均数也服从正态分布 N 9 0 52 100 对均数分布进行标准正态u变换 u N 0 1 计算u统计量 u越大越不利于H0假设的成立 尾端概率 标准正态分布下 u 出现2及大于2的可能性多大 怎样进行决策 小概率思想所谓小概率思想是指小概率事件 如P 0 05 在一次试验中基本上不会发生 如果一次试验中发生了小概率事件 就认为不可能 其中存在问题 统计学上 不大可能的事认为不可能 u 2 1 96 P 0 05根据小概率事件作出结论 拒绝H0假设 即制药丸机工作不正常 三 小概率反证法思想 先提出检验假设 无效假设H0 再用适当的统计方法给出判断假设不成立时所冒的风险大小 如果此风险足够小 P0 05 则还不能认为假设H0不成立 四 假设性检验基本步骤 一 建立假设 确定显著水平 原假设 又称无效假设 H0 1 2备择假设H1 1 2确定显著水平 一般预先设定的显著水平 为0 05 二 构造统计量和求P值 在原假设成立的前提下 选择合适的统计量 研究试验所得统计量的抽样分布 计算统计量 并求出P值 三 统计判断与决策根据 小概率事件实际不可能性原理 下推断结论 当P 时 不拒绝无效假设H0 因而也就不能接受备择假设H1 差别无统计学意义 CHISS软件实现 第一种 使用原始数据CHISS软件实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 模拟考试科目一卷子及答案
- 张家口一中考试试卷及答案
- 青岛初一数学考试题型及答案
- 2025零售药店医保培训试题库及答案
- 模糊场景处理策略-洞察与解读
- 五金供应链区块链应用-洞察与解读
- 2025年事业单位招聘考试电子商务类综合能力测试试卷全真模拟及答案
- 环保设备研发与销售合作项目协议
- 2025年事业单位招聘考试综合类专业知识试卷及答案
- 2025年事业单位招聘考试综合类无领导小组讨论面试真题模拟试卷(高原与盆地交通)
- 景区礼仪培训课件模板图片
- 中小学学校教师日常行为规范细则 (2025秋季新版)
- 单相光伏并网反激式微逆变器:拓扑结构、控制策略与性能优化研究
- 2025-2030中国三坐标测量机行业市场发展趋势与前景展望战略研究报告
- 新版八上道法知识点 2025-2026学年统编版道德与法治八年级上册
- 学堂在线 中国传统艺术-篆刻、书法、水墨画体验与欣赏 章节测试答案
- 2025年河南省委党校在职研究生招生考试(政治理论)历年参考题库含答案详解(5卷)
- 口腔科院感知识课件
- 体育教学改革课件
- DB32∕T 4530-2023 生产经营单位安全生产培训规范
- 邮轮客舱服务管理课件
评论
0/150
提交评论