已阅读5页,还剩77页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第六章概率与概率分布 本章内容第一节概率的基本知识第二节正态分布第三节二项分布第四节抽样分布本章重点掌握正态分布和样本分布 每节重点具体参见各节的学习重点 2009年考研大纲部分 一 推断统计的数学基础1 概率2 正态分布3 二项分布4 抽样原理与抽样方法5 抽样分布 第一节概率的基本知识 一 随机现象 随机事件 随机变量1 随机现象 事先不可以预言的现象2 随机事件 随机现象的每一种可能结果3 随机变量 随机现象各种可能结果的量化数值具有规律性和随机性的变量 二 概率及其计算1 什么是概率随机事件出现可能性大小的客观指标 2 概率的计算 1 先验概率 古典概率 在一些特殊情况下计算出来的概率 是真实的概率 而不是估计值 有限性 等可能性 在有限个基本事件的实验中 如果所有事件的可能结果为n 随机事件A包括m个可能结果 则事件A的概率为 2 后验概率 统计概率 先从频率谈起 随机事件A在n次试验中出现了m次 那么m与n的比值 就是随机事件A的频率 如果试验次数n充分地大 则事件A出现的频率稳定在某一数值p附近 则称p为事件A的概率 由于p也是一抽象的值 常常用n在充分大时的代替 即 P A m n n 如 一个射手射击500次 有400次中靶 问该射手射击水平如何 命中率 解 总结先验和后验概率 先验概率是在特定条件下计算出来的概率 是随机事件真实的概率 不是由频率估计得来的 而后验概率是由频率近似得来 但当实验重复次数非常大的时候 后验概率也接近先验概率 先验和后验概率只能计算简单随机事件的概率 3 概率的公理系统概率是可以做代数运算的 如果求复杂事件的概率 可以运用概率的加法和乘法原则帮助获得 任何一个随机事件A的概率都是0与1之间的正数 0 P A 1 不可能事件 必然不发生的事件 概率等于0 如新生儿说话的概率为0 必然发生的事件概率等于1 如健康儿童语言发生和发展的概率为1注 概率接近1的事件发生的可能性较大 而概率接近0的事件其发生的可能性较小 反过来不成立 4 概率的加法定理在一次实验中不可能同时出现的事件称为互不相容的事件 如出现A则B事件就不会发生两个互不相容事件和的概率 等于这两个事件概率之和 P A B P A P B 如 某一学生从5个试题中任意选取一题 如果抽到每一题的概率是1 5 则抽到试题1或试题2的概率为 P A B 1 5 1 5 2 5多个互不相容事件和的概率等于这些事件的概率之和 总和概率不大于1 P A1 A2 An P A1 P A2 P An 5 概率的乘法定理一个事件的出现对另一个事件的出现不发生影响 独立事件两个独立事件同时出现的概率等于这两个事件概率的乘积 P AB P A P B 乘法定理适用于几种事件同时发生的情况 如第一个学生把抽过的试题还回后 第二个学生再抽选 则两个学生都抽到试题1的概率为P AB 1 5 1 5 I 25有限个独立事件积的概率 等于这些事件概率的乘积当然 很多情况需要加法和乘法定理结合运用求概率 做课后习题 二 概率分布的类型1 离散分布与连续分布 1 离散分布如果随机变量只能取有限的或无限但可以数下去的数值 则这种随机变量取值的概率规律称为离散分布 这类分布往往将随机试验的所有结果及其相应的概率一一列出来以表示分布规律 例1 抛置硬币这一随机试验可以用如下一些方式来表示其分布规律 记A 正面向上 B 反面向上 则P A 0 5 P B 0 5 令出现正面向上用1表示 反面向上用0表示 则P A 1 0 5 P B 0 0 5 用图形来表示 用表格表示正面朝上用1表示 反面朝上用0表示 表格如下 2 连续分布如果随机变量可以取连续的数值 则这种随机变量取值的概率规律称为连续分布 对于连续分布我们不能列出所有取值及其对应的概率 只能求出介于某一范围的人数 频率以及概率 因此连续分布的表示方法有别于离散分布 一般采用概率密度函数来表示 当样本的容量及分组逐渐增加时 次数分布图将趋近于一条稳定而连续的曲线 这条曲线就称为连续随机变量的概率密度函数 一般记为f x 2 经验分布与理论分布 1 经验分布经验分布是根据观察或实验所获得的数据而编制的次数分布或相对频率分布 经验分布往往是总体的一个样本的情况 用来反映总体的大致情况 因此经验分布也称为样本分布 2 理论分布理论分布是指根据理论推演出来的随机变量的概率分布模型 它指的是总体的分布规律 与样本分布相对应 正态分布 二项分布 T分布 F分布 2分布 在不同的理论分布中 反映它们特征的参数是不一样的 3 基本随机变量分布与抽样分布 1 基本随机变量分布 2 抽样分布指样本统计量的理论分布 如样本平均数 方差 标准差 相关系数等的分布 抽样分布是随机变量函数的分布中的一种 即是说样本的平均数 方差 标准差 相关系数都是基本随机变量的函数 第二节正态分布 作为概率分布的一种 属于连续型随机变量的概率分布 又称 高斯分布 一 正态分布特征1 正态分布如何形成 1 用某种数学模型 函数计算出来的连续型随机变量的概率分布 2 正态曲线函数 密度函数 Y 3 正态分布形态 解释 x 连续变量的任何一点 取值 x y x的高度 代表x点上无限小区间的频数密度 本课程用的较少 仅在质量相关时用到 为均值 表示分布的集中情况 正态分布的图象即是以它为轴左右对称 正态分布的均值 中数和众数都位于同一点 为标准差 表示分布的离散程度 对于均值相同 标准差越大 则正态分布曲线越低阔 如果标准差越小 则正态分布曲线越高窄 注意 正态分布的平滑的曲线是指密度曲线 而并非次数曲线 从公式可以看出 平均数 标准差都是绝对变化的数量 由于每个正态分布的平均数 标准差和N的不同 正态曲线也不同 如 1 几个平均数相同的正态分布 标准差大的 正态分布形态低阔 标准差小的 正态分布形态高狭 这样 随着平均数 标准差和N的不同 形成一簇不同的正态分布形态 2 若标准差相同 平均数不同 曲线的位置就不一样 所以 一般的正态分布的形态主要受平均数和标准差的影响 标准差决定形态 平均数决定位置 正态分布转化为标准正态分布一组数据中所有数据的Z分数的平均数是0 标准差为1 所有Z分数之和也为0 2 正态分布的特征 包括标准正态分布 1 正态分布的形式是对称的 对称轴是经过平均数点的垂线 Y 0 3989 2 中央点最高 然后逐渐向两侧下降 曲线的形式是先向内弯 再向外弯 3 曲线下的面积为1 左右各位0 5 标准正态分布是正态分布的一种 平均数为0 标准差为1 4 在标准正态分布曲线下 标准差和概率 面积 有一定关系 68 26 的个案落入均值附近正负一个标准差之间 95 的个案会落入值附近正负1 96个标准差之间 99 的个案落入均值附近正负2 58个标准差之间 2008年考研简答题正态分布与标准正态分布的区别与联系 统计 正态分布是常态分布或常态分配 是连续随机变量概率分布的一种 自然界 人类社会 心理和教育中大量现象均按正态形式分布 例如能力的高低 学生成绩的好坏等都属于正态分布 它的特点是 1 正态分布的形式是对称的 对称轴是经过平均数点的垂线 2 中央点最高 然后逐渐向两侧下降 曲线的形式是先向内弯 再向外弯 3 曲线下的面积为1 标准正态分布是正态分布的一种 平均数为0 标准差为1 区别 正态分布是一族分布 它随随机变量的平均数 标准差的大小与单位不同而有不同的分布形态 标准正态分布的平均数和标准差都是固定的 联系 标准正态分布是正态分布的一种 具有正态分布的所有特征 所有正态分布都可以通过Z分数公式转换成标准正态分布 二 标准态分布表的使用 1 看是用何种方法编制 2 查表 1 已知Z值求面积 Z 0到某一Z值之间的P 某一Z值以上或以下的P 两个Z值之间的P 2 已知面积求Z值 Z 0以上或以下某一面积相对应的Z值 正态曲线上端或下端某一面积对应的Z值 正态曲线中央部位某一面积对应的Z值 3 正态曲线的纵线高度 已知z值求纵线高度 已知面积求纵线高度中央面积上端或者下端面积过一半的面积 例题1 某地区成年人身高服从正态分布 其均值是169cm 标准差为7cm 求满足满足以下条件的成人的比例 155cm以下 176cm以上 155cm 176cm之间解 查正态分布 当Z 2时 P 0 47725 当Z 1时 P 0 34134 所以 P1 0 5 0 47725 0 02275 2 275 P2 0 5 0 34134 0 15866 15 866 P3 0 47725 0 34134 81 859 2 某电视机厂某种型号电视机的销售价为2000元 成本为1200元 产品中有一部分可能会在保持期内损坏 因此厂家得免费维修 假设修理费平均而言每台500元 现假设电视机的使用寿命呈正态分布 均值为7年 标准差为3年 问 如果希望每台电视机的平均利润达到750元 厂家应承诺的保修期大概是几年 解 设每台电视机在保修期以内坏的可能性为P 此时每台只能赚2000 1200 500 300元 则超过保质期才坏的可能性为1 P 此时每台可以赚2000 1200 800元 因此有等式 800 1 P 300P 750500P 800 750P 0 10 此处 利用正态分布的对称性 用 0 9 0 5 0 4 查标准正态分布概率表得Z 1 28 实际上X点所对应的Z分数应该是 1 28 因此厂家承诺三年保修期 则每台电视机平均可以赚得750元 请做书后练习195页第10题关于次数分布是否为正态分布的检验方法167页 自学 三 正态分布的应用1 将原始分数转换成标准分数2 确定录取分数线 相当于人群顶端5 的IQ是多少 分布最前面的尾端 p 0 05查表 z 1 65故X 1 65 15 100 124 75 例1 某区对参加数学竞赛的2000人中前500名予以奖励 考试的平均数为75 标准差为9 问授奖的分数线是多少 81 12 例2 某区3600个学生数学测验分数接近正态分布 其平均分为80分 标准差为11 5分 问在70 90之间应当有多少人 占人数的百分比是多少 2217 61 57 3 确定等级评定的人数解决的问题 总共有n个被试 要将他们按某指标 能力 分成K个组 问每个组应各分多少个 才能使不同组在能力上的差异等距 原理 假设平均数左右3个标准差 99 73 覆盖了所有的范围 然后将之均分 对每等级查概率表计算相应的比率 例3 见课后习题13 4 化等级评定为测量分数例4 请将三位教师对40名学生普通话比赛的等级评定转化为数量化分数 并求出A B两个学生平均等级的数量化分数 参见教材169页例题 1 处理等级评价遇到的问题 不同评价者由于各自的标准不同 对同一个心理量进行评定时可能给出不同的等级分数 如何综合评价各评价者的结果 如何比较不同被评者的心理量的差异 转化的前提条件 169页 被评定的心理量从意义上来说应是一个测量数据 而且服从正态分布 凭常识 只是人为地在评定时划分为等级 对于一个具体的样本来说 他们所服从的正态分布是固定的 只是不同评价者对这个正态分布的划分不一样 转化方法 用各等级中点对应的Z分数代表该等级分数 169页 4 步骤 5 确定测验题目的难易程度 回顾统计量不同单位的比较 难易度是表示试题的难易程度的指标 一般用答对者的比例来表示 而百分数不是等距尺度 只是顺序尺度 无法比较不同难易程度题目之间的难度距离 因此也需要将难易百分数转化为难易Z分数 这种转化的原理是 假设试题所测试的被试的心理量呈正态分布 注意 不是教材中所说的 假设一个测验中不同难易测验题目的分布是正态的 即一个测验中通过率较大和较小的题目较少 而通过率居中的题目较多 P171 比如说难易度为84 13 意味着有84 13 的人通过 查正态表P 34 13 时Z 1 转化回原分布 即相当于平均数以下1个标准差处 即能力水平在平均水平以下一个标准差单位以上的所有被试都能通过该题 因此难易度P 84 13 转化成难易Z分数为 1 通过率应放在正态分布最上端 转化时为了避免出现负数 常常对Z分数进行变换 即加上5 即假设总共左右5个标准差范围 同时也使最后的数据满足10分制 符合我们的习惯 在正态分布图上99 的通过率意味着比95 的通过率所占的面积大 Z分数的位置低 参见教材171页例题 6 T分数或次数分布的正态化用于总体服从正态分布 但样本由于取样的原因不服从正态 因此希望将原始分数分布转化为正态分布 其具体方法见教材 注意将 T分数 和在标准分一节所讲的 测验分数 的转化方法进行了比较 这两种分数很容易混淆 教材175页有分析 第三节二项分布 作为概率分布的一种 属于离散型随机变量的概率分布 又称 贝努里分布 基本随机变量分布一 二项分布的特征1 二项分布的形成 1 二项实验一次实验只有两种可能结果 即成功与失败各次实验相互对立 即各次实验之间不相互影响各次实验成功的概率相等 失败的概率也应该相等 2 二项分布实验仅有两种不同性质结果的概率分布 又可以说是两个对立事件的概率分布 3 二项分布的函数b x n p Cxnpxqn x x 0 1 n 二 二项分布的性质1 二项分布是离散型分布 概率分布图是直方图 X是不连续的变量 用概率条图更好 与正态分布不同 2 以事件A出现的次数为横坐标 以概率为纵坐标 画出二项分布的图象 可以看出 p q 0 5时 图象对称 P q时 呈偏态 如果n很大 偏态降低 接近正态 二项分布的极限是正态分布 当p q且np 5 或者p q nq 5 可以看作近似的正态分布 3 如果接近正态 二项分布的X变量成功的次数 均值为np 方差为npq 三 二项分布的应用1 成功事件恰好出现X次的概率 2 判断实验结果机遇性与真实性的界限属于二项分布的问题 如果实验次数n较大 一般都用正态分布近似处理 例3 教材P182例6 6 有正误题10题 问 答对多少题才能认为不是完全凭猜测做题 解 首先假设是完全凭猜测来做题 因此对每一题来说 做对做错的可能性一样 因此p q 0 5 可以计算得 做对8题及以上题数的可能性为 b 8 10 0 5 b 9 10 0 5 b 10 10 0 5 0 0547 5 第四节抽样分布 一 什么是抽样分布区分三种性质不同的分布总体分布 总体内各体数值的频数分布样本分布 样本内个体数值的频数分布抽样分布 样本的某一统计量的概率分布 同书上的样本分布 从同一总体取3次不同样本 每一个都不同 不同形状 不同均值 不同方差 如何对总体均值作出最佳估计 1 样本统计量的概率分布 平均数 标准差 方差 相关系数 平均数之差 百分比率等等 2 实际上 实验性的抽样分布只是为了容易理解 事实不存在的 抽样分布只是一个理论的概率分布 二 样本统计量的数字特征 仅以样本平均数为例 一切可能样本平均数的平均数等于母总体的平均数 表示为 EX 一切可能样本的平均数的方差等于母总体方差的n分之一 表示为 2X 2 n 3 一切可能样本平均数的标准差等于总体标准差的 n分之一 SEX n样本平均数的在抽样分布上的标准差称为样本平均数的标准误 记为SE standarderrorofx SE 标准误的解释 样本平均数的标准误是形容与 的标准距离 1 标准误是反映抽样误差的量 实质就是标准差 某种统计量在抽样分布上的标准差 就称为该统计量的标准误 如 2 这个统计量的主要目的和用途是告诉我们样本平均数对总体均值的估计是否准确 换言之 取样误差是多大 3 取样误差 任何一个样本的统计量 如样本平均数 可能大于或小于总体参数 如均值 这是遵循随机化的取样误差造成的 标准误越小 一切可能样本的小平均数之间差异小 比较集中 取样比较均匀 说明样本统计量与总体参数值越接近 抽样误差小 那么样本对总体越有代表性 所以 标准误是总体推断可靠性指标 4 怎样使标准误小 标准误的数值取决于两个特征 总体方差和样本容量两个特征合并起来 就是标准误的定义公式1 总体标准差 方差 总体标准差 方差 越大 样本平均数的标准差 方差 越大 总体标准差大 一切可能的样本平均数与总体均值的差异大 总体标准差小 一切可能的样本平均数与总体均值的差异小 2 样本容量 如果随机抽取1个学生 用这个学生的分数预测总体分数的准确性怎样 如果随机抽取5个学生 会不会更准确些 如果随机抽取100个学生呢 中心极限定律 CentralLimitTheorem 对于任何均值为 标准差为 的总体 样本容量为n的样本均值的分布 随着n趋近无穷大时 会趋近均值为 标准差为 n的正态分布怎样把样本平均数用标准分数表示 三 样本统计量的分布规律 以样本平均数为例 1 为正态或渐进正态的情况 若总体方差已知 总体呈正态分布 样本平均数的分布也呈正态分布 若总体方差已知 总体为非正态分布 只要样本容量n足够大 30 则样本平均数的分布也趋近正态分布 2 t分布 1 若总体方差未知 总体呈正态分布 样本平均数的分布呈t分布 2 若总体方差未知 总体为非正态分布 只要样本容量n足够大 30 则样本平均数的分布也趋近t分布 可见 Z分布和t分布的主要区别是考察总体方差是否已知 对于第2条的第 2 点 如果n足够大 此时的t分布近似Z分布 四 t分布概率分布的一种 高赛特 1908提出 又叫学生氏分布 应用条件 1 若总体方差未知 总体呈正态分布 样本平均数的分布呈t分布 2 若总体方差未知 总体为非正态分布 只要样本容量n足够大 30 则样本平均数的分布也趋近t分布 1 t分布的特点注意与正态分布相比较 1 相同 以平均数为0左右对称的分布 左侧t值为负 右侧t值为正 曲线以平均数处为最高向两侧下降 尾部不断延伸 呈单峰分布 变量取值在 之间 曲线与横轴包围的面积为1 2 不同 分布的形态更高狭 标准Z分布不管n的大小 分布的曲线只有 条 而t分布的曲线形状与样本n有关 随样本n的大小而变化 是一簇分布 标准正态分布表的P值由Z和Y决定 三者精确地一一对应 而t分布 附表2 只有几个比较重要的P值 而且随df n 1 变化 思考 当总体方差未知时 样本平均数的平均数和样本平均数的标准误应该怎样表示 注 df的解释 自由度 总体参数估计量中变量值独立自由变化的个数 自由度的产生利用样本统计量估计总体参数时 自由度等于样本容量减去限制因子的个数 还有一种方法就是看总体参数估计量中运用
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 合肥市人民医院臀位助产术专项技能准入考核
- 漳州市中医院动脉粥样硬化评估技术考核
- 银监会面试模拟题(带答案)(2篇)
- 临床执业医师A1型题-试卷7-真题-无答案
- 土地流转合同证明协议
- 土地承包合同取消协议
- 场地安全租赁合同协议
- 家政接娃服务合同范本
- 2024-2025学年湖北省荆门市高二下学期6月期末考试生物试题(解析版)
- 围墙护栏转售合同范本
- 创伤性凝血病课件
- 2022年广西普通高中学业水平合格性考试语文学科试卷结构及参考样卷
- 员工在职证明官方范本标准
- (完整)公共卫生基本知识考试题题库及答案
- 纸箱生产车间风险辨识清单
- 《农村集体经济组织财务制度》全文重点内容学习2022ppt讲解课件
- 装修材料燃烧性能等级表
- 细胞的分化公开课学案
- 国家开放大学电大本科《环境水利学》期末试题及答案
- 消化内科十一五发展规划
- 《热传递》科学创新实验
评论
0/150
提交评论