概率统计(二).ppt

上传人：q*** IP属地：河南上传时间：2020-02-21 格式：PPT 页数：90 大小：2.80MB 积分：24 举报 版权申诉

已阅读5页，还剩85页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

概率统计二参数估计与假设检验任课教师邢灵博Tel1 统计学分为两类描述统计和推断统计描述统计是通过图表或数学方法对数据资料进行整理分析并对数据的分布状态数字特征和随机变量之间关系进行估计和描述的方法 2 推断统计根据样本所包含的信息来建立关于总体的种种结论 3 统计推断包括两类问题统计估计和假设检验 4 参数估计点估计和区间估计 1 总体研究对象的全体如一批灯泡 2 个体组成总体的每个元素如某个灯泡 3 总体的容量总体中所包含的个体的个数抛开实际背景总体就是一堆数这堆数中有大有小有的出现机会多有的出现的机会少因此用一个概率分布来描述和归纳总结总体是恰当的从这个意义看总体就是一个分布而其数量指标就是服从这个分布的随机变量 4 总体的随机样本从总体中随机抽取的n个个体的集合 n称为样本容量样本中的个体称为样品随机样本具有所谓的两重性一方面由于样本是从总体中随机抽取的抽取前无法预知它们的数值因此样本是随机变量用大写字母X1 X2 Xn表示另一方面样本在抽取以后经观测就有确定的观测值因此样本又是一组数值此时用小写字母x1 x2 xn表示是恰当的它们被称为是样本值统计学分为两大类描述统计和推断统计一描述统计中位数将一组数据按照大小顺序排列如果数据的个数是奇数则处于中间位置的一个数是这组数据的中位数如果数据的个数是偶数则处于中间位置的两个数椐的平均数就是这组数据的中位数这组数据的中位数例如 50060060060060065075080090020003000 中位数的作用和意义中位数也是用来描述数据的集中趋势的它是一个位置代表值如果知道一组数据的中位数那么可以知道小于或大于这个中位数的数据约各占一半频数频率分布表样本数据的整理是统计研究的基础整理数据的最常用方法之一是给出其频数分布或频率分布表直方图横坐标表示所关心变量的取值区间纵坐标表示频数这样就得到频数直方图若把纵轴改成频率就得到频率直方图练习为研究某厂工人生产某种产品的能力我们随机调查了20名工人某天生产的该种产品的数量数据如下使用SPSS软件对这20个数据样本进行整理绘出频数直方图定义设为取自总体X的样本将其按大小顺序排序则称X k 为第k个次序统计量 No kOrderStatistic 特别地称为最小顺序统计量 MinimumorderStatistic 称为最大顺序统计量 MaximumorderStatistic 次序统计量总体分位数与样本分位数一总体分位数定义5 3 2 设总体X的分布函数为F x 满足 5 3 7 的x 称为X的分位数如下图所示的几个的常用值如 0 0 25 0 05 0 1 0 9 0 95 0 975等等二样本分位数定义设为取自总体X的次序统计量称mp 为样本p分位数 Samplep Quantile 特别地当p 时称mp为样本中位数五数概括与箱线图次序统计量的应用之一就是五数概括与箱线图在得到有序样本后容易计算如下五个值最小观测值xmin x 1 最大观测值xmax x n 第一4分位数Q1 m0 25中位数Q2 m0 5 第三4分位数Q3 m0 75 所谓五数概括就是指用这五个数来大致描述一批数据的轮廓例下表是某厂160名销售人员某月的销售量数据的有序样本由该批数据可计算得到五数概括的图形表示称为箱线图由箱子和线段组成下图是该例中样本数据的箱线图其作法如下下面就通过一个具体的实例说明之表某厂160名销售员的月销售量的有序样本 1 画一个箱子其两侧恰为第一4分位数和第三4分位数在中位数位置上画一条竖线它在箱子内这个箱子包含了样本中50 的数据图5 11月销售量数据的箱线图 2 在箱子左右两侧各引出一条水平线分别至最小值和最大值为止每条线段包含了样本中25 的数据箱线图可用来对数据分布的形状进行大致的判断图5 12给出三种常见的箱线图分别对应对称分布左偏分布和右偏分布左斜的对称的右斜的图5 12三种常见的箱线图及其对应的分布轮廓如果我们要对几批数据进行比较则可以在一张纸上同时画出这批数据的箱线图下图是某厂20天生产的某种产品的直径数据画成的箱线图从图中可以清楚地看出第17天的产品出现了异常二统计量常用统计量 1 样本均值 2 样本方差偏差平方和区间估计能够反映出估计的精度三区间估计置信区间今抽9件测量其长度得数据如下单位 mm 142 138 150 165 156 148 132 135 160 解例例某地一年级12名女大学生体重与肺活量的数据如下见corr sav 问该地一年级女大学生的体重与肺活量的相关系数是多少两者是否存在线性相关关系正相关还是负相关计算可以知道该地12例的一年级女大学生的体重和肺活量之间呈正相关相关系数是0 741 四假设检验但我们不能由此就判断该地的一年级女大学生的体重和肺活量之间呈正相关相关系数是0 741 事实上由于这12例只是总体中的一个样本由此得到的相关系数会存在抽样误差若总体相关系数为零由于抽样误差从总体抽出的样本所计算出来的相关系数r可能不等于零因此就要对r进行假设检验判断r不等于零是由于抽样误差所致还是两个变量之间确实存在相关关系具体方法见相关分析 pdf 假设检验 hypothesistesting 是在样本的基础上对总体的某种结论作出判断的一种方法它是统计推断的重要组成部分分为参数假设检验和非参数假设检验对总体分布中未知参数的假设检验称为参数假设检验而对未知分布函数的类型或其某些特征提出的假设称为非参数假设检验例某切割机在正常工作时切割每段金属棒的平均长度为10 5cm 标准差是0 15cm 今从一批产品中随机的抽取15段进行测量其结果如下假定切割的长度X服从正态分布且标准差没有变化试问该机工作是否正常数学期望均值方差拒真概率受伪概率假设检验的步骤例某切割机在正常工作时切割每段金属棒的平均长度为10 5cm 标准差是0 15cm 今从一批产品中随机的抽取15段进行测量其结果如下假定切割的长度服从正态分布且标准差没有变化试问该机工作是否正常解即样本观测值落入接受域接受原假设这是方差已知的条件下的双边检验问题使用z统计量根据题目给出的数据有z 例某地一年级12名女大学生体重与肺活量的数据如下见corr sav 问该地一年级女大学生的体重与肺活量的相关系数是多少两者是否存在线性相关关系正相关还是负相关本例使用SPSS判断的具体方法见相关分析 pdf 五均值比较统计分析常常采取抽样研究的方法即从总体中随机抽取一定数量的样本进行研究来推断总体的特性由于总体中的每个个体间均存在差异即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同又由于实验者测量技术的差别或测量仪器精确程度的差别等等也会造成一定的偏差使样本统计量与总体参数之间存在差异由此可以得到这样的认识均值不相等的两组样本不一定来自均值不同的总体能否用样本均值估计总体均值两个变量均值接近的样本是否来自均值相同的总体换句话说两组样本某变量均值不同其差异是否具有统计意义能否说明总体差异这是各种研究工作中经常提出的问题这就要进行均值比较进行均值比较及检验的过程 MEANS过程不同水平下不同组的描述统计量如男女的平均工资各工种的平均工资目的在于比较术语水平数指分类变量的值数如sex变量有2个值称为有两个水平单元Cell 指因变量按分类变量值所分的组水平组合Ttest过程对样本进行T检验的过程单一样本的T检验检验单个变量的均值是否与给定的常数之间存在差异独立样本的T检验检验两组不相关的样本是否来自具有相同均值的总体均值是否相同如男女的平均收入是否相同是否有显著性差异配对T检验检验两组相关的样本是否来自具有相同均值的总体前后比较如训练效果治疗效果 One WayANOVA 一元单因素方差分析用于检验几个三个或三个以上独立的组是否来自均值相同的总体一利用SPSS做单个样本的T检验如果已知总体均数进行样本均数与总体均数之间的差异显著性检验属于单一样本的T检验在SPSS中单一样本的T检验由 One SampleTTest 过程来完成例某厂生产的某种铝材的长度服从正态分布其均值设定为240cm 现从该厂抽取5件产品没得其长度的数据见铝材长度 sav 试判断该厂此类铝材的升度是否满足设定要求本例是方差未知时关于正态均值的双侧假设检验问题原假设为H0 240 备择假设为 H1 在SPSS中执行Analyze CompareMeans One SampleTTest命令打开对话框将铝材长度变量选入testvariable s 对话框在testvalue处输入240 并在options选项中确定置信水平点击OK t值为 2 795 相伴概率 sig 为0 049 小于显著性水平0 05 说明产品的长度与设定均值有显著差异认为该厂生产的铝材不满足设定要求二利用SPSS做独立样本的T检验 Independent SampleTTest过程见两独立样本T检验 pdf 对于相互独立的两个来自正态总体的样本利用独立样本的T检验来检验这两个样本的均值和方差是否来源于同一总体在SPSS中独立样本的T检验由 Independent SampleTTest 过程来完成例在某康健医院中测得有11例克山病患者与13名健康人的血磷值如下表所示请问该地急性克山病患者与健康人的血磷值是否不相同数据见血磷值 sav 1 首先新建立变量血磷值和 group 对两种类型的人进行分组 1代表克山病患者 2代表健康人 2 使用SPSS进行检验 3 点选Definegroups 在Group1中输入表示第一组的 1 在Group2中输入表示第二组的 2 之后点 Continue 4 点选Options 输入置信度 OK 这里使用的置信度为95 显著性水平为0 05 5 得到结果进行分析这一部分为Levene s方差齐性检验用于判断两总体方差是否具有方差齐性其中F 0 032 相伴概率sig 为0 860大于显著性水平0 05 因此接受原假设认为克山病患者与健康人的血磷值具有方差齐性由于克山病患者与健康人的血磷值具有方差齐性因此看输出结果的 Equalvariancesassumed 这一行对应的t值可知t 2 524 自由度为22 相伴概率sig 为0 019小于显著性水平0 05 拒绝原假设认为克山病患者与健康人的血磷值具有显著差异 6 再回到下表进一步得到结论从而最终的统计结论为按 0 05水准认为克山病患者与健康人的血磷值不同上表中样本均数来看可认为克山病患者的血磷值较高三利用SPSS做配对样本T检验 Paired SamplesTTest过程见配对样本T检验 pdf 数据文件为pair sav 结果输出文件为 pair 配对样本T检验分析结果 spo 四利用SPSS做方差分析 One WayANOVA过程方差分析是英国大统计学家费歇尔 R A Fisher 在20世纪20年代创立的起初用于农田间试验结果的分析随后迅速发展完善被广泛应用于在工农业生产经济管理领域工程技术和科学研究中方差分析是研究分类变量对数值型变量的影响从形式上看方差分析是比较多个总体均值是否相等但本质上它所研究的是变量之间的关系 1 方差分析中的基本概念在实际问题中影响一个数值型随机变量的因素一般会有很多例如影响农作物产量的因素就有种子品种肥料雨水等影响化工产品的产出率的因素可能有原料成分剂量催化剂反应温度机器设备和操作水平等等为了找出影响结果效果最显著的因素并指出它们在什么状态下对结果最有利就要先做些试验然后对测试的数据进行统计推断方差分析就是对实测数据进行统计分析鉴别各个因素对试验结果影响程度的方法方差分析采用的方法是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量响应变量是否有显著影响由于检验各总体的均值是否相等的方法是通过计算分析观测数据的变差而实现的所以称之为方差分析当方差分析中只涉及一个分类型自变量时称为单因素方差分析当涉及两多个分类型自变量时称为双多因素方差分析例1 某化肥生产商要检验三种新产品的效果在同一地区选取18块大小相同土质相近的农田中播种同样的种子用等量的甲乙丙化肥各施于六块农田试验结果每块农田的粮食产量如下所示试根据试验数据推断甲乙丙三种化肥的肥效是否存在差异单因素方差分析本例中只考虑化肥这一个因素记为A 对粮食产量的影响三种不同的化肥称为该因素的三个不同水平分别记为A1 A2 A3 从表中数据看出即使是施同一种化肥由于随机因素温度湿度等的影响产量也不同因而有 1 粮食产量是随机变量是数值型的变量 2 把同一化肥 A的同一水平得到的粮食产量看作同一总体抽得的样本施用不同化肥得到的粮食产量视为不同总体下抽得的样本表中数据应看成从三个总体X1 X2 X3中分别抽了容量为6的样本的观测值推断甲乙丙三种化肥的肥效是否存在差异的问题就是要辨别粮食产量之间的差异主要是由随机误差造成的还是由不同化肥造成的这一问题可归结为三个总体是否有相同分布的讨论由于在实际中有充分的理由认为粮食产量服从正态分布且在安排试验时除所关心的因素这里是化肥外其它试验条件总是尽可能做到一致这使我们可以认为每个总体的方差相同即Xi N i 2 i 1 2 3因此推断三个总体是否具有相同分布的问题就简化为检验几个具有相同方差的正态总体均值是否相等的问题即只需检验H0 1 2 3 象这类检验若干同方差的正态总体均值是否相等的一种统计分析方法称为方差分析 2单因素方差分析的数学模型进行单因素方差分析时需要得到如表2所示的数据结构表2单因素方差分析中数据结构表中用A表示因素 A的m个取值称为m个水平分别用A1 A2 Am表示每个水平对应一个总体从不同水平总体中抽出的样本容量可以相同也可以不同若不同水平抽出的样本容量相同则称为均衡数据否则称非均衡数据设xij表示第i个总体的第j个观测值 j 1 2 ni i 1 2 m 由于 i 1 2 m单因素方差分析模型常可表示为 xij i ij 相互独立 1 i m 1 j ni 其中 i表示第i个总体的均值 ij为随机误差 ij N 0 2 各 ij相互独立 3 方差分析的方法对不同水平下均值是否相同的检验H0 1 2 m H1 1 2 m不全相等下面简单介绍检验统计量及检验方法以表示所有xij的总平均值表示第i组数据的组内平均值即其中n n1 n2 nm 统计量称为总离差平方和或简称总平方和它反映了全部试验数据之间的差异另外反映了每组数据均值和总平均值的误差称为组间离差平方和简称组间平方和或称因素A平方和反映了组内数据和组内平均的随机误差称为组内离差平方和或称为误差平方和可以证明SST SSMA SSE构造检验统计量可以证明在H0成立下可以证明对给定显著性水平 0 1 H0的拒绝域为若由观测数据xij j 1 2 ni i 1 2 m 计算得到F的观测值为F0 当F0落入拒绝域时拒绝原假设H0 可以认为因素A对响应变量有显著影响否则不能拒绝H0 认为因素A对响应变量无显著影响另外 F统计量的P值为P P F F0 在显著水平下若P P F F0 则拒绝原假设H0 可以认为所考虑的因素对响应变量有显著影响否则不能拒绝H0 认为所考虑的因素对响应变量无显著影响通常将上述计算结果表示为方差分析表利用方差分析表中的信息就可以对因素各水平间的差异是否显著做出判断实验1 利用SPSS对例1做方差分析 1 在SPSS中输入18块地的亩产量数据并根据所施化肥进行分组 1表示甲化肥 2表示乙化肥 3表示丙化肥 2 打开菜单 Analyze Comparemeans one WayANOVA 将亩产量选入DependentList 化肥选入Factor 3 打开菜单PostHoc 指定一种多重比较检验方法和水准 PostHoc对话框该对话框用于设置多重比较和配对比较方差分析一旦确定各组均值间存在差异显著多重比较检测可以求出均值相等的组配对比较可找出和其它组均值有差异的组并输出显著性水平为0 05 默认的均值比较矩阵在矩阵中用星号表示有差异的组在 PostHoc 按钮对话框中分为EquarVariancesAssumed复选框组一组当各组方差齐时可用的两两比较方法共有14种其中最常用的为LSD和S N K法注 1 LSD Least significantdifference 最小显著差数法用t检验完成各组均值间的配对比较对多重比较误差率不进行调整 2 S N K Student Newmnan Keuls 用StudentRange分布进行所有各组均值间的配对比较在该比较过程中各组均值从大到小按顺序排列最先比较最末端的差异在 PostHoc 按钮对话框中分为EquarVariancesNotAssumed复选框组一组当各组方差不齐时可用的两两比较方法共有4种其中以Dunnetts sC法较常用注 1 Tamhane sT2 t检验进行配对比较 2 Dun

人人文库> 全部分类> 专业文献 > 金融证券

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

概率统计(二).ppt

文档简介

温馨提示

最新文档

评论

概率统计(二).ppt

文档简介

温馨提示

最新文档

评论

相关文档