第07章抽样分配-1.ppt_第1页
第07章抽样分配-1.ppt_第2页
第07章抽样分配-1.ppt_第3页
第07章抽样分配-1.ppt_第4页
第07章抽样分配-1.ppt_第5页
已阅读5页,还剩100页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第七章采样分配、一般统计推论分为估计和检定两个领域,估计分为点估计和置信区间两部分,7.1估计和误差,生态学家认为南极海域的鲸鱼处于灭绝的边缘,所以想知道现在的鲸鱼库存量,在这个问题上, 抹香鲸的库存是我们感兴趣的“参数”,参数(抹香鲸库存)有多少可能的方法之一,提取南极海域的水后,数一下,有几条尾鲸鱼可能的方法是用统计方法得到资料并进行推算例7.1、南极海域白鲸的库存量的推定、南极海域白鲸的捕获量越来越少的捕鲸协会想研究南极白鲸的库存量吗? 方法1、捕获量比较法首次捕获270尾,第二次捕获243尾,减少10%。 本来估计为270/0.1=2700尾,但现在变成了2187尾。 方法2、符号法首次捕获鲸鱼150尾,加符号返回。 第二次再捕获100尾,其中有6尾有记号。 根据鲸鱼库存的推算,推算和误差,男生的比例,有大学有6672名学生,有教授想知道这所大学里男生的比例。 在某处对经过的学生进行了观察,100人中有40名女学生,60名男学生,因此,全校男学生的比例估计为0.6。 实际上,全校学生中有男3091人、女3581人,所以母体参数男的比例为=3091/66720.46,该教授估计男的比例为0.6。 抽样误差,其差在0.14是抽样误差引起的,在同一角落多次看到(每次100人),男女的出生比例也不同。 这种采样引起的误差被称为“采样误差”,是“随机性”,并天生存在。 为了得到采样误差的数据,这需要多次(例如几千次、数万次)。 假设这位教授之后观察了10天,每天在同一角落观察100名学生。 10次看的男性人数分别为58506261465055525351次,平均为54人,估计男性的比例为0.54。 男性的比例为0.60,估计两者的差异为0.60-0.54=0.06。 方法的偏差,这个教授在这个角落观察过去的学生,这个提取方法也有可能引起偏差,这个角落可能接近男子宿舍,男子的通过率高是偏差的原因。 每个学生(不论男女)通过这个角落的机会均等的话,男性的比例是母体的比例0.46。 实际上,因为男性通过这个角的机会很大,所以看男性的比例是0.54。 这两者的差异是0.54-0.46=0.08,方法偏差。 在通过、0.60 (估计值)=0.46 (参数) 0.08 (方法偏差) 0.06 (采样误差)、7.2采样平均的分配、随机采样获得了一组数据x1、xn之后,最常计算的两个统计量是采样平均采样标准偏差s, 由于数据从同一母体采样,但每次提取的n个样本不同,所以计算出的样本平均、标准偏差s也不同,所以我们把s称为“随机变量”,由于每采样计算出的s不同,所以知道s的采样分布长度像全国成年男性(约600万人)的平均身高是多少厘米?600万人的身高直方图,第一组样本100位的身高数据,样本平均=168.8,标准偏差s=6.3。 根据这样的结果进行母体平均的推定,推定误差为-=169.5-168.8=0.7 (厘米),第二组样品100位的身高数据,样品平均=171.3,标准偏差s=6.8。 假设第二组样本的平均值=171.3,全国所有成年人的平均身高的估计,估计误差为-=169.5-171.3=-1.8,是随机变量,根据上述两次样本结果,每个样本的资料发生变动(因此xi被称为随机变量 ) 已知样品的平均值也变动(因此也是随机变量),所以估计误差也不确定,样品分布,(1)该直方图成为对称的钟型(即正态分布)。 (2)该直方图的中心点(即直方图最高的部分)在169.5附近。(3)该直方图比原来的身高600万人描绘的直方图集中在中心点附近,也就是说这些标准偏差比原来的母体Xi的标准偏差小。 (4)这10,000个的平均标准偏差为0.653小于原母体(600万人的身高)的标准偏差6.5,约为1/10。 1 .误差在1厘米以内的机会是? 采样误差、2 .估计误差在1.3厘米以内的概率是? 抽样误差、3 .控制估计误差在1厘米以内的机会为95%时,应该取多少样本,可靠度、全国成年女性610万人的身高分布、7.3定律、中央极限定理、正态分布在理论上有很多好的结果,统计学上总是假定资料是正态分布比如经常听正规级、正规模型、正规曲线等假说的根据是什么?中央极限定理的功劳、中央极限定理、中央极限定理,(1)“原来的母体是什么分配”,母体资料可以是连续型或离散型、对称型或非对称型、右偏或左偏,也可以是单峰或多峰无论样本数量如何,代表资料中心点的样本数量的期待值都与原来的母体分配的期待值相同,(I )常态母体、(ii )右偏置母体、(iii )均匀母体、(iv )两个分配母体、7.4样本数量的决定、误差边界所需的样本数量n、例95%自信水平e 在上面的示例中,误差e=1,但是当要求误差下降到e=0.5时,样本数需要增加到4162.3=650位。 (2)可靠性越大(即越小),样本数也越多。 (3)标准偏差越大,要求的样本数也越多。 在实务上,通常不知道。 因此,需要用其他方法进行概算。 例如主观估计=7.2,或者主观上全国最高200厘米,最低150厘米,总距离50厘米,总距离约8厘米,8=50,增益=6.25。 也可以提取几个样本(例如,10个)以计算和估计样本的标准偏差s,并根据公式(7.9 )获得样本数n。 7.5样本变异数的分布和卡方分布,卡方分布,卡方分布密度函数,图7.11卡方分布密度函数图,标准正态,而非一般正态平方和,是卡方分布吗? 答案是样本变量的分布,其不是标准正规的,而是由一般的正规平方和构成,答案:其自由度成为n-1,是因为参数被估计值取代,所以牺牲了自由度,样本变量的分布不是正规的,而是偏向右侧的卡方分布,例7.2 得到x1、x2、x3、x4,计算这样的权重得到10000次10000件数据,其直方图、卡方分配表、图7.13的几何意义、附表、卡方分配的应用、卡方分配主要用于检定(检定定义为第8章),有资料的分配(另外,当母体标准偏差未知时,要统计推论母体平均m,就需要使用样本变量的分配,导出在7.6和7.7节中讨论的t分配和f分配。7.6t分配、“自由度k的t分配定义、自由度n-1的t分配、自由度k的t分配的密度函数、图7.14t分配密度函数图、注、(i)t分配为对称模式,其形状与正规分配相似,但向两侧的下降速度比正规分配慢。 (ii )自由度k越大,t分配越接近标准正规分配。t分配表、t附表、注、7.7F分配、f分配的密度函数、图7.17F分配表、f分配表、f分配表、第7章摘要、1 .要估计母体的参数,需要采样(一般不调查、原因费工夫),采样的估计值与母体的参数不相同其关系式是估计值=参数方法偏差采样误差,2 .方法偏差,方法偏差是人为过失,例如由方便资料等引起的偏差。采样误差是自然因素,但对资料的认知也可以降低误差。 例如,采用分层随机采样代替简单的随机采样可以减少采样误差,了解采样数量的确定、4 .中央极限定理的意

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论