数据分析方法2(1估计)_第1页
数据分析方法2(1估计)_第2页
数据分析方法2(1估计)_第3页
数据分析方法2(1估计)_第4页
数据分析方法2(1估计)_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

统计推断从数据得到对现实世界结论的过程估计总体代表我们所关心的那部分世界。而在利用样本中的信息来对总体进行推断之前人们往往对代表总体的变量假定了分布族。(描述数据时不用假定)比如假定人们的身高属于正态分布族;在抽样调查时假定了二项分布族等等(这些假定可能有风险!)。这些模型基本上是根据“经验”来假定的,仅仅是对现实世界的一个近似。估计

在假定了总体分布族之后,进一步对总体的认识就是要在这个分布族中选择一个适合于我们问题的成员。由于分布族成员是由参数确定的,如果参数能够估计,对总体的具体分布就知道得差不多了。估计量是用来估计的统计量

我们知道,统计量是样本的不包含未知参数的函数。样本均值、样本标准差都是统计量。由于样本是随机的,统计量也是随机变量。用于估计总体参数的统计量称为估计量;样本均值和标准差都是总体均值和标准差的常用估计量。点估计和区间估计点估计(pointestimation)就是用估计量的实现值来近似相应的总体参数。区间估计(intervalestimation)是包括估计量在内的一个区间;被认为很可能包含总体参数。点估计给出一个数字,用起来很方便;而区间估计给出一个区间,说起来留有余地;不象点估计那么绝对。区间估计

注意:置信区间的论述是由区间和置信度两部分组成。置信区间是对参数给出的一个范围置信度为其可信程度有些新闻媒体报道一些调查结果只给出百分比和误差(即置信区间),比如“收视率为53%±3%”;

不给出置信度,也不给出被调查的人数。这是不负责的表现!!!区间估计

降低置信度可以使置信区间变窄(显得“精确”),有误导读者之嫌。如果给出被调查的人数,则内行可以由此推算出置信度,反之亦然。一个描述性例子

一个有10000个人回答的调查显示,同意某种观点的人的比例为70%(有7000人同意),可以算出总体中同意该观点的比例的95%置信区间为(0.691,0.709);另一个调查声称有70%的比例反对该种观点,还说总体中反对该观点的置信区间也是(0.691,0.709)。

一个描述性例子实际上,第二个调查隐瞒了置信度(等价于隐瞒了样本量)。如果第二个调查仅仅调查了50个人,有35个人反对该观点。根据后面的公式可以算出,第二个调查的置信区间的置信度仅有11%。区间估计的意义

置信度的概念是基于大量重复抽样时的一个渐近概念。类似于“我们目前得到的置信度为95%的置信区间(比如上面的75%±3%)以概率0.95覆盖真正的比例p”的说法是错误的。实际上应该说“重复类似的抽样所得到的大量区间中有大约95%的覆盖真实比例(其值可能永远未知)。区间估计的意义

这里的区间(72%,78%)是固定的,而总体比例p也是固定的值。因此只有两种可能:或者该区间包含总体比例,或者不包含;这当中没有任何概率可言。至于区间(72%,78%)是否覆盖真实比例,除非一个不漏地调查所有的人,否则永远也无法知道。均值m的区间估计(正态分布)总体标准差s已知总体标准差s未知区间估计的例子(1)例5.1

(数据:noodle.txt,noodle.sav,noodle.sas7bdat)某厂家生产的挂面包装上写明“净含量450克”。在用天平称量了商场中的48包挂面之后,得到样本量为48的关于挂面重量(单位:克)的一个样本(我们假定,挂面重量所代表的总体分布服从正态分布):449.5461.1457.5444.7456.1454.7441.5446.0454.9446.2457.3446.1456.7451.4452.5452.4442.0452.1452.8442.9449.8452.4458.5442.7447.9450.5448.3451.4449.7446.7441.7455.6442.9451.3452.9457.2448.5444.5443.1442.3439.6446.5447.2445.8449.4441.6444.7441.4w=scan("D:/booktj1/data/noodle.txt");hist(w,10)summary(w):

Min.1stQu.MedianMean3rdQu.Max.439.6444.6448.9449.0452.6461.1SPSS:分析——描述统计——探索不同样本量和不同置信度的置信区间的长短和覆盖状况例5.2(数据:height2.txt,height2.sav,height21.sav,)这是两个地区大学生的高度数据;这里,我们假定身高服从正态分布。在height2.sav数据中这两个地区学生的高度分别用变量x1和x2表示。而在height21.sav数据中,它们为一个变量height,但用另一个变量group来标明它们属于哪个地区。区间估计的例子(2)

(a)我们想要分别得到这两个总体均值和标准差的点估计(即样本均值和样本标准差)和各自总体均值的95%置信区间。利用height2.sav,SPSS得到:作为两个总体均值估计量的样本均值分别为170.56和165.60,而样本标准差分别为6.97857和7.55659;还得到均值的置信区间分别是(168.5767,172.5433)及(163.4524,167.7476)。(计算机输出很容易明白,这里不显示。)(b)求两个均值差m1-m2的点估计和95%置信区间。根据数据height2.sav,利用软件很容易得到下面结果区间估计的例子(2)

输出表的头两列是检验(见下面一章的检验)是否方差相等,如果Sig下面的数目(下一章的p值概念)较大(比如大于0.05)则没有证据认为这两个数据总体的方差不等,则看表的第一行结果,否则认为方差不等,则看表的第二行结果。这里Sig(p值)等于0.556,因此看第一行结果。于是,我们得到两个样本均值的差(4.9600),另外还给出了两总体均值差的95%置信区间(2.073,7.847)。总体比例(Bernoulli试验成功概率)p的区间估计(大总体、大样本)例3.在一个大都市中对1341人的随机调查结果显示,有934个人支持限制小轿车的政策。假定该样本为简单随机样本,希望找出总体中支持限制小轿车的人的比例的点估计及其置信度为95%的置信区间。n=1341;x=934CI1=function(n,x,alpha){p=x/n;za=qnorm(alpha/2,low=F)a=sqrt(p*(1-p)/n);b=za*a;L1=p-b;L2=p+b;list(1-alpha,L1,L2)}CI1(n,x,.05)得到(0.672,0.721)总体比例(Bernoulli试验成功概率)之差

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论