《概率论与数理统计(第二版)》第三章数据处理与参数估计_第1页
《概率论与数理统计(第二版)》第三章数据处理与参数估计_第2页
《概率论与数理统计(第二版)》第三章数据处理与参数估计_第3页
《概率论与数理统计(第二版)》第三章数据处理与参数估计_第4页
《概率论与数理统计(第二版)》第三章数据处理与参数估计_第5页
已阅读5页,还剩120页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

概率论与数理统计

数据处理与参数估计

王刚是新上任的人力资源部经理,他想了解公司员工的收入状况,于是随机调取了9位员工的月工资单,数据如下(单位:元):3770,4500,3650,3780,3880,3960,3750,3800,3470该如何处理这些数据呢?收入情况分析

数据处理与参数估计

数据处理与参数估计第三章数据处理与参数估计3.1总体和样本例1统计年鉴中一个重要的指标是城市职工的年收入.要了解某城市职工2012年的年收入,一般不采用一一调查每一个职工的年收入的办法,而是采取抽样调查的方法,即抽查部分职工的收入情况进行分析.例如抽取1000个职工,统计他们2012年的年收入,以此推断该城市职工2012年的年收入状况.

数据处理与参数估计例2市场调查是商家常做的一项工作.某旅行社随机访问100位市民,调查这些市民春节期间的出游意向,以此确定开发新旅游项目的方案.

上述例子的共同特点,就是为研究对象的某个性质,不是一一研究对象包含的所有个体,而是只研究其中的一部分.通过对部分个体的研究,推断对象全体的性质.这就引出了总体和样本的概念.

数据处理与参数估计总体:所研究对象的某个数量指标的全体个体:而组成总体的基本单位样品:从总体中抽取出来的个体样本:若干个样品组成的集合样本容量:由n个样品组成的样本用x1,x2,…,xn表示,一个样本中所含样品的个数称为样本容量(或大小)

数据处理与参数估计样品值:样品的取值样本值:样本的取值称为样本值,也称为样本数据.在不至于混淆的情况下,容量为n的样本值也用x1,x2,…,xn表示.简单随机样本:为使所抽取的样本富有代表性,且能反映总体的特性,常采用简单随机抽样的方法抽取样本,这样抽取的样本我们称之为简单随机样本

总之,简单随机样本是指独立且与总体同分布的一组随机变量.通常简单随机样本简称样本.

数据处理与参数估计简单随机样本的特点:

(1)样本(用x1,x2,…,xn表示)中的每一个样品xi(i=1,2,…,n)取某个值的可能性与总体取该值的可能性是一样的,也就是说,样品xi(i=1,2,…,n)与总体具有相同的分布;(2)样本中的每一个样品x1,x2,…,xn相互独立,也就是说,每个样品的观测结果既不影响其他样品的观测结果,也不受其他样品观测结果的影响.这样得到的随机样本对总体的代表性,就有了基本保证.

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

均值是平均数中最基本的形式,是根据全部统计数据抽象出来的一种平均指标.它具有计算简单、代表性强的特点,是研究社会经济现象中的数量关系时最常用的指标,在统计分析中有着广泛的应用.实际中,经常用样本的均值来估计总体的均值,或用均值代表总体,对不同的总体进行比较.

因此,均值对于制定计划、作出判断和进行预测都有十分重要的意义.

数据处理与参数估计3.2.2加权平均数例2某小学一年级二班共有学生40名,期末数学考试的成绩如表3—1所示,计算该班学生的数学平均成绩表3—1某小学一年级二班期末数学考试成绩1001009899100989996959998100999895100100999410010099981009796901001009699100981009410099969497

数据处理与参数估计解该班学生的数学平均成绩可以按均值公式计算,但较麻烦.采用另一种简便的办法,即把这组数据中相同的数据归在一起,列出表3—2.表3—2某小学一年级二班期末数学考试成绩归纳表10099989796959490

148624231

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计例3某学校规定,学生课程考核成绩由平时作业和期末考试两部分组成,具体规定如表3—3所示.

李华“经济数学”和“成本会计”平时作业成绩均为70分,期末考试成绩均为90分,那么李华的这两门课程的成绩分别是:经济数学:70×20%+90×80%=86(分)成本会计:70×40%+90×60%=82(分)表3—3考试成绩组成方案

平时作业成绩期末考试成绩合计经济数学占20%占80%100%成本会计占40%占60%100%

数据处理与参数估计3.2.3中位数和众数

将一组数据按由小到大的次序排成数列,当数据的个数n为奇数时,处于中间位置的数称为中位数;当n为偶数时,中间位置有两个数,它们的平均值就是这组数据的中位数.

如果数据很多,用众数作“代表”也是很方便的.一组统计数据中,出现次数(频数)最多的那个数据,称为众数.

数据处理与参数估计

均值、中位数和众数都是反映总体数据平均水平的指标,但由于三种指标的计算方法不同,所得的结果也不同.在实际工作中,可根据问题的具体情况,决定采用哪种平均数作代表.有时,将三种平均数结合起来使用,可以较全面地反映总体的分布情况.

数据处理与参数估计3.2.4方差和标准差

对于一组统计数据,仅知道均值还不够,还要知道它们的分散程度.举个简单的例子,两个高三的学生在高考前的五次模拟考试中的成绩分别是

甲:567分573分560分555分585分乙:595分505分617分572分551分

数据处理与参数估计

甲、乙两人的平均成绩都是568分,但甲的成绩波动小,比较稳定,基本集中在568分附近,估计他的高考成绩在568分附近的可能性较大;而乙的成绩波动比较大,忽高忽低,说明成绩不稳定,他的高考成绩不好预测.

实际上,数据的分散程度也是反映客观现象的一种重要指标,

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计3.2.5极差和变异系数定义3.5一组数据x1,x2,…,xn中的最大值减去最小值,即

R=max{xi}-min{xi}(1≤i≤n)称为x1,x2,…,xn的极差,“max”是英文maximum(最大的)的缩写;“min”是minimum(最小的)的缩写.

数据处理与参数估计

极差反映数据之间的最大差距.极差越小,说明数据越集中,均值的代表性就越好;极差越大,说明数据越分散,均值的代表性越差.由于极差R计算简便,反映数据的分散程度也很直观,因此在实际工作中应用得越来越广泛,尤其在机械化、自动化的生产中常用作检验产品质量的指标.

不过,如果一批数据存在极端值,极差就不能反映数据一般性的分散程度,这也正是用极差描述数据分散程度的缺点所在.

数据处理与参数估计

数据处理与参数估计3.3直方图3.3.1频数分布表例1某食品厂用自动打包机包装食盐,为了解机器的生产状况,现抽取30袋食盐测试重量,具体数值如表3—8所示.表3—830袋食盐的重量单位:克99810019819971008987100510009991000998100698699810039881001100310111007100299998598999910059909981022987

数据处理与参数估计

观察这组数据,最大的是1022,最小的是981,采用分组的方法来整理这组数据.具体做法如下:第一步:确定全部数据所在的范围.找出数据中的最大值和最小值,即1022和981,再取两个特殊值a和b,在此不妨取a=975,b=1025,所有的数据都落在区间(975,1025)内.第二步:将数据分组,确定组距和组限.将区间(975,1025)等分成5个小区间,数据就分成了5个组,每个组由组下限和组上限构成的小区间为左闭右开区间,即[组下限,组上限).

数据处理与参数估计

数据处理与参数估计

从频数分布表中看出,在995~1005之间的数据最多,有15个,占总数的50%.在975~985和1015~1025之间的数据最少,只有2个,各占总数的3%.这是符合实际的,从概率统计的角度看,误差率为1/30=3.33%,是很小的一个数,因此可以认为打包机的工作是正常的.表3—9例1中30个数据的频数分布表组限组中值xi组频数vi组频率fi975~98598010.03985~99599060.2995~10051000150.501005~1015101070.231015~1025102010.03合计

301.00

数据处理与参数估计3.3.2频数直方图

频数直方图实际上就是频数分布表的几何表示,它的具体做法是:

在平面上作出直角坐标系的第一象限,用横坐标表示数据,纵坐标表示频数,首先在横坐标上标出分点,从而定出各组的区间.然后以各组距为底边、以对应的组频数为高度作矩形.由这些小矩形所构成的图形就是数据的频数直方图.

数据处理与参数估计例2作出本节例1的频数直方图.解组距d=10,组频数分别是1,6,15,7,1,以组距d为底,频数为高,作小矩形,便得到频数分布直方图,如图3—1所示.

图3—1频数直方图

数据处理与参数估计3.3.3频率直方图

在第一象限内,以数据为横坐标、组频率/组距为纵坐标作直方图,这种直方图称为频率直方图.例3作本节例1的频率直方图解根据例1的数据及频数分布表,计算组频率/组距(fi/d,组距d=10),列表3—10.表3—10频率分布表组限组频数vi组频率fifi/d975~98510.030.003985~99560.20.02995~1005150.500.051005~101570.230.0231015~102510.030.003合计301.000.1

数据处理与参数估计

在第一象限内,横轴上以组距d=10为底边、纵轴上以fi/d为高度作矩形,如图3—2所示,这就是所求的频率直方图.

图3—2频率直方图

数据处理与参数估计

数据处理与参数估计

频率直方图由于采用组频率/组距为小矩形的高,大大减少了分组的影响,比较稳定地反映了样本数据的分布情况.实践证明,在同样的条件下,再多抽取一个样本,所得的频率直方图也相差不多;若样本容量不断增大,频率直方图中的小矩形“中间高,两边低,左右基本对称”的统计规律性将表现得更加明显.

事实上,统计分析中正是根据样本数据的频率直方图,来推测总体的分布状态,然后再以理论给予证明的.

数据处理与参数估计3.3.4频率密度曲线

通过连接频率直方图中每个小矩形的上端,可以大致描绘出一条轮廓曲线.容易想象,随着样本容量的不断增大,分组越来越细,直方图中的组距越来越小,这条轮廓曲线将渐渐趋于一条光滑的曲线.我们称这条曲线为频率密度曲线,也称频率分布曲线,记作y=f(x),如图3—3所示.

数据处理与参数估计

图3—3频率密度曲线

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计3.4统计量与抽样分布3.4.1统计量定义3.7设x1,x2,…,xn是总体X的样本,f(x1,x2,…,xn)为n元函数,如果f(x1,x2,…,xn)中不包含任何未知参数,则称f(x1,x2,…,xn)是样本x1,x2,…,xn的一个统计量.当x1,x2,…,xn取定一组值时,f(x1,x2,…,xn)就是统计量的一个观测值.

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

f(x)的图形如图3—4所示.

图3—4

χ2分布分位点图

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

f(x)的图形如图3—6所示,关于x=0对称,并且形状类似于正态概率密度函数的图形.当n很大时(一般地n>30),t分布近似于标准正态分布N(0,1),但对于较小的n,t分布与N(0,1)相差较大.

图3—6

t分布图

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

下面介绍t分布概率值的计算.

对于给定的正数:0<α<1,若P(|t(n)|>λ)=α,则称λ为n个自由度的t分布的双侧100α百分位点,记作tα(n),如图3—7所示.

图3—7

t分布的双侧百分位点

数据处理与参数估计

根据t分布的对称性可知:

t1-α(n)=-tα(n)t分布的双侧百分位点可由附表2查得.例如α=0.05,n=20,查得t0.05(20)=2.086;α=0.01,n=14,查得t0.01(14)=2.977.

但是当n>45时,可以利用正态分布N(0,1)近似为:

tα(n)≈Uα,n>45

数据处理与参数估计

数据处理与参数估计

F分布的密度函数f(y)的图形如图3—8所示.

图3—8

F分布图

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计F分布的概率值计算

设X~F(n1,n2),对于给定正数0<α<1,若设P(X>λ)=α,则称λ为第一自由度为n1,第二自由度为n2的F分布的上100α百分位点,记作Fα(n1,n2),如图3—9所示.

图3—9

F分布的上100α百分位点

数据处理与参数估计

数据处理与参数估计3.5点估计

在统计推断理论中,对均值、方差等未知参数进行估计称为参数估计,对概率分布进行估计叫做非参数估计.参数估计又分为点估计和区间估计.假设总体X的分布形式为已知,但它的参数未知,如果用总体X的样本观察值x1,x2,…,xn估计总体未知参数,就是参数的点估计;如果用总体X的样本观察值x1,x2,…,xn构造一个未知参数所在范围,并指出这个范围涵盖该参数的概率,就是参数的区间估计.

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计例2设某种灯泡的寿命X~N(μ,σ2),其中μ和σ2未知,今随机抽取5只灯泡,测得寿命分别为(单位:小时):

1623

1527

1287

1432

1591求μ和σ2的估计值.

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计3.5.2极大似然估计法

设x1,x2,…,xn是来自总体密度函数为f(x;θ)的一个样本,θ是未知参数,称f(x1;θ)f(x2;θ)…f(xn;θ)为θ的似然函数,记作L(θ;x1,x2,…,xn),即

L(θ;x1,x2,…,xn)=f(x1;θ)f(x2;θ)…f(xn;θ)

由于样本值x1,x2,…,xn是已知确定的值,而θ是未知的,因此似然函数是关于θ的函数.

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计

数据处理与参数估计3.6区间估计3.6.1置信区间与置信度例1设x1,x2,…,xn是物体长度θ的测量值,已知测量误差εi(i=1,2,…,n)是各次独立的,都遵从N(0,σ2),其中σ2是已知常数,问以99%的把握可以断言长度的

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论