大学课程《统计分析方法及应用》课件:(第一章)_第1页
大学课程《统计分析方法及应用》课件:(第一章)_第2页
大学课程《统计分析方法及应用》课件:(第一章)_第3页
大学课程《统计分析方法及应用》课件:(第一章)_第4页
大学课程《统计分析方法及应用》课件:(第一章)_第5页
已阅读5页,还剩57页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章

一元统计基础知识§1.1一元分布及数字特征§1.2参数估计§1.3假设检验§1.1一元分布及数字特征一、随机变量与概率分布函数二、概率分布的类型三、随机变量的数学期望和方差四、一些重要的一元分布五、其他数字特征一、随机变量与概率分布函数随机变量x的(概率)分布函数定义为F(a)=P(x≤a) 分布函数F(x)具有下述性质: (1)F(x)是非降函数,即若x1<x2,则F(x1)≤F(x2); (2) ; (3)F(x)是右连续函数,即F(x+0)=F(x)。二、概率分布的类型1.离散型分布2.连续型分布1.离散型分布随机变量x的分布列:P(x=ak)=pk,k=1,2,⋯分布列具有如下两个性质:(1)pk≥0,k=1,2,⋯;(2) 。x的分布函数可表示为2.连续型分布若随机变量x的分布函数可以表示成

对一切a∈R成立,则称x为连续型随机变量,称f(x)为x的(概率)密度函数。对f(x)的连续点必有F′(x)=f(x)。密度函数f(x)具有如下两个性质: (1)f(x)≥0; (2) 。

三、随机变量的数学期望和方差离散型:连续型:数学期望和方差的性质数学期望的性质: (1)设c是常数,则E(c)=c; (2)E(kx)=kE(x); (3)E(x1+x2+⋯+xn)=E(x1)+E(x2)+⋯+E(xn)方差的性质: (1)设c是常数,则V(c)=0。 (2)V(kx)=k2V(x) (3)设x1,x2,⋯,xn相互独立,则V(x1+x2+⋯+xn)=V(x1)+V(x2)+⋯+V(xn)四、一些重要的一元分布1.二项分布2.超几何分布3.泊松分布4.正态分布5.卡方分布6.t分布7.F分布五、其他数字特征1.变异系数2.中位数3.分位数4.众数5.矩6.偏度7.峰度1.变异系数变异系数:变异系数没有单位。x改变为kx(k>0为常数)后,变异系数不变。标准差(或方差)是反映随机变量绝对变异性的量,而变异系数则是反映随机变量相对变异性的量。2.中位数中位数(median)是另外一个反映随机变量取值中心位置的量。若m满足

则称m为连续型随机变量x的中位数。与均值不同,中位数在理论上总是存在的。当随机变量的分布对称时,中位数与均值(如果存在)重叠。图1.1.6中位数m在分布函数中的位置图1.1.7中位数m在密度函数中的位置3.分位数分位数(quantile)是反映随机变量取值相对位置的一个量。若

则称x1−p为连续型随机变量x的下侧p分位数,简称p分位数,称xp为x的上侧p分位数p=0.5时的分位数x0.5正是中位数m。图1.1.8x的p分位数和上侧p分位数4.众数若x是一个离散型随机变量,则使概率P(x=a)达到最大的a值称为随机变量x的众数(mode);若x是一个连续型随机变量,则使密度函数f(a)达到最大的a值称为x的众数,记作mo。众数也是一个反映随机变量取值位置的量。随机变量的众数不一定只有一个,可能有两个或两个以上。例1.1.1正态分布N(μ,σ2)的众数、中位数和均值都是μ,三者重叠。5.矩若E|x|k<∞,则E(xk)称为x的k阶(原点)矩,记作μk;若E|x−μ|k<∞,则称E(x−μ)k为x的k阶中心矩,记作υk。一阶原点矩就是数学期望,二阶中心矩就是方差。一般低阶矩用得较多,高于四阶的矩极少使用。

若高阶矩E(xk+1)存在,则低阶矩E(xk),E(xk−1),⋯也一定都存在。6.偏度偏度(skewness)是反映随机变量分布形状的一个量,它度量了分布的偏斜程度及偏向。称

为x的偏度系数,简称偏度。对称分布的sk=0;若sk>0,则称x的分布是正偏(或右偏)的,说明分布在右方向的尾部比在左方向的尾部有拉长的趋势;若sk<0,则称x的分布是负偏(或左偏)的,说明分布在左方向的尾部比在右方向的尾部有拉长的趋势;|sk|越大,说明分布偏斜得越厉害。图1.1.9偏度sk对分布形状的影响7.峰度峰度(kurtosis)是另一个反映随机变量分布形状的量,它度量了分布尾部的厚度。称

为x的峰度系数,简称峰度。若令

,则峰度ku=E(x*4)−3同偏度一样,峰度也是一个没有单位的数值。峰度ku的取值范围是[−2,∞]。正态分布的峰度为零。若ku>0,则说明随机变量x分布的尾部比正态分布的尾部粗,并且ku值越大,倾向认为尾部越粗;若ku<0,则说明x分布的尾部比正态分布的尾部细,且|ku|值越大,倾向认为尾部越细。峰度ku可用来比较已标准化了的各随机变量的分布尾部厚度。§1.2参数估计一、统计量和抽样分布二、估计量的性质三、置信区间的基本原理四、总体均值的置信区间五、两个总体均值之差的置信区间六、正态总体方差的置信区间七、两个正态总体方差之比的置信区间一、统计量和抽样分布1.统计量2.的抽样分布1.统计量样本均值:样本方差:

样本标准差:样本变异系数样本偏度样本峰度次序统计量:x(1)≤x(2)≤⋯≤x(n)最小次序统计量:最大次序统计量:极差=x(n)−x(1) 样本中位数样本p分位数下样本四分位数:Q1=0.25样本分位数上样本四分位数:Q3=0.75样本分位数四分位数间距:Q3−Q1例1.2.1表1.2.1列出了上海财经大学统计与管理学院某年级所有修读的93名学生的《多元统计分析》期末考试成绩期末考试成绩占总成绩的60%。等资料。在后面的统计推断中,为了说明起见,我们将该组数据看成是从一个很大的总体中抽取的一个样本。表1.2.1 某年级93名学生的《多元统计分析》期末考试成绩课程序号n性别sex期末成绩x课程序号n性别sex期末成绩x课程序号n性别sex期末成绩x1女9632女9563女772男7833女10064女963男9934女6765女974男9235女8866女695男9336女8967男936男8337女8968男777男6238女7469男928男5539女6270男609男8240女8571男8510男9241女8172男9411男9342女9873男6712男7143女8374男5013男8944女9675女7414男5045女9776女9015男9246女9877女8316男4047女9578女9217男5848女6079女8118男7049女7580女9119男7050女5181女9120男7751女8382女9721男8152女8483女8822男4053女4084女9423男8754女8485女9824男9155女8886女9125男8356女9087女7826女3857女8788女8727女9658女8689男10028女9059女8190男9529女9360女6991女9830女8661女9892女8331女8662女8093女68输出1.2.1矩统计量表输出1.2.2样本分位数表2.的抽样分布(1)正态总体的情形

设x1,x2,⋯,xn是来自于总体N(μ,σ2)的一个样本,则有(2)非正态总体的情形

中心极限定理

设x1,x2,⋯,xn是来自于总体x的一个样本,E(x)=μ,V(x)=σ2(>0),则随着样本容量n的无限增大,样本均

经标准化之后的分布,将以标准正态分布N(0,1)

为极限。即对任意的实数y,有二、估计量的性质1.无偏性2.有效性3.一致性(或称相合性)1.无偏性如果

则称

为θ的无偏估计,否则就称为有偏估计,称

为估计的偏差(bias)。样本均值

是总体均值μ的无偏估计(即 );样本方差s2是总体方差σ2的无偏估计(即 ),但样本标准差s却是总体标准差σ的有偏估计。2.有效性设

都是未知参数θ的无偏估计,若

且至少对一个θ0∈Θ有严格不等号成立,则称估计量

有较高的效率,简称

有效(efficient)。如果θ的某个无偏估计

是θ的所有无偏估计中最有效的一个,即对θ的任一无偏估计

则称

为θ的一致最小方差无偏估计。3.一致性(或称相合性)如果未知参数θ的估计量

随着样本容量n的不断增大,而无限地逼近于真值θ,则称

为θ的一致估计,或称相合估计。估计量的一致性是在大样本情形下提出的一种要求,而对于小样本,它不能作为评价估计量好坏的准则。三、置信区间的基本原理设

是两个统计量,给定1−α(0<α<1),若

则称随机区间

是未知参数θ的置信度为1−α的置信区间。置信区间好坏的评价准则: (1)置信度。希望随机区间

包含真值θ的概率

越大越好。 (2)精确度。希望随机区间

的平均长度

越短越好。若统计量

满足

则称

是θ的置信度为1−α的单侧置信下限。若统计量

满足

则称

是θ的置信度为1−α的单侧置信上限。四、总体均值的置信区间1.正态总体情形2.非正态总体的大样本情形1.正态总体情形当σ2已知时,μ的1−α置信区间为

其中uα/2为N(0,1)的上α/2分位点。当σ2未知时,μ的1−α置信区间

这里

为样本方差,tα/2(n−1)为t(n−1)的上α/2分位点。2.非正态总体的大样本情形当n很大时,若σ2已知,则总体均值μ的1−α近似置信区间为若σ2未知,则总体均值μ的1−α近似置信区间为五、两个总体均值之差的置信区间设

是取自总体x的容量为n1的样本,E(x)=μ1,V(x)= 是取自总体y的容量为n2的样本,E(y)=μ2,V(y)=,且两个样本相互独立。令1.两个正态总体情形2.两个非正态总体的大样本情形1.两个正态总体情形若

已知,则μ1−μ2的1−α置信区间为若

未知,但

,则μ1−μ2的1−α置信区间为

其中2.两个非正态总体的大样本情形当n1和n2都很大时,若

已知,则μ1−μ2的1−α置信区间近似为若

未知,则μ1−μ2的1−α置信区间近似为六、正态总体方差的置信区间设x1,x2,⋯,xn是来自总体N(μ,σ2)的一个样本,μ未知,则σ2的1−α置信区间为σ的1−α置信区间为七、两个正态总体方差之比的置信区间设

是来自总体

的一个样本,

是来自总体

的一个样本,且两个样本独立,又

为两个样本方差,μ1,μ2皆未知,则

的1−α置信区间为σ1/σ2的1−α置信区间为§1.3假设检验一、假设检验的基本思想二、单个总体均值的检验三、关于检验的p值四、假设检验与置信区间的关系五、两个总体均值的比较检验六、基于成对数据的比较两个总体均值的检验七、正态总体方差的检验八、比较两个正态总体方差的检验一、假设检验的基本思想(双侧)假设检验问题形式:H0:μ=μ0,H1:μ≠μ0 单侧假设检验问题形式:H0:μ≤μ0,H1:μ>μ0(或H0:μ=μ0,H1:μ>μ0)和H0:μ≥μ0,H1:μ<μ0(或H0:μ=μ0,H1:μ<μ0)二、单个总体均值的检验1.正态总体2.大样本情形下的非正态总体1.正态总体(1)若σ2已知,则构造检验统计量

当μ=μ0时,u~N(0,1),由此可得下述各假设检验问题的拒绝规则:(i)H0:μ=μ0,H1:μ≠μ0若|u|≥uα/2,则拒绝H0(ii)H0:μ≤μ0,H1:μ>μ0(或H0:μ=μ0,H1:μ>μ0)若u≥uα,则拒绝H0(iii)H0:μ≥μ0,H1:μ<μ0(或H0:μ=μ0,H1:μ<μ0)若u≤−uα,则拒绝H0(2)若σ2未知

应取检验统计量

当μ=μ0时,t~t(n−1),于是可得以下各假设检验问题的拒绝规则:(i)H0:μ=μ0,H1:μ≠μ0若|t|≥tα/2(n−1),则拒绝H0(ii)H0:μ≤μ0,H1:μ>μ0(或H0:μ=μ0,H1:μ>μ0)若t≥tα(n−1),则拒绝H0(iii)H0:μ≥μ0,H1:μ<μ0(或H0:μ=μ0,H1:μ<μ0)若t≤−tα(n−1),则拒绝H0三、关于检验的p值以正态总体的如下假设检验问题为例。H0:μ=μ0,H1:μ≠μ0

其拒绝规则为:若|u|≥uα/2,则拒绝H0用U表示随机变量时的u,u本身表示取值时的u,则称P(|U|≥|u|)为检验的p值,记为p。|u|≥uα/2⟺p=P(|U|≥|u|)≤P(|U|≥uα/2)=α

故上述拒绝规则等价于:若p≤α,则拒绝H0四、假设检验与置信区间的关系在显著性水平α下接受H0:μ=μ0

⟺ ⟺μ0落在μ的1−α置信区间内。假设检验与置信区间的这种关系具有普遍性。例1.3.1在例1.2.1中,当σ2未知时,求总体均值μ的0.95置信区间和在α=0.05下对H0:μ=85,H1:μ≠85进行检验。输出1.3.1总体均值μ的0.95置信区间及检验结果五、两个总体均值的比较检验设

是取自总体x的样本,E(x)=μ1,V(x)= 是取自总体y的样本,E(y)=μ2,V(y)=,且两个样本相互独立。给定显著性水平α。1.两个正态总体情形2.两个非正态总体的大样本情形1.两个正态总体(1)若

已知,则构造检验统计量

当μ1=μ2时,u~N(0,1),下述各假设检验问题的拒绝规则为:(i)H0:μ1=μ2,H1:μ1≠μ2若|u|≥uα/2,则拒绝H0(ii)H0:μ1≤μ2,H1:μ1>μ2(或H0:μ1=μ2,H1:μ1>μ2)若u≥uα,则拒绝H0(iii)H0:μ1≥μ2,H1:μ1<μ2(或H0:μ1=μ2,H1:μ1<μ2)若u≤−uα,则拒绝H0(2)若

未知,但

取检验统计量

当μ1=μ2时,t~t(n1+n2−2),于是可得以下各假设检验问题的拒绝规则:(i)H0:μ1=μ2,H1:μ1≠μ2若|t|≥tα/2(n1+n2−2),则拒绝H0(ii)H0:μ1≤μ2,H1:μ1>μ2(或H0:μ1=μ2,H1:μ1>μ2)若t≥tα(n1+n2−2),则拒绝H0(iii)H0:μ1≥μ2,H1:μ1<μ2(或H0:μ1=μ2,H1:μ1<μ2)若t≤−tα(n1+n2−2),则拒绝H0(3)若

未知,且

一般情况下,检验的显著性水平只是近似地为α。取检验统计量

当μ1=μ2时,t近似地服从t(v),其中

必须将其四舍五入成整数。其拒绝规则完全类似于前面的相应各式,只需把t分布的自由度改为v即可。例1.3.2在例1.2.1中,设男生总体具有均值μ1和方差

,女生总体具有均值μ2和方差

,求μ1−μ2的0.95置信区间和在α=0.05下对H0:μ1=μ2,H1:μ1≠μ2进行检验。输出1.3.2男、女生总体均值的比较推断结果六、基于成对数据的比较两个总体均值的检验数据的成对出现避免了作为抽样误差来源之一的两个样本个体之间的差异,从而减少了抽样误差,以致往往得到比独立样本方法更精确的统计推断结论。设总体x

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论