免费预览已结束,剩余77页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
本讲内容提要,香港大学民意研究计划成立于1991年6月,现时隶属香港大学社会科学学院,由钟庭耀博士负责,旨在为学术界、新闻界、决策人员及社会人士提供有用的民意数据,服务社会。民研计划自1992年12月开始,便定期调查香港市民对两岸三地政府的信任程度、及对前途的信心程度的意见,作为国家民族意见调查系列的一部分,18年来没有改变。,【主要内容】,现在我们以该中心在2010年12月14日发布的调查结果,来了解一下数理统计的5个组成部分.,数理统计的主要内容及任务,数理统计的主要内容及任务,【抽样技术】,【参数估计】,特区政府统计处资料显示,截至2010年年中,香港特区人口数目706.12万。(.hk/hong_kong_statistics),如何从这超过700万个选民中选取1000个样本,使这样本可以在某种程度上反映总体的信息?调查方案设计,问卷设计,怎样从这1000个左右的数据来估计超过700万香港特区居民对特首的支持度?,用1000个左右的数据来估计超过700万的总体信息,必然会产生误差.如何给出误差的范围,以及此误差范围的可信程度?,(点估计),(区间估计),【假设检验】,【方差分析】,在10年11月底所做的调查中,曾荫权的支持度为40%,在这次调查中数据已下跌至37%,是否可以认为两个星期内曾荫权的支持度有明显下跌,或者说已经跌破4成?,以往的选举经验告诉我们,有很多的因素会影响选民的投票意向。譬如:选民的政治取向,投票意欲,性别,年龄,教育程度,职业,家庭所属阶级,等等。那么,在这个案例中,如何判别其中某个因素是否真的影响了香港市民对曾荫权的支持程度?,【回归分析】,假如经过分析,我们发现选民的年龄与支持程度存在相关关系。那么,我们怎样去描述这种关系?,数理统计的主要内容及任务,数理统计学是一门应用性很强的学科。其任务就是研究有效地收集、整理、分析所获得的有限的资料,对所研究的问题,尽可能地作出精确而可靠的结论。,客观上,只允许我们对随机现象进行次数不多的观察试验,我们只能获得局部观察资料。,【主要任务】,数理统计的主要内容及任务,由于大量随机现象必然呈现规律性,只要对随机现象进行足够多次观察,被研究的规律性一定能清楚地呈现出来。,在数理统计中,不是对所研究的对象全体(称为总体)进行观察,而是抽取其中的部分(称为样本)进行观察获得数据(抽样),并通过这些数据对总体进行推断。,总体与个体,在数理统计研究中,人们往往研究有关对象的某一项(或几项)数量指标。为此,对这一指标进行随机试验,观察试验结果全部观察值,从而考察该数量指标的分布情况。这时,数量指标的全体就是总体;每个数量指标就是个体。,部分推断总体,一个灯泡的寿命,该批灯泡寿命的全体,一辆国产轿车每公里的耗油量,国产轿车每公里耗油量的全体,个体,总体,总体研究对象的全体,样本容量样本中所含个体的个数,个体总体中每个成员,样本从总体中抽取的一部分个体,【概念】,实际中,人们关心的是总体中的个体的某项指标(如人的身高、灯泡的寿命,汽车的耗油量).,由于每个个体的出现是随机的,所以相应的数量指标的出现也带有随机性。从而可以把这种数量指标看作一个随机变量X,因此随机变量X的分布就是该数量指标在总体中的分布.,总体与个体,如:正态总体X,理论上将总体与概率分布等同,总体与个体,【关于样本】,间相互独立,且与总体X具有相同的分布,【样本值】,样本的分布,【样本分布】,若总体则样本的分布函数为,统计量,由样本值去推断总体情况,需要对样本值进行“加工”,这就要构造一些样本的函数,它把样本中所含的(某一方面)的信息集中起来.,这种不含任何未知参数的样本的函数称为统计量。它是完全由样本决定的量。一般表示为:T=g(X1,X2,Xn),1统计量用于统计推断,故不应含任何关于总体X的未知参数;,2统计量是样本的函数,它是一个随机变量,统计量的分布称为抽样分布.,几个常用的统计量,【样本矩】,设有样本,其观察值为,用于推断:E(X),【2】样本方差,用于推断:D(X),它反映了总体均值的信息,几个常用的统计量,【3】修正样本方差,未修正样本方差与修正样本方差的关系:,【注意】,几个常用的统计量,【4】样本k阶原点矩,特例:,特例:,【5】样本k阶中心矩,常用的统计分布,【分位数】,设XF(x),若存在满足,则称为X的水平为的上侧分位数或上a分位数.,则称Ta为X的水平为a的下侧分位数或下a分位数.,特别地,若,常用的统计分布,【正态分布的分位数】,设XN(0,1),若对给定的a,存在ua使得,则称ua为X的上a分位数(点),常用的统计分布,【分布】,性质1:,性质2:,常用的统计分布,【t分布】,1.设,则当时,有,2.设,则当时,t分布的极限分布是标准正态分布。,常用的统计分布,由分布的对称性知,常用的统计分布,【F分布】,若,相互独立,,则F服从自由度为m和n的F分布,记为,常用的统计分布,抽样分布,【定理1】设总体为的一个样本,则:,【定理2】设总体为的一个样本,则:,【定理3】设总体相互独立。为的样本,样本均值及样本方差分别记为为的样本,样本均值及样本方差分别记为记则:,抽样分布,【定理3】设总体相互独立。为的样本,样本均值及样本方差分别记为为的样本,样本均值及样本方差分别记为记则:,(3)当时,,抽样分布,本讲内容提要,前言,数理统计的基本任务之一,就是根据样本的信息,对总体的某些属性或特征进行推断。参数估计和假设检验是其两个主要内容。,未知分布的估计,【密度函数的估计】,直方图方法,设总体X是一个连续型随机变量,其密度函数为f(x)未知。利用直方图方法对其进行估计。,设是一组数据(即样本值),为掌握它的变化规律,对它加以整理:,(1)选取两个数a、b,使a略小于样本值中最小的数据,b略大于最大的数据;,(2)对所有数据进行分组:,(3)统计样本数据落入各小区间内的个数(即频数);,(4)绘图,依据图像发现规律,【例1】为研究某校初三毕业生数学成绩的分布情况,随机抽查了50名初三学生进行测试,数据如下:,解:,平均分:,未知分布的估计,未知分布的估计,未知分布的估计,参数的点估计,【点估计】,(),(提出问题),(构造统计量,即估计量),(得到参数的估计值),参数的点估计矩估计,【基本思想】,利用样本的各阶原点矩(或中心距)与相应的总体矩,建立估计量应满足的方程(组),从而求出方程(组)中所含的未知参数的方法矩法估计。,【基本步骤】,(1)计算总体的k阶原点矩,记,(2)建立方程组,(3)解方程组,得,参数的点估计矩估计,【基本思想和原理】,参数的点估计极大似然估计,例:某位同学与一位猎人一起外出打猎.一只野兔从前方窜过。只听一声枪响,野兔应声倒下。如果要你推测,是谁打中的呢?,分析:只发一枪便打中,猎人命中的概率一般大于这位同学命中的概率。看来这一枪是猎人射中的。,这个例子所作的推断已经体现了极大似然法的基本思想.,当给定样本X1,X2,Xn时,定义似然函数为:,设X1,X2,Xn是取自总体X的一个样本,样本的联合密度(连续型)或联合概率函数(离散型)为f(X1,X2,Xn;).,f(X1,X2,Xn;),极大似然估计法就是用使达到最大值的去估计.,称为的极大似然估计(MLE).,例:设总体XP().求参数的极大似然估计.,解:,似然方程为:,似然函数为:,解得:,点估计的评价标准,1、无偏性,2、有效性,越小越有效,3、一致性,以一个随机变量在一次观测中得到的、具有相当随机偶然性的一个点值,去估计未知、但是具有确定取值的参数真值,其不可靠性是显而易见的!,区间估计,如果从误差理论的角度讲,点估计同参数真值之间的误差是不言而喻的,然而误差的大小却又是不得而知的!,对于总体的待估参数,如果存在两个样本统计量,使被估参数位于其间的概率等于,即则称区间为的置信度为的置信区间。,区间估计,区间估计正好可以弥补点估计的上述缺陷!,点估计虽然可以得到一个确定的估计值,但是无法指出其误差和精确程度,和点估计相比,区间估计的精确度大大降低了;区间估计的可靠性并非100,而是只有1-。置信度1-意味着:如果用同样的方法对参数连续估计很多次的话,由此得到的诸多置信区间中真正能够包含参数真值的比例大约为1-,其中还有大约比例的区间未能包含!,区间估计,区间估计,【单个正态总体均值的区间估计】,N(0,1),对于给定的置信水平,根据U的分布,确定一个区间,使得U取值于该区间的概率为置信水平.,从中解得,使,也可简记为,于是所求的置信区间为,区间估计,【单个正态总体均值的区间估计】,当已知时:,当未知时:,区间估计,区间估计,【例3】一家保险公司收集到由36投保个人组成的随机样本,得到每个投保人的年龄(周岁)数据如下表。试建立投保人年龄90%的置信区间,解:已知n=36,1-=90%,u/2=1.645,根据样本数据计算得总体均值在1-置信水平下的置信区间为:,因此,投保人平均年龄的置信区间为37.37岁41.63岁,区间估计,本讲内容提要,假设检验的基本思想,生产流水线上罐装可乐不断地封装,然后装箱外运.怎么知道这批罐装可乐的容量是否合格呢?,把每一罐都打开倒入量杯,看看容量是否合于标准.,罐装可乐的容量按标准应在350毫升和360毫升之间.,假设检验的基本思想,每隔一定时间,抽查若干罐。如每隔1小时,抽查5罐,得5个容量的值X1,X5,根据这些值来判断生产是否正常。,如发现不正常,就应停产,找出原因,排除故障,然后再生产;如没有问题,就继续按规定时间再抽样,以此监督生产,保证质量。,通常的办法是进行抽样检查.,假设检验的基本思想,很明显,不能由5罐容量的数据,在把握不大的情况下就判断生产不正常,因为停产的损失是很大的.,当然也不能总认为正常,有了问题不能及时发现,这也要造成损失.,如何处理这两者的关系,假设检验面对的就是这种矛盾.,假设检验的基本思想,在正常生产条件下,由于种种随机因素的影响,每罐可乐的容量应在355毫升上下波动.这些因素中没有哪一个占有特殊重要的地位.因此,根据中心极限定理,假定每罐容量服从正态分布.,它的对立假设是:,称H0为原假设(或零假设),称H1为备择假设,H1:,在实际工作中,往往把不轻易否定的命题作为原假设,假设检验的基本思想,那么,如何判断原假设H0是否成立呢?,较大、较小是一个相对的概念,合理的界限在何处?应由什么原则来确定?,问题归结为对差异作定量的分析,以确定其性质.,假设检验的基本思想,问题是,根据所观察到的差异,如何判断它究竟是由于偶然性在起作用,还是生产确实不正常?,需要给出一个量的界限.,问题归结为对差异作定量的分析,以确定其性质.,如何给出?,“小概率原理”,小概率事件在一次试验中几乎不可能发生!,假设检验的基本思想,罐装可乐的容量按标准应在350毫升和360毫升之间.一批可乐出厂前应进行抽样检查,现抽查了n罐,测得容量为X1,X2,Xn,问这一批可乐的容量是否合格?,【一般情形】,假设检验的基本思想,【方法】,对给定的显著性水平,可以在N(0,1)表中查到分位点的值,使,假设检验的基本思想,故我们可以取拒绝域为:,W:,如果由样本值算得该统计量的实测值落入区域W,则拒绝H0;否则,不能拒绝H0.,假设检验的基本思想,如果H0是对的,那么衡量差异大小的某个统计量落入区域W(拒绝域)是个小概率事件.如果该统计量的实测值落入W,也就是说,H0成立下的小概率事件发生了,那么就认为H0不可信而否定它.否则我们就不能否定H0(只好接受它).,这里所依据的逻辑是:,如果由样本值算得该统计量的实测值落入区域W,则拒绝H0;否则,不能拒绝H0.,不否定H0并不是肯定H0一定对,而只是说差异还不够显著,还没有达到足以否定H0的程度.,“显著性检验”,假设检验的基本思想,假设检验的一般步骤,【例4】某工厂生产的一种螺钉,标准要求长度是32.5毫米.实际生产的产品,其长度X假定服从正态分布未知,现从该厂生产的一批产品中抽取6件,得尺寸数据如下:,32.56,29.66,31.64,30.00,31.87,31.03,问这批产品是否合格?,分析:这批产品(螺钉长度)的全体组成问题的总体X.现在要检验E(X)是否为32.5.,第一步:提出原假设和备择假设,第二步:构造检验统计量,即“”是一个小概率事件.,得否定域(拒绝域)W=t:|t|4.0322,(=4.0322),故不能拒绝H0.,没有落入拒绝域,这并不意味着H0一定对,只是差异还不够显著,不足以否定H0.,假设检验的一般步骤,假设检验的一两类错误,假设检验的两类错误,如果H0成立,但统计量的实测值落入否定域,从而作出否定H0的结论,那就犯了“以真为假”的错误.,如果H0不成立,但统计量的实测值未落入否定域,从而没有作出否定H0的结论,即接受了错误的H0,那就犯了“以假为真”的错误.,单、双侧检验,单、双侧检验,本讲内容提要,数据的录入、保存和调用,【例1】上海市区社会商品零售总额和全民所有制职工工资总额的数据如下,1、年份数据以1为增量,用产生向量的方法输入。命令格式:x=a:h:b本例可按如下录入:t=78:87,【方法一】,即生产从a到b,以h为增量的行向量,当h缺省时,认为增量为1,h也可为负。,【方法一】,2、分别以x和y代表职工工资总额和商品零售总额,以向量的形式输入如下:x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,3、将变量t,x,y的数据保存到文件data中,用如下命令:savedatatxy,4、进行统计分析时,用以下命令调用数据文件data中的数据:loaddata,数据的录入、保存和调用,1、输入矩阵:data=78,79,80,81,82,83,84,85,86,87,88;23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4;41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,【方法二】,2、将矩阵data的数据保存在文件data1中:savedata1data,3、进行统计分析时,先用命令:loaddata1调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y:t=data(1,:)x=data(2,:)y=data(3,:)若要调用矩阵data的第j列的数据,可用命令:data(:,j),数据的录入、保存和调用,基本统计量,对随机变量x,计算其基本统计量的命令如下:均值:mean(x)中位数:median(x)标准差:std(x)方差:var(x)偏度:skewness(x)峰度:kurtosis(x),例对例1中的职工工资总额x,可计算上述基本统计量。,常见概率分布的函数,Matlab统计工具箱中有20种概率分布,常见的有:正态分布:norm指数分布:exp泊松分布:poiss分布:chi2t分布:tF分布:F,Matlab工具箱对每一种分布都提供五类函数,其命令字符为:概率密度:pdf概率分布:cdf逆概率分布:inv均值与方差:stat随机数生成:rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),如对均值为mu、标准差为sigma的正态分布,举例如下:,例2画出正态分布N(0,1)和N(0,22)的概率密度函数图形.,在Matlab中输入以下命令:X=-6:0.01:6;y=normpdf(x);z=normpdf(x,0,2);plot(x,y,x,z),2、概率分布:P=normcdf(x,mu,sigma),1、密度函数:p=normpdf(x,mu,sigma)(当mu=0,sigma=1时可缺省),例3计算标准正态分布的概率p-1x1,命令为:p=normcdf(1)-normcdf(-1)结果为:p=0.6827,常见概率分布的函数,例4取,求,3、逆概率分布:x=norminv(P,mu,sigma).,作用:求出x,使得PXx=P;此命令可用来求分位数.,常见概率分布的函数,4、均值与方差:m,v=normstat(mu,sigma),例5求正态分布N(3,52)的均值与方差.命令为:m,v=normstat(3,5)结果为:m=3,v=25,5、随机数生成:normrnd(mu,sigma,m,n).,此命令产生了23的正态分布随机数矩阵,第一行三个数分别服从均值为1,2,3的正态分布,第二行三个数分布服从均值为4,5,6的正态分布,标准差均为0.1,产生mn阶的正态分布随机数矩阵.,例6命令:M=normrnd(123;456,0.1,2,3),N(1,0.12),N(2,0.12),N(3,0.12),N(4,0.12),N(5,0.12),N(6,0.12),常见概率分布的函数,频数直方图的描绘,1、给出数组data的频数表的命令为:N,X=hist(data,k),2、描绘数组data的频数直方图的命令为:hist(data,k),此命令将区间min(data),max(data)分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.,参数估计,1、正态总体的参数估计,设总体服从正态分布,则其点估计和区间估计可同时由以下命令获得:muhat,sigmahat,muci,sigmaci=normfit(X,alpha),此命令在显著性水平alpha下估计数据X的参数(alpha缺省时设定为0.05),返回值muhat是X的均值的点估计值,sigmahat是标准差的点估计值;muci是均值的区间估计,sigmaci是标准差的区间估计.,2、其它分布的参数估计,使用Matlab工具箱中具有特定分布总体的估计命令.,(1)muhat,muci=expfit(X,alpha)在显著性水平alpha下,求指数分布的数据X的均值的点估计及其区间估计.(2)lambdahat,lambdaci=poissfit(X,alpha)在显著性水平alpha下,求泊松分布的数据X的参数的点估计及其区间估计.(3)phat,pci=weibfit(X,alpha)在显著性水平alpha下,求Weibull分布的数据X的参数的点估计及其区间估计.,参数估计,1、总体方差sigma2已知时,总体均值的检验使用z-检验,h,sig,ci=ztest(x,m,sigma,alpha,tail),返回值h=1表示可以拒绝假设,h=0表示不可以拒绝假设,sig为假设成立的概率,ci为均值的1-alpha置信区间.,假设检验,在总体服从正态分布的情况下,可用以下命令进行假设检验.,检验数据x的关于均值的某一假设是否成立,其中sigma2为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”;tail=1,检验假设“x的均值大于m”;tail=-1,检验假设“x的均值小于m”;tail的缺省值为0,alpha的缺省值为0.05.,例6Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差是一加仑四分币(=4),试检验一月份油价的均值是否等于115.,解作假设:m=115.首先取出数据,用以下命令:loadgas然后用以下命令检验:h,sig,ci=ztest(price1,115,4),返回结果:h=0,sig=0.8668,ci=113.3970,116.9030.,检验结果:1.布尔变量h=0,表示不拒绝零假设.说明提出的假设均值115是合理的.2.sig-值为0.8668,远超过0.5,不能拒绝零假设3.95%的置信区间为113.4,116.9,它完全包括115,且精度很高.,假设检验,2、总体方差sigma2未知时,总体均值的检验使用t-检验,h,sig,ci=ttest(x,m,alpha,tail),检验数据x的关于均值的某一假设是否成立,其中sigma2为已知方差,alpha为显著性水平,究竟检验什么假设取决于tail的取值:tail=0,检验假设“x的均值等于m”;tail=1,检验假设“x的均值大于m”;tail=-1,检验假设“x的均值小于m”;tail的缺省值为0,alpha的缺省值为0.05.,假设检验,例7试检验例8中二月份油价Price2的均值是否等于115.,解:作假设:m=115,price2为二月份的油价,不知其方差,故用以下命令检验h,sig,ci=ttest(price2,115),返回结果:h=1,sig=4.9517e-004,ci=116.8,120.2.,
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 丁基橡胶装置操作工安全生产基础知识考核试卷含答案
- 公司农产品食品检验员现场作业技术规程
- 建筑劳务居间协议书
- 2025智驭未来+资掌全局:不动产策略及运营管理白皮书
- 河北省邯郸市2024-2025学年高三年级上学期第二次调研检测生物试题(含解析)
- 工业系统解耦控制抗干扰能力提升办法
- 湖北省荆州市沙市区2024-2025学年五年级上学期期中数学试题(含答案)
- 广州省深圳市2025-2026学年上学期九年级数学期中测试(练习卷)含解析
- 硕士学位的价值解析
- 《课件-市场营销学项目化教程》-2市场营销环境分析1
- 2025年工会换届工作报告总结
- 餐厅后厨消防安全培训
- 新疆招标从业资格证考试及答案解析
- 工程机械:挖掘机机器人臂关节设计改进研究
- 合成生物学讲解课件
- 2025年高考浙江卷(6月)物理真题
- 技术项目开发团队管理规范文档
- 压力性损伤评估及护理
- 《县级(区域)医疗资源集中化运行规范 第1部分:集中审方中心》
- 2025年广西公需科目真题考试参考答案
- 2025至2030全球及中国区块链安全解决方案行业项目调研及市场前景预测评估报告
评论
0/150
提交评论