版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、2020/6/15,(C)中国民航大学理学院张春晓,1,应用数理统计,2020/6/15,2,主讲教师,张春晓理学院副教授研究兴趣:统计预测与决策、优化与控制办公地点:理学院统计教研室(南1-316)电话:24092054E-mail:cxzhang,2020/6/15,3,课程成绩考试成绩由期末考试成绩和平时考核成绩两部分组成。平时成绩占15%;期末考试采用闭卷(开卷)笔试方式进行,占85%。答疑时间地点课后或周五下午统计教研室,2020/6/15,4,课程说明教学目的应用数理统计是一门科学,实证的方法,尤其是数量分析方法是统计学研究的基本方法论。通过该门课程教学,使学生掌握统计学的基本理论
2、与方法,并能够建立实用的应用统计模型,解决实际问题。先修课程微积分、线性代数、概率论与数理统计、数学软件、统计学原理。,应用数理统计与经济理论、统计学和数学的联系,数学,统计学,数理统计,管理学,工学,其他学科,2020/6/15,6,学习方法理论与应用并重。既要重视理论方法,也要重视应用模型和应用中实际问题的解决;以教材中的经典理论方法为主,也要理解适当引入的、教材中没有的非经典理论方法;对于理论方法,重点是思路而不是数学过程;对于应用模型,重点不是每种模型本身,而是它们演变与发展的方法论;必须十分重视综合练习;必须掌握一种应用软件,注意课堂的软件应用演示,“师傅领进门,修行在个人”,多练。
3、,2020/6/15,7,本课程:应用数理统计;36学时;教材:吴翊等应用数理统计,国防科技大学出版社,2003;参考书:清华大学编现代应用数学手册(数理统计卷),科学出版社,2002。统计软件:EXCEL、SPSS、MATLAB(统计分析工具箱)。基础知识见附录I,(以浙江大学概率论与数理统计为准)。,2020/6/15,8,能力培养,数据的产生:数据怎么得来,非常重要,这是统计当中影响最大的概念;资料分析:你会学到,即使用很简单的方法,也能很睿智地解读数据;概率:利用概率进行思考,可以帮你把事实和无关紧要的干扰信息分离;统计推断:让你学会用手中少量的数据,对一个较大的总体做出结论。,202
4、0/6/15,9,案例,许多统计学家在第二次世界大战中发挥了重大的作用,沃德是其中之一。他发明的一些统计方法,在战时被视为军事机密。沃德在被咨询飞机上什么部位的钢板需要加强时,画了飞机的轮廓,并且标出返航的战斗机上受敌军创伤的弹孔位置。资料积累了一段时间后,机身各部位几乎都被填满了。于是沃德建议,把剩下少数几个没有弹孔的位置加强。?因为这些部位被击中的飞机都没有返航。摘自统计学的世界(美)戴维著。,2020/6/15,10,第一章数理统计的基本概念,1.1导言什么是数理统计?统计:指数据的收集、整理和分析,由全部信息(数据)得出正确的唯一结果;数理统计:指有效地收集、整理和分析带有随机性影响的
5、数据,对所观测的部分信息推断合理的结果即进行统计推断,直到为采取决策提供依据。为什么要用数理统计?实际中,数据量大(抽取的数据具有随机性),试验具有破坏性(不可重复)。,2020/6/15,11,数理统计的研究范畴:应用广泛传统上,有生物统计(遗传学、医药)、农业统计、工业统计(民航统计)等;现代,多元统计应用领域:通信、质量控制、气象、地质勘探、市场预测与决策等。数理统计的基本内容:数据采集(抽样理论、试验设计等)与统计推断(估计、检验等)。统计推断的结果往往有赖于方法,尽可能采用“有效的”方法。“有效的”标准:样本尽可能少,而结果更合理,“大量重复使用该方法总体效果好”基于概率论原理。,2
6、020/6/15,12,1.2样本与总体,样本:经观察或试验得到的数据样本(子样);观察或试验的过程抽样;“抽样调查”:是一种观测研究,抽样的精髓是从检查一部分来得知全体。“你不必吃完整头牛,才知道肉是老的”西方谚语。,2020/6/15,13,经n次试验得到n个数据样本容量为n;一组数据,一个(容量为n的)样本(子样);样本所有可能取值的集合样本空间(n维空间的子集);数据可以是数值或属性(但要用数值表示);以一维数据X或Y为研究对象一元统计;以多维数据(X,Y)为研究对象多元统计。随机试验(产生样本)要求在相同条件下能够独立重复地进行。样本是随机试验的结果。,2020/6/15,14,(2
7、)样本X1,X2,Xn具有二重性:可看成一个n维随机向量,记为(X1,X2,Xn);作为样本值记为(x1,x2,xn);,(1)样本X1,X2,Xn相互独立,且与总体X同分布;,(3)若总体X具有分布函数F(x),概率密度f(x),则样本(X1,X2,Xn)的分布函数及概率密度为:,(4)获得简单随机样本的抽样方法称为简单随机抽样.,2020/6/15,15,【例1.3】(P6)设一组抽奖劵共10000张,其中5张有奖。问连续抽取3张有奖的概率为多少?讨论:不放回抽样和放回抽样。随机抽样方式:放回抽样(要求样本独立)由“随机抽样”得到“简单样本”。由于独立同分布,设该分布函数为F(x),则样本
8、联合分布函数为:F(X1)F(X2)F(Xn);样本联合密度函数为:f(X1)f(X2)f(Xn)。,2020/6/15,16,总体,一般定义:所研究对象的全体的集合总体。集合的元素个体。总体和样本的区别是统计里很基本的概念;如,电视收视率调查总体:所有5亿有电视机的中国住户;样本:约5000个住户,住户同意使用“个人电视记录器”来记录该户中每个人收视的节目。所记录的变量包括住户中的人数及其年龄、性别、收视时段、内容等。普查:企图把整个总体纳入样本的抽样调查。,2020/6/15,17,从数学上也可如此定义:总体是指某个随机变量所有可能的取值的全体,或就是一个随机变量X,而样本即是与X同分布且
9、相互独立的一组随机变量X1,X2,Xn。【例1.4】两台车床,各车出m,n件零件,尺寸分别为X1,X2,Xm和Y1,Y2,Yn,视作取自两个总体X,Y的容量分别为m,n的样本。统计推断即由样本推断总体的性质,如上例中,推断两台车床总体上是否有差异。总体的分布统计模型,统计建模的目的即确定X的分布、参数等。,2020/6/15,18,1.2.3参数与参数空间,一般情况下总体分布未知,需要样本信息去推断。【例1.5】(P8)考虑如何由样本X1,X2,Xn的实际背景确定统计模型,即总体X的分布函数:(1)样本记录随机抽取的n件产品的正品、废品情况。(2)样本表示同一批n个电子元件的寿命(小时)(3)
10、样本表示同一批n件产品某一尺寸(mm),2020/6/15,19,1.2.3参数与参数空间,当分布类型已知,其中参数未知,则由样本推断参数(估计、检验)。参数的所有可能取值的集合参数空间(视具体问题而定)统计推断:包括参数推断(分布类型已知)和非参数推断(分布类型未知)两种。,2020/6/15,20,1.3直方图与经验分布函数,1.3.1直方图依据概率论的大数定理(附录1柯尔莫哥洛夫强大数定理):频率近似于概率。,当总体分布未知,要用样本对总体分布进行非参数推断,常用方法是直方图和经验分布函数。,21,取a略小于X(1),b略大于X(n),将区间分成m个小区间,记落入小区间中观察值的个数(频
11、数),计算频率;在直角坐标系xoy中画出以为底,为高的矩形,即得到直方图,其对应的分段函数用来近似概率密度函数f(x),直方图的具体做法将所有样本由小到大排序,记为X(1),X(2),X(n),2020/6/15,(C)中国民航学院理学院张春晓,22,【例1.6】P10,2020/6/15,23,【例1.6】(P10)齿轮的径向综合误差Fi的直方图,2020/6/15,24,直方图,以概率1成立.,2020/6/15,25,1.3.2经验分布函数设总体X的分布函数未知,样本为X1,X2,Xn将样本从小到大排序(即求顺序统计量)得到定义:经验分布函数为右连续,间断点处跃度为1/n。以格里文科定理
12、可以证明,,2020/6/15,(C)中国民航大学理学院张春晓,26,当时,0X(1)X(2)X(3)X(n),Fn(x)1,x,Fn(x)的图形为,2020/6/15,(C)中国民航大学理学院张春晓,27,1.4统计量及其分布,在利用样本推断总体的性质时,往往不能直接利用样本,而需要对它进行一定的加工,这样才能有效地利用其中的信息,否则,样本只是呈现为一堆“杂乱无章”的数据【例1.7】从某地区随机抽取50户农民,调查其人均年收入情况,得到数据(单位:元)如下:试对该地区农民收入的水平和贫富悬殊程度做个大致分析,解:显然,如果不进行加工,面对这一大堆大小参差不齐的数据,很难得出什么印象但是可以
13、对这些数据稍事加工,如记各农户的人均年收入分别为x1,x2,.,x50,计算得到这样,就可以了解到该地区农民的平均收入和该地区农民贫富悬殊的大致情况:农民的年人均平均收入大约为809.52元,标准差约为155.85元,贫富悬殊不算很大,1.4统计量与抽样分布,由此可见对样本的加工是十分重要的对样本加工,主要就是构造统计量1.4.1统计量定义设X1,X2,Xn为来自总体X的样本,称不含未知参数的样本的函数g(X1,X2,Xn)为统计量若x1,x2,.,xn为样本观测值,则称g(x1,x2,.,xn)为统计量g(X1,X2,Xn)的观测值.统计量是处理、分析数据的主要工具对统计量的一个最基本的要求
14、就是可以将样本观测值代入进行计算,因而不能含有任何未知的参数,1.4统计量与抽样分布,2020/6/15,30,几个常用的统计量【例1.8】,设X1,X2,Xn是来自总体X的一个样本,(x1,x2,xn)是其观察值.,样本均值,样本标准差,样本k阶原点矩,样本k阶中心矩,样本方差,*,*,2020/6/15,31,其观察值:,样本均值,样本标准差,样本k阶原点矩,样本k阶中心矩,样本方差,*,*,2020/6/15,32,有关二维总体的统计量:协方差相关系数,定义1称EX-E(X)Y-E(Y)为随机变量X与Y的协方差,记为Cov(X,Y)即,注,X与Y的相关系数:,当XY=0时,称随机变量X与
15、Y是不相关的,若X,Y相互独立,则X与Y不相关;反之不一定成立,X和Y的k+l阶混合中心矩,设(X1,Y1),(X2,Y2),(Xn,Yn)为二维总体(X,Y)的样本,其观测值为(x1,y1),(x2,y2),(xn,yn),则下列各量为统计量:(1)样本协方差(2)样本相关系数其中SXY和RXY常分别用来作为总体X和Y的协方差Cov(X,Y)与相关系数XY的估计量,1.4.1统计量,【例1.10】设X1,X2,Xn是来自总体X的样本,XN(,2),其中、2为未知参数,则X1,minX1,X2,Xn均为统计量,但诸如等均不是统计量,因它含有未知参数或常用的统计量有如下几种:,1.4.1统计量,
16、2020/6/15,35,【例1.11】(P14)设是任意给定的样本空间中的区域,则观察值X1,X2,Xn落在中的频数n,频率f=n/n都是统计量。因为对于固定的x,经验分布函数Fn(x)也是统计量。研究方法时,为随机变量,从而也是随机变量,统计量的分布称为抽样分布为了研究抽样分布,先研究数理统计中三种重要的分布,2020/6/15,36,设X1,X2,Xn是来自总体N(0,1)的样本,则称统计量,的概率密度为,服从自由度n为的分布,记为,这里自由度n表示相互独立的随机变量的个数.,分布,来自正态总体的几个常用统计量的分布,2020/6/15,37,f(y)的图形(与n有关):,0,y,f(y
17、)的推导:,由前例知,而XiN(0,1),由定义Xi22(1),再由X1,X2,Xn的独立性及分布的可加性,即,f(y),2020/6/15,38,分布的可加性,【定理1.1】,且Y1,Y2,Yk相互独立,则有,分布的分位点,对于给定的正数(045)时,有,设,由于Xi独立,且注意到N(0,1)的四阶矩为3,可得,英国统计学家费歇(R.A.Fisher)曾证明:当n较大时,近似服从,【定理1.2】卡方分布的期望与方差,2020/6/15,40,定义1.2设XN(0,1),Y2(n),且X与Y相互独立,则称随机变量,P(x)图形:(关于x=0对称,其形状与n有关),t(n)分布的概率密度函数为:
18、,1.4.3t分布,服从自由度是n的t分布(Student分布),记作Tt(n).,图,2020/6/15,41,n=(正态),t分布的分位点:,注意:若对给定(030,就可认为t(n)基本与N(0,1)相差无几了,1.4.3t分布,2020/6/15,43,1.4.3F分布,FF(n1,n2)分布的概率密度函数为:,服从自由度为(n1,n2)的F分布,记为FF(n1,n2).,设X2(n1),Y2(n2),且X与Y相互独立,则称随机变量,若FF(n1,n2),则1/FF(n2,n1).,2020/6/15,(C)中国民航学院理学院张春晓,44,p(x)的图形,F分布的分位点,对给定(0z=.
19、由N(0,1)的概率密度的对称性可知所以z1-=z2.设22(n),记2(n)的上分位数为2(n),即有P22(n)=.附表中给出了时2(n)的值,当n40时,由2(n)的渐近性质,有,1.4.4分位数,【例1.13】求下列分位数(1)z0.975;z0.9(2)t0.25(4);t0.9(25);t0.05(55);(3)20.5(20);20.025(50).(4)F0.05(10,15);F0.1(14,10);解:(1)可由标准正态分布函数表(附表2,P399),对函数值(z0.975)反查表得z0.,975=1.96z0.9=(1.28+1.29)/2=1.285.(2)t0.25(
20、4)=-t0.75(4)=-0.7407;t0.9(25)=1.3163t0.95(55)z0.95=1.645,1.4.4分位数,(3)查附表4得:20.5(20)=31.4104。在附表3表中查不到20.025(200),先查出z0.025=1.96,再作如下近似计算(4)附表5得到F0.05(10,15)=2.54;在附表5中,查不到F0.1(14,10),但可查出F0.9(10,14)=2.10,故,1.4.4分位数,2020/6/15,(C)中国民航大學理学院张春晓,50,1.4.5正态总体的抽样分布,【定理1.3】设总体样本(1);(2);(3)与相互独立。,*,在数理统计问题中,正态分布占据着十分重要的位置,一方面因为在应用中,许多随机变量的分布或者是正态分布,或者接近于正态分布;另一方面,正态分布有许多优良性质,便于进行较深入的理论研究因此,我们着重讨论正态总体下的抽样分布,给出有关最重要的统计量样本均值和样本方差S2的抽样分布定理,2020/6/15,(C)中国民航学院理学院张春晓,51,=,推导(),所以,*,2020/6/15,(C)中国民航学院理学院张春晓,52,预备知识,相
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 进料品质奖惩制度汇编
- 校园宿舍卫生奖惩制度
- 餐饮店铺销售奖惩制度
- 危险驾驶员违规奖惩制度
- 餐饮门店奖惩制度细则
- 洗煤厂生产调度奖惩制度
- 公司用电规范及奖惩制度
- 保安人员考核奖惩制度
- 抖音店铺客服奖惩制度
- 国安全生产检奖惩制度
- (2026春新版)苏教版二年级数学下册全册教学设计
- DB54∕T 0527-2025 西藏自治区好住宅技术标准
- 新能源电池创业计划书
- 文物建筑勘查设计取费标准(2020年版)
- 川教版三年级下册《生命生态安全》教学设计含教学计划【附安全知识】
- 知木林乡知木林村传统村落环境保护项目环评报告
- 铁路建设项目甲供甲控物资设备目录
- 平衡皮肤生态环境2对于肌肤护理起到课件
- 茶与茶文化-红茶课件
- 《汽车电路识图》课程标准
- 马克思主义基本原理(完整版)
评论
0/150
提交评论