专题二数据的统计分析.ppt_第1页
专题二数据的统计分析.ppt_第2页
专题二数据的统计分析.ppt_第3页
专题二数据的统计分析.ppt_第4页
专题二数据的统计分析.ppt_第5页
已阅读5页,还剩35页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Lxy, China Jiliang Universty,数学建模专题二,数据的统计分析,Lxy, China Jiliang Universty,现实生活中的许多数据都是随机产生的,如考试分数、月降雨量、灯泡寿命等。从数理统计角度来看,这些数据其实都是符合某种分布的,这种规律就是统计规律。,本专题的主要目的是:熟悉各种常见分布的概率密度函数及其曲线,会利用数据分布的形态猜测其分布类型;能够对密度函数进行参数估计;进行简单的正态假设检验。,引言,Lxy, China Jiliang Universty,内容提纲,1.Matlab相关命令介绍 2.常见概率分布 3.频数直方图与频数表 4.参数估计 5.假设检验,Lxy, China Jiliang Universty,Matlab相关命令,对随机变量x,计算其基本统计量的命令如下: 均值:mean(x) 中位数:median(x) 标准差:std(x) 方差:var(x) 偏度:skewness(x) 峰度:kurtosis(x),基本统计量,Lxy, China Jiliang Universty,偏度和峰度的说明,Lxy, China Jiliang Universty,Matlab相关命令介绍,pdf 概率密度函数,y=pdf(name,x,A),y=pdf(name,x,A,B) 或 y=pdf(name,x,A,B,C),返回由 name 指定的单参数分布的概率密度,x为样本数据,name 用来指定分布类型,其取值可以是: beta、bino、chi2、exp、ev、f 、 gam、gev、gp、geo、hyge、logn、 nbin、ncf、nct、ncx2、norm、 poiss、rayl、t、unif、unid、wbl。,返回由 name 指定的双参数或三参数分布的概率密度,Lxy, China Jiliang Universty,Matlab相关命令介绍,例:,x=-8:0.1:8; y=pdf(norm,x,0,1); y1=pdf(norm,x,1,2); plot(x,y,x,y1,:),注:,y=pdf(norm,x,0,1),y=normpdf(x,0,1),相类似地,,y=pdf(beta,x,A,B),y=betapdf(x,A,B),y=pdf(bino,x,N,p),y=binopdf(x,N,p), ,Lxy, China Jiliang Universty,Matlab相关命令介绍,normfit 正态分布中的参数估计,muhat,sigmahat,muci,sigmaci=normfit(x,alpha),对样本数据 x 进行参数估计,并计算置信度为 1-alpha 的置信区间 alpha 可以省略,缺省值为 0.05,即置信度为 95%,hist 绘制给定数据的直方图,hist(x,m),Lxy, China Jiliang Universty,Matlab相关命令介绍,table=tabulate(x),绘制频数表,返回值 table 中,第一列为x的值,第二列为该值出现的次数,最后一列包含每个值的百分比。,ttest(x,m,alpha),假设检验函数。此函数对样本数据 x 进行显著性水平为 alpha 的 t 假设检验,以检验正态分布样本 x(标准差未知)的均值是否为 m。,Lxy, China Jiliang Universty,总体方差sigma2未知时,总体均值的检验使用t-检验,h,sig,ci = ttest(x,m,alpha,tail) 检验数据 x 的关于均值的某一假设是否成立,其中alpha 为显著性水平,究竟检验什么假设取决于 tail 的取值: tail = 0,检验假设“x 的均值等于 m ” tail = 1,检验假设“x 的均值大于 m ” tail =-1,检验假设“x 的均值小于 m ” tail的缺省值为 0, alpha的缺省值为 0.05.,返回值 h 为一个布尔值,h=1 表示可以拒绝假设,h=0 表示不可以拒绝假设,sig 为假设成立的概率,ci 为均值的 1-alpha 置信区间.,ttest说明,Lxy, China Jiliang Universty,例 Matlab统计工具箱中的数据文件gas.mat.中提供了美国1993年一月份和二月份的汽油平均价格(price1,price2分别是一,二月份的油价,单位为美分),它是容量为20的双样本.假设一月份油价的标准偏差未知,试检验一月份油价的均值是否等于115.,解 作假设:m = 115. 首先取出数据,用以下命令: load gas 然后用以下命令检验 h,sig,ci = ttest( price2 ,115),返回:h = 1,sig = 4.9517e-004,ci =116.8 120.2.,检验结果: 1. 布尔变量h=1, 表示拒绝零假设. 说明提出的 假设油价均值115是不合理的. 2. 95%的置信区间为116.8 120.2, 它不包括 115, 故不能接受假设. 3. sig-值为4.9517e-004, 远小于0.5, 不能接受零假设.,ttest举例,Lxy, China Jiliang Universty,Matlab相关命令介绍,normplot(x),统计绘图函数,进行正态分布检验。研究表明:如果数据是来自一个正态分布,则该线为一直线形态;如果它是来自其他分布,则为曲线形态。,wblplot(x),统计绘图函数,进行 Weibull 分布检验。,Lxy, China Jiliang Universty,Matlab相关命令介绍,其它函数,cdf 系列函数:累积分布函数 rnd 系列函数:随机数发生函数 stat 系列函数:均值与方差函数,例:,p=normcdf(-2:2,0,1),n=normrnd(0,1,1 5),Lxy, China Jiliang Universty,常见的概率分布,Lxy, China Jiliang Universty,连续分布:正态分布,正态分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从正态分布。记做:,标准正态分布:N (0, 1),正态分布也称高斯分布,是概率论中最重要的一个分布。,如果一个变量是大量微小、独立的随机因素的叠加,那么它一定满足正态分布。如测量误差、产品质量、月降雨量等,Lxy, China Jiliang Universty,正态分布举例,x=-8:0.1:8; y=normpdf(x,0,1); y1=normpdf(x,1,2); plot(x,y,x,y1,:),例:标准正态分布和非标准正态分布密度函数图形,Lxy, China Jiliang Universty,连续分布:均匀分布,均匀分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从均匀分布。记做:,均匀分布在实际中经常使用,譬如一个半径为 r 的汽车轮胎,因为轮胎上的任一点接触地面的可能性是相同的,所以轮胎圆周接触地面的位置 X 是服从 0,2r 上的均匀分布。,Lxy, China Jiliang Universty,连续分布:指数分布,指数分布(连续分布),如果随机变量 X 的密度函数为:,则称 X 服从参数为 的指数分布。记做:,在实际应用问题中,等待某特定事物发生所需要的时间往往服从指数分布。如某些元件的寿命;随机服务系统中的服务时间;动物的寿命等都常常假定服从指数分布。,指数分布具有无记忆性:,Lxy, China Jiliang Universty,指数分布举例,x=0:0.1:30; y=exppdf(x,4); plot(x,y),例: =4 时的指数分布密度函数图,Lxy, China Jiliang Universty,离散分布:几何分布,几何分布是一种常见的离散分布,在贝努里实验中,每次试验成功的概率为 p,设试验进行到第 次才出现成功,则 的分布满足:,其右端项是几何级数 的一般项,于是人们称它为几何分布。,x=0:30; y=geopdf(x,0.5); plot(x,y),例: p=0.5 时的几何分布密度函数图,Lxy, China Jiliang Universty,离散分布:二项式分布,二项式分布属于离散分布,如果随机变量 X 的分布列为:,则称这种分布为二项式分布。记做:,x=0:50; y=binopdf(x,500,0.05); plot(x,y),例: n=500,p=0.05 时的二项式分布密度函数图,Lxy, China Jiliang Universty,离散分布: Poisson 分布,泊松分布也属于离散分布,是1837年由发个数学家 Poisson 首次提出,其概率分布列为:,记做:,泊松分布是一种常用的离散分布,它与单位时间(或单位面积、单位产品等)上的计数过程相联系。如:单位时间内,电话总机接到用户呼唤次数;1 平方米内,玻璃上的气泡数等。,Lxy, China Jiliang Universty,Poisson 分布举例,x=0:50; y=poisspdf(x,25); plot(x,y),例: =25 时的泊松分布密度函数图,Lxy, China Jiliang Universty,离散分布:均匀分布,如果随机变量 X 的分布列为:,则称这种分布为离散均匀分布。记做:,n=20; x=1:n; y=unidpdf(x,n); plot(x,y,o-),例: n=20 时的离散均匀分布密度函数图,Lxy, China Jiliang Universty,抽样分布: 2分布,设随机变量 X1, X2, , Xn 相互独立,且同服从正态分布 N(0,1),则称随机变量 n2= X12+X22+ +Xn2服从自由度为 n 的 2 分布,记作 ,亦称随机变量 n2 为 2 变量。,x=0:0.1:20; y=chi2pdf(x,4); plot(x,y),例: n=4 和 n=10 时的 2 分布密度函数图,x=0:0.1:20; y=chi2pdf(x,10); plot(x,y),Lxy, China Jiliang Universty,抽样分布: F 分布,设随机变量 ,且 X 与 Y 相互独立,则称随机变量,x=0.01:0.1:8.01; y=fpdf(x,4,10); plot(x,y),例: F(4,10) 的分布密度函数图,为服从自由度 (m, n) 的 F 分布。记做:,Lxy, China Jiliang Universty,抽样分布: t 分布,设随机变量 ,且 X 与 Y 相互独立,则称随机变量,x=-6:0.01:6; y=tpdf(x,4); plot(x,y),例: t (4) 的分布密度函数图,为服从自由度 n 的 t 分布。记做:,Lxy, China Jiliang Universty,频数直方图或频数表,对于给定的数据集,假设它们满足以上十种分布之一,如何确定属于哪种分布?,x=load(data1.txt); x=x(:); hist(x),例 1:某次笔试的分数见 data1.txt,试画出频数直方图,绘制频数直方图,或列出频数表,从图形上看,笔试成绩较为接近正态分布,Lxy, China Jiliang Universty,频数直方图或频数表,x=load(data2.txt); x=x(:); hist(x),例 2:某次上机考试的分数见 data2.txt,试画出频数直方图,从图形上看,上机考试成绩较为接近离散均匀分布,x=load(data3.txt); x=x(:); hist(x),例 3:上海1998年来的月降雨量的数据见 data3.txt , 试画出频数直方图,从图形上看,月降雨量较为接近 2 分布,Lxy, China Jiliang Universty,频数直方图或频数表,在重复数据较多的情况下,我们也可以利用Matlab自带的 tabulate 函数生成频数表,并以频数表的形式来发掘数据分布的规律。,x=load(data4.txt); x=x(:); tabulate(x) hist(x),例 4:给出数据 data4.txt,试画出其直方图,并生成频数表,Lxy, China Jiliang Universty,频数直方图或频数表,x=load(data5.txt); x=x(:); hist(x) fiugre histfit(x) % 加入较接近的正态分布密度曲线,例 5:现累积有100次刀具故障记录,当故障出现时该批刀具完成的零件数见 data5.txt,试画出其直方图。,从图形上看,较为接近正态分布,Lxy, China Jiliang Universty,参数估计,当我们可以基本确定数据集 X 符合某种分布后,我们还需要确定这个分布的参数。,由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。,对于未知参数的估计,可分两种情况:,点估计 区间估计,Lxy, China Jiliang Universty,参数估计:点估计,构造样本 X 与某个统计量有关的一个函数,作为该统计量的一个估计,称为点估计。,Matlab 统计工具箱中,一般采用最大似然估计法给出参数的点估计。,泊松分布 P () 的 最大似然估计是,指数分布 Exp () 的 最大似然估计是,Lxy, China Jiliang Universty,点估计举例,正态分布 N (, 2) 中, 最大似然估计是 , 2 的最大似然估计是,x=load(data1.txt); x=x(:); mu,sigma=normfit(x),例 6:已知例 1 中的数据服从正态分布 N (, 2) ,试求其参数 和 的值。,使用 normfit 函数,Lxy, China Jiliang Universty,参数估计:区间估计,构造样本 X 与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限构成一个区间,这个区间作为该统计量的估计,称为区间估计。,Lxy, China Jiliang Universty,区间估计举例,x=load(data6.txt); x=x(:); mu,sigma,muci,sigmaci=normfit(x,0.01),例 8:从自动机床加工的同类零件中抽取16件,测得长度值见 data6.txt,已知零件长度服从正态分布 N (, 2) ,试求零件长度均值 和标准差 的置信度为 99% 的置信区间。,Lxy, China Jiliang Universty,假设检验,对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题。,以正态假设检验为例,来说明假设检验的基本过程。,Lxy, Chin

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论