数据的统计分析与描述-matlab.ppt_第1页
数据的统计分析与描述-matlab.ppt_第2页
数据的统计分析与描述-matlab.ppt_第3页
数据的统计分析与描述-matlab.ppt_第4页
数据的统计分析与描述-matlab.ppt_第5页
已阅读5页,还剩41页未读 继续免费阅读

VIP免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2019/6/9,1,数据的统计描述和分析,实验目的,实验内容,2、掌握用数学软件包求解统计问题。,1、直观了解统计基本内容。,1、统计的基本理论。,3、实验作业。,2、用数学软件包求解统计问题。,2019/6/9,3,统计的基本概念,参数估计,假设检验,数据的统计描述和分析,2019/6/9,4,统计工具箱中的基本统计命令,1.数据的录入、保存和调用,2.基本统计量,3.常见概率分布的函数,4.频 数 直 方 图 的 描 绘,5.参数估计,6.假设检验,返回,2019/6/9,5,一、数据的录入、保存和调用,例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下,统计工具箱中的基本统计命令,2019/6/9,6,1、年份数据以1为增量,用产生向量的方法输入。 命令格式: x=a:h:b t=78:87,2、分别以x和y代表变量职工工资总额和商品零售总额。 x=23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4 y=41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,3、将变量t、x、y的数据保存在文件data中。 save data t x y,4、进行统计分析时,调用数据文件data中的数据。 load data,方法1,2019/6/9,7,1、输入矩阵: data=78,79,80,81,82,83,84,85,86,87,88; 23.8,27.6,31.6,32.4,33.7,34.9,43.2,52.8,63.8,73.4; 41.4,51.8,61.7,67.9,68.7,77.5,95.9,137.4,155.0,175.0,2、将矩阵data的数据保存在文件data1中:save data1 data,3、进行统计分析时,先用命令: load data1 调用数据文件data1中的数据,再用以下命令分别将矩阵data的第一、二、三行的数据赋给变量t、x、y: t=data(1,:) x=data(2,:) y=data(3,:) 若要调用矩阵data的第j列的数据,可用命令: data(:,j),方法2,二、统计量,mean(x),median(x),std(x),var(x),偏度:skewness(x) 峰度:kurtosis(x),矩的计算,1.随机变量的k阶中心矩-Bk=moment(X,k) 2.随机变量的k阶原点矩-Ak=sum(X.k)/length(X),常见分布的期望和方差,1.二项分布-E,D=binostat(n,p) 说明:n,p可以是标量,向量,矩阵,则E,D是对应的标量,向量,矩阵 2.超几何分布-E,D=hygestat(M,N,K) 3.泊松分布-E,D=poissstat(lambda) 4.均匀分布-E,D=unifstat(a,b) 5.指数分布-E,D=expstat(lambda) 6.正态分布-E,D=normstat(mu,sigma) 其他:gamstat(),tstat(),fstat(),chi2stat()等等,协方差与相关系数的计算,1.随机变量的协方差-cov(X,Y)=E(X-EX)(Y-EY) 2.随机变量的相关系数-=cov(X,Y)/sqrt(DX*DY) 3.统计数据的协方差 cov(X)-当X为向量时,cov(X)=var(X);当X为矩阵时,结果为X的协方差矩阵.对角线是X每列的方差,Xij为X的第i列和第j列的协方差值。 cov(X,Y)-计算向量X和Y的协方差值 4.统计数据的相关系数 corrcoef(X),corrcoef(X,Y)-说明与用法与cov()相同,2019/6/9,13,三、常见概率分布的函数,Matlab工具箱对每一种分布都提供五类函数,其命令字符为: 概率密度:pdf 概率分布:cdf 逆概率分布:inv 均值与方差:stat 随机数生成:rnd,(当需要一种分布的某一类函数时,将以上所列的分布命令字符与函数命令字符接起来,并输入自变量(可以是标量、数组或矩阵)和参数即可.),2019/6/9,14,在Matlab中输入以下命令: x=-6:0.01:6; y=normpdf(x); z=normpdf(x,0,2); plot(x,y,x,z),1、密度函数:p=normpdf(x,mu,sigma) (当mu=0,sigma=1时可缺省),如对均值为mu、标准差为sigma的正态分布,举例如下:,2019/6/9,15,3、逆概率分布:x=norminv(P,mu,sigma). 即求出x ,使得PXx=P.此命令可用来求分位数.,2、概率分布:P=normcdf(x,mu,sigma),2019/6/9,16,4、均值与方差:m,v=normstat(mu,sigma),例5 求正态分布N(3,52)的均值与方差. 命令为:m,v=normstat(3,5) 结果为:m=3,v=25,5、随机数生成:normrnd(mu,sigma,m,n).产生mn阶的正态分布随机数矩阵.,例6 命令:M=normrnd(1 2 3;4 5 6,0.1,2,3) 结果为:M=0.9567 2.0125 2.8854 3.8334 5.0288 6.1191,此命令产生了23的正态分布随机数矩阵,各数分别服从N(1,0.12), N(2,22), N(3, 32), N(4,0.12), N(5, 22),N(6, 32),2019/6/9,17,1、给出数组data的频数表的命令为: N,X=hist(data,k) 此命令将区间min(data),max(data)分为k个小区间(缺省为10),返回数组data落在每一个小区间的频数N和每一个小区间的中点X.,2、描绘数组data的频数直方图的命令为: hist(data,k),四、频 数 直 方 图 的 描 绘,Matlab相关命令介绍,频数直方图或频数表,对于给定的数据集,假设它们满足以上十种分布之一,如何确定属于哪种分布?,x=load(data1.txt); x=x(:); hist(x),例 1:某次笔试的分数见 data1.txt,试画出频数直方图,绘制频数直方图,或列出频数表,从图形上看,笔试成绩较为接近正态分布,频数直方图或频数表,x=load(data2.txt); x=x(:); hist(x),例 2:某次上机考试的分数见 data2.txt,试画出频数直方图,从图形上看,上机考试成绩较为接近离散均匀分布,x=load(data3.txt); x=x(:); hist(x),例 3:上海1998年来的月降雨量的数据见 data3.txt , 试画出频数直方图,从图形上看,月降雨量较为接近 2 分布,频数直方图或频数表,在重复数据较多的情况下,我们也可以利用Matlab自带的 tabulate 函数生成频数表,并以频数表的形式来发掘数据分布的规律。,x=load(data4.txt); x=x(:); tabulate(x) hist(x),例 4:给出数据 data4.txt,试画出其直方图,并生成频数表,频数直方图或频数表,x=load(data5.txt); x=x(:); hist(x) fiugre histfit(x) % 加入较接近的正态分布密度曲线,例 5:现累积有100次刀具故障记录,当故障出现时该批刀具完成的零件数见 data5.txt,试画出其直方图。,从图形上看,较为接近正态分布,参数估计,当我们可以基本确定数据集 X 符合某种分布后,我们还需要确定这个分布的参数。,由于正态分布情况发生的比较多,故我们主要考虑正态分布的情形。,对于未知参数的估计,可分两种情况:,点估计 区间估计,参数估计:点估计,构造样本 X 与某个统计量有关的一个函数,作为该统计量的一个估计,称为点估计。,Matlab 统计工具箱中,一般采用最大似然估计法给出参数的点估计。,泊松分布 P () 的 最大似然估计是,指数分布 Exp () 的 最大似然估计是,常用分布的参数估计,1.正态分布的参数估计 格式:muhat,sigmahat,muci,sigmaci=normfit(X,alpha) 功能:数组X服从正态分布,给定显著水平alpha,缺省时为0.05,前二项给出点估计,后二项给出区间估计。X为矩阵时,针对列进行计算。 2.二项分布的参数估计(n重已知,p未知) 格式:phat,puci=binofit(X,n,alpha) 3.泊松分布的参数估计 格式:lbdhat,lbdci=poissfit(X, alpha) 4.均匀分布的参数估计 格式:ahat,bhat,aci,bci=unifit(X,alpha),5.指数分布的参数估计 格式:lbdhat, lbdci=expfit(X,alpha) 6.通用命令mle() 格式:输出参数项=mle(分布函数名,X,alpha ,N) 说明:分布函数名有:bino(二项),geo(几何),hyge(超几何) poiss(泊松),uinf(均匀),unid(离散均匀),exp(指数) norm(正态),t(T分布),f(F分布),beta(贝塔),gam(伽吗) N当二项时需要,其他没有。,注:取容量充分大的样本(n50),按中心极限定理,它近似地服从正态分布;,点估计举例,正态分布 N (, 2) 中, 最大似然估计是 , 2 的最大似然估计是,x=load(data1.txt); x=x(:); mu,sigma=normfit(x),例 6:已知例 1 中的数据服从正态分布 N (, 2) ,试求其参数 和 的值。,使用 normfit 函数,参数估计:区间估计,构造样本 X 与某个统计量有关的两个函数,作为该统计量的下限估计与上限估计,下限与上限构成一个区间,这个区间作为该统计量的估计,称为区间估计。,Matlab 统计工具箱中,一般也采用最大似然估计法给出参数的区间估计。,区间估计举例,x=load(data1.txt); x=x(:); mu,sigma,muci,sigmaci=normfit(x),例 7:已知例 1 中的数据服从正态分布 N (, 2) ,试求出 和 2 的置信度为 95% 的区间估计。,x=load(data6.txt); x=x(:); mu,sigma,muci,sigmaci=normfit(x,0.01),例 8:从自动机床加工的同类零件中抽取16件,测得长度值见 data6.txt,已知零件长度服从正态分布 N (, 2) ,试求零件长度均值 和标准差 的置信度为 99% 的置信区间。,假设检验,对总体的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设,这就是假设检验问题。,以正态假设检验为例,来说明假设检验的基本过程。,假设检验,在Matlab中,假设检验问题都提出两种假设:即原假设和备择假设。对于正态总体均值的假设检验给出了检验函数: ztest 已知 ,检验正态总体均值 ; ttest 未知 ,检验正态总体均值 ; ttest2 两个正态总体均值比较。,1 单个正态总体N( )的假设检验,已知,对期望 的假设检验Z检验法 调用函数 H=ztest(X,m,sigma) H=ztest(X,m,sigma,alpha) H,sig,ci=ztest(X,m,sigma,alpha,tail) 说明:X:样本;m:期望值;sigma:正态总体标准差;alpha:经验水平 ; tail:备择假设的选项,若tail=0(缺省),则 ; 若tail=1,则 ;若tail=-1,则 。 即tail=0(缺省)为双边检验,其余为单边检验问题。 H:检验结果,分两种情况:若H=0,则在水平 下,接受原假设;若H=1,则在水平 下,拒绝原假设。 sig为当原假设为真时(即 成立),得到观察值的概率,当sig为小概率时,则对原假设提出质疑。Ci:均值 的1-alpha置信区间。,应用举例,例71 某车间用一台包装机包装葡萄糖,包得的袋装糖重是一个随机变量,它服从正态分布。当机器正常时,其均值为0.5公斤,标准差为0.015。某日开工后检验包装机是否正常,随机地抽取所包装的糖9袋,称得净重为:(公斤) 0.497 0.518 0.524 0.498 0.511 0.52 0.515 0.512 问机器是否正常?,解: 已知,在水平 =0.05下检验假设: 原假设: 备择假设: 程序: X=0.497,0.506,0.518,0.524,0.498,0.511,0.52,0.515,0.512; H,SIG=ztest(X,0.5,0.015,0.05,0) 运行后显示结果如下: H=1 SIG=0.0248 结果表明:H=1,说明在水平=0.05下,可拒绝原假设,即认为包装机工作不正常。,1 单个正态总体N( )的假设检验,未知,对期望 的假设检验t检验法 调用函数 H=ttest(X,m,sigma) %在水平 =sigma下检验是否成立。 说明:X:样本;m:期望值;alpha:经验水平 ; tail:备择假设的选项,若tail=0(缺省),则备择假设为 ;若tail=1,则 ;若tail=-1,则 。即tail=0(缺省)为双边检验,其余为单边检验问题。 H:检验结果,分两种情况:若H=0,则在水平 下,接受原假设;若H=1,则在水平 下,拒绝原假设。 sig为当原假设为真时(即 成立),得到观察值的概率,当sig为小概率时,则对原假设提出质疑。Ci:均值 的1-alpha置信区间。,应用举例,例7.2 某种电子元件的寿命X(以小时计)服从正态分布, 均未知,现测得16只元件寿命如下: 159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170 问是否有理由认为元件的平均寿命大于225(小时)?,解: 未知,在水平 =0.05下检验假设: 程序: X=159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170; H,SIG=ttest(X,225,0.05,1) 运行后显示结果如下: H=0 SIG=0.2570 结果表明:H=0,说明在水平=0.05下,应接受原假设,即认为元件的平均寿命不大于225小时。,2、两个正态总体均值差的检验(t检验),调用函数 h,sig,ci=ttest(X,Y) h,sig,ci=ttest2(X,Y,alpha) h,sig,ci=ttest2(X,Y,alpha,tail) 说明:原假设为:当tail=0时,表示 (缺省);当tail=1时,表示 ; 当tail=-1时,表示 。 为X,Y的期望,h,sig,ci与前面相同。,应用举例,例7.3 在平炉上进行一项试验以确定改变操作方法的建议是否会增加钢的得率,试验是在同一平炉上进行的。每炼一炉钢时除操作方法外,其它条件都尽可能做到相同。先用标准方法炼一炉,然后用建议的新方法炼一炉,以后交替进行,各炼10炉,其得率分别为 标准方法:78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3 新方法:79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1 设这两个样本相互独立,且分别来自正态总体 N( )和N( ),均未知。问建议的新方法能否提高得率?(取=0.05),解:两个总体方差不变时,在水平 =0.05下经验假设: 程序: X=78.1 72.4 76.2 74.3 77.4 78.4 76.0 75.5 76.7 77.3; Y=79.1 81.0 77.3 79.1 80.0 79.1 77.3 80.2 82.1; H,SIG,CI=ttest2(X,Y,0.05,-1) 运行后显示结果如下: H =1 SIG =3.6151e-004 CI = -Inf -1.8683 结果表明:H=1,说明在水平 =0.05下,应拒绝原假设,即认为建议的新方法能提高得率,因此,比原方法好。,2019/6/9,41,非参数检验:总体分布的检验,Matlab工具箱提供了两个对总体分布进行检验的命令:,(1)h = normplot(x),(2)h = weibplot(x),此命令显示数据矩阵x的正态概率图.如果数据来自于正态分布,则图形显示出直线性形态.而其它概率分布函数显示出曲线形态.,此命令显示数据矩阵x的Weibull概率图.如果数据来自于Weibull分布,则图形将显示出直线性形态.而其它概率分布函数将显示出曲线形态.,2019/6/9,42,例 一道工序用自动化车床连续加工某种零件,由于刀具损坏等会出现故障.故障是完全随机的,并假定生产任一零件时出现故障机会均相同.工作人员是通过检查零件来确定工序是否出现故障的.现积累有100次故障纪录,故障出现时该刀具完成的零件数如下: 459 362 624 542 509 584 433 748 815 505 612 452 434 982 640 742 565 706 593 680 926 653 164 487 734 608 428 1153 593 844 527 552 513 781 474 388 824 538 862 659 775 859 755 49 697 515 628 954 771 609 402 960 885 610 292 837 473 677 358 638 699 634 555 570 84 416 606 1062 484 120 447 654 564 339 280 246 687 539 790 581 621 724 531 512 577 496 468 499 544 645 764 558 378 765 666 763 217 715 310 851 试观察该刀具出现故障时完成的零件数属于哪种分布.,2019/6/9,43,解 1、数据输入,2、作频数直方图 hist(x,10),3、分布的正态性检验 normplot(x),4、参数估计: muhat,sigmahat,muci,sigmaci = normfit(x),(看起来刀具寿命服从正态分布),(刀具寿命近似服从正态分布),估计出该刀具的均值为594,方差204,均值的0.95置信区间为 553.4962,634.5038,方差的0.95置信区间

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论