应用篇-第10章-Matlab在数理统计中的应用_第1页
应用篇-第10章-Matlab在数理统计中的应用_第2页
应用篇-第10章-Matlab在数理统计中的应用_第3页
应用篇-第10章-Matlab在数理统计中的应用_第4页
应用篇-第10章-Matlab在数理统计中的应用_第5页
已阅读5页,还剩47页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、第10章 Matlab在数理统计中的应用,数理统计是伴随着概率论的发展而发展起来的一个数学分支,研究如何有效的收集、整理和分析受随机因素影响的数据,并对所考虑的问题作出推断或预测,为采取某种决策和行动提供依据或建议。数理统计在自然科学、工程技术、管理科学及人文社会科学中得到越来越广泛和深刻的应用,其研究的内容也随着科学技术和政治、经济与社会的不断发展而逐步扩大,但概括地说可以分为两大类:(1)试验的设计和研究,即研究如何更合理更有效地获得观察资料的方法;(2)统计推断,即研究如何利用一定的资料对所关心的问题作出尽可能精确可靠的结论,当然这两部分内容有着密切的联系,在实际应用中更应前后兼顾。 本

2、章我们将介绍如何使用Matlab研究解决数理统计和概率论的问题,通过本章的学习着重应该了解面对一批数据如何进行描述与分析,并需要掌握参数估计和假设检验这两个数理统计的最基本方法在Matlab中的实现,这其中我们将着重介绍使用Matlab的统计工具箱(Statistics Toolbox)来实现数据的统计描述和分析。,10.1 数据分析,10.1.1 总体与样本 总体:是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体,即研究对象的某项指标的取值的集合或全体。 个体:每个研究对象。 样本:总体的一部分。,10.1.2 几种均值 在给定的一组数据中,要进行各种均值的计算,在Matlab中

3、可由以下函数实现。 mean算术平均值函数。对于向量x,mean (x) 得到它的元素的算术平均值;对于矩阵,mean (x)得到x各列元素的算术平均值,返回一个行向量。 nanmean求忽略NaN的随机变量的算术平均值。 geomean求随机变量的几何平均值。 harmmean求随机变量的和谐平均值。 rimmean求随机变量的调和平均值。,10.1.3 数据比较 在给定的一组数据中,还常要对它们进行最大、最小、中值的查找或对它们排序等操作。Matlab中也有这样的功能函数。 max 求随机变量的最大值元素; nanmax 求随机变量的忽略NaN的最大值元素; min 求随机变量的最小值元素

4、; nanmin 求随机变量的忽略NaN的最小值元素; median 求随机变量的中值; nanmedian 求随机变量的忽略NaN的中值; mad 求随机变量的绝对差分平均值; sort 对随机变量由小到大排序; sortrows 对随机矩阵按首行进行排序; range 求随机变量的值的范围,即最大值与最小值的差(极差)。,10.1.4 累和 与累积 向量或矩阵的元素累和或累积运算是比较常用的运算,在Matlab中可由以下函数实现。 sum 若X为向量,sum (X)为X中各元素之和,返回一个数值;若X为矩阵,sum (X)为X中各列元素之和,返回一个行向量。 nansum 忽略NaN求向量

5、或矩阵元素的累和。 cumsum 求当前元素与所有前面位置的元素和。返回与X同维的向量或矩阵。 cumtrapz 梯形累和函数。 prod 若X为向量,prod (X)为X中各元素之积,返回一个数值;若X为矩阵,prod (X)为X中各列元素之积,返回一个行向量。 cumprod 求当前元素与所有前面位置的元素之积。返回与X同维的向量或矩阵。,10.1.5 简单随机样本 ,i.i.d,独立同分布。无限总体抽样。在Matlab中各种随机数可以认为是独立同分布的,即简单随机样本。以下罗列在Matlab中的实现方法。 ,均匀分布样本。n=10;x=rand(1,n) n=10;a=-1;b=3; x

6、=rand(1,n); x=(b-a)*x+a ,正态分布样本。 n=10;x=randn(1,n) 。 mu=80.2;sigma=7.6;m=1;n=10; x=normrnd(mu,sigma,m,n); 上面首先对总体均值赋值mu=80.2,再对标准差赋值sigma=7.6, m=1,n=10,分别对生成的随机阵对的行数和列数进行赋值,然后可直接利用Matlab自带的函数normrnd生成正态分布的随机数。类似地可生成m行n列的随机矩阵,服从指定的分布。生成随机数的函数后缀都是rnd,前缀为分布的名称。,10.1.6 有限总体的无放回样本 若有限总体为 ,希望从中无放回抽取容量为n的样

7、本,这里N与n已经赋值,则可利用: r=randperm(N) 产生 ,的一个随机全排列,即r是一个N维向量。于是,对于给定的N维向量X,令x=X(r(1:n),可得到容量为n的无放回抽样本x。无放回抽样中,各样本点不是独立的。,10.2 离散型随机变量的概率及概率分布 随机取值的变量就是随机变量,随机变量分为离散型随机变量与 连续型随机变量两种(变量分为定性和定量两类,其中定性变量又分为分类变量和有序变量;定量变量分为离散型和连续型),随机变量的函数仍为随机变量。 有些随机变量,它全部可能取到的不相同的值是有限个或可列无限多个,这种随机变量称为离散型随机变量。,10.2.1 几个常见分布:

8、1. 二项分布 2. Poisson分布 3. 超几何分布,10.2.2 概率密度函数值 无论是离散分布还是连续分布,在Matlab中,都用通用函数pdf或专用函数来求概率密度函数值。而对于离散型随机变量,取值是有限个或可数个,因此,其概率密度函数值就是某个特定值的概率,即利用函数pdf求输入分布的概率。 1. 通用概率密度函数pdf计算特定值的概率 命令:pdf 格式为:Y = pdf (name, k, A) Y = pdf (name, k, A, B) Y = pdf (name, k, A, B, C) 说明:返回以name为分布,在随机变量X = k处,参数为A、B、C的概率密度值

9、;对离散型随机变量X,返回X = k处的概率值,name为分布函数名。 常见的分布有: name = bino(二项分布),hyge(超几何分布),geo(几何分布),poiss(Poisson分布)。,2. 专用概率密度函数计算特定值的概率 (1)二项分布的概率值 命令:binopdf 格式:binopdf (k,n,p) 说明:等同于pdf (bino, k, n, p)。n试验总次数;p每次试验事件A发生的概率;k事件A发生k次。 (2)Poisson分布的概率值 命令:poisspdf 格式:poisspdf (k, Lambda) 说明:等同于pdf (poiss, k, Lambd

10、a),参数Lambda = np。 (3)超几何分布的概率值 命令:hygepdf 格式:hygepdf (k, N, M, n) 说明:等同于pdf (hyge, k, N, M, n),N产品总数,M次品总数,n抽取总数(nN),k抽得次品数。,3. 通用函数cdf用来计算随机变量Xk的概率之和(累积概率值) 命令:cdf 格式:cdf (name, k, A) cdf (name, k, A, B) cdf (name, k, A, B, C) 说明:返回以name为分布、随机变量Xk的概率之和(即累积概率值),name为分布函数名。 4. 专用函数计算累积概率值(随机变量Xk的概率之和

11、,即分布函数) (1)二项分布的累积概率值 命令:binocdf 格式:binocdf (k, n, p) (2)Poisson分布的累积概率值 命令:poisscdf 格式:poisscdf (k, Lambda) (3)超几何分布的累积概率值 命令:hygecdf 格式:hygecdf (k, N, M, n),5. 二项分布 (1) 求n次独立重复试验中事件A恰好发生k次的概率P。 命令:pdf 或 binopdf 格式:pdf (bino, k, n, p) 或 binopdf (k, n, p) 说明:该命令的功能是计算二项分布中事件A恰好发生k次的概率。pdf为通用函数,bino表

12、示二项分布,binopdf为专用函数,n为试验总次数,k为n次试验中,事件A发生的次数,p为每次试验事件A发生的概率。 (2) 在n次独立重复试验中,事件A至少发生k次的概率P_s。 命令:cdf 或 binocdf 格式:cdf (bino, k, n, p) 或 binocdf (k, n, p) 说明:该命令的功能是返回随机变量Xk的概率之和(即累积概率值)。其中cdf为通用函数,binocdf为专用函数,n为试验总次数,k为n次试验中,事件A发生的次数,p为每次试验事件A发生的概率。 所以,至少发生k次的概率为 P_s = 1- cdf (bino, k-1, n, p) 或 P_s

13、= 1- binocdf (k-1, n, p),6. Poisson分布 在二项分布中,当n的值很大,p的值很小,而np又较适中时,用Poisson分布来近似二项分布较好(一般要求 = np10)。 (1) n次独立重复试验中,事件A恰好发生k次的概率P_k。 命令:pdf 或 poisspdf 格式:pdf (poiss, k, Lambda) 或 poisspdf (k, Lambda) 说明:在Matlab中,poiss表示Poisson分布。该命令返回事件恰好发生k次的概率。 (2) n次独立重复试验中,事件A至少发生k次的概率P 累积概率值 命令:cdf 或 poisscdf 格式

14、:cdf (poiss, k, Lambda) 或 poisscdf (k, Lambda) 说明:该函数返回随机变量Xk的概率之和,Lambda = np A至少发生k次的概率P_k P_k = 1- cdf (poiss, k-1, Lambda) 或 P_k = 1- poisscdf (k-1, Lambda),7. 超几何分布 (1) 设N为产品总数,M为其中次品总数,n为随机抽取件数(nN),则次品数X恰为k件的概率p_k(k = 0, 1, 2, , min (n, M))可由下列命令求得: 命令:pdf 或 hygepdf 格式:pdf (hyge, k, N, M, n) 或

15、 hygepdf (k, N, M, n)。 (2) 累积概率值的求法: 命令:cdf 或 hygecdf 格式:cdf (hyge, k, N, M, n) 或 hygecdf (k, N, M, n)。 说明:该函数的功能是返回次品数Xk的概率之和。,10.3 连续型随机变量的概率及其分布 对于随机变量X,若存在一个非负的可积函数f(x)(xR),使对于任意两个实数a、b(假设ab),都有:Pa0,则称 即 ,为X与Y的相关系数,记为 。 当 = 0 时,称X与Y不相关。 Matlab提供了求样本相关系数的函数。 corrcoef (X,Y) %返回列向量X,Y的相关系数。 corrceo

16、f (X) %返回矩阵X的列向量的相关系数矩阵。,10.7 参数估计 通常,一个随机变量的分布可由某些参数决定,但在实际问题中要想知道一个分布的参数的精确值是很困难的,因此,需要对这些参数的取值作出估计。参数估计就是通过随机样本去估计参数的取值以及参数的取值范围。 Matlab的统计工具箱中采用极大似然法给出了常用概率分布的参数的点估计和区间估计值。另外还提供了部分分布的对数似然函数的计算功能。,10.7.1 点估计 点估计:对于给定的总体和样本,如果用某个统计量的值估计总体的某个未知参数,这种估计方法称为点估计,该统计量称为点估计量。例如用样本均值 ,估计总体估值,用样本方差 ,估计总体方差

17、,都属于点估计。 常用的求点估计量的方法有:矩估计法、最大似然估计法,是考研究生要求掌握的方法,常用教材都有详细叙述。 对于同一个未知参数,常有多种估计方法,如何选择?这涉及到估计量的评价标准。常从以下三个不同角度考察。,10.7.2 区间估计 所谓区间估计,就是用两个估计量 与 估计未知参数 ,使得随机区间 能够包含未知参数的概率为指定的 。即: 称满足上述条件的区间 为 的置信区间,称 为置信水平, 为置信下限, 为置信上限。 Matlab统计工具箱中给出了最大似然法估计常用概率分布的参数的点估计和区间估计值函数,还提供了部分分布的对数似然函数的计算功能。,10.8 假设检验 在Matla

18、b中,假设检验问题都提出两种假设:即原假设和备择假设。对于正态总体均值 的假设检验给出了检验函数: ztest 已知 ,检验正态总体均值 。 ttest 未知 ,检验正态总体均值 。 ttest2 两个正态总体均值比较。 对于一般连续型总体一致性的检验,给出了检验方法秩和检验,由函数ranksum实现。,10.8.1 假设检验的基本概念 10.8.2 总体参数的假设检验: 1. 正态总体均值的假设检验 2. 方差未知情形 3. 两个正态总体均值差的检验(t检验) 4. 两正态总体方差的假设检验 5. 大样本非正态总体均值的假设检验,10.8.3 三个常用的非参数检验 大样本情形下,对于非正态总

19、体,可以利用中心极限定理近似用标准正态分布进行假设检验。小样本情形,若总体不是正态分布的,可以使用非参数检验的方法。非参数检验的效率稍差,但适应各种总体类型,应用范围较广。 1. 符号检验 2. Wilcoxon秩和检验 3. Wilcoxon符号秩检验,10.8.4 检验的功效函数 为了简单起见,我们只讨论位置参数的单侧检验: H0: H1: 其中 为总体的中位数。 对于上述检验,当总体为方差已知正态总体时,有 检验;当总体为方差未知正态总体时,有t检验;当总体为连续对称总体时,有符号检验及Wilcoxon符号秩检验。自然有一个问题,如何评价不同的检验方法的优劣? 对于相同的样本容量,对于相

20、同的显著性水平,一般比较区间 时拒绝的概率 , 此时为犯第二类错误的概率。不同的检验方法犯第一类错误的概率已经被 控制了,具有相当的,此时比较 ,小者为好;或者等价地说,比较 时的 ,越大越好。 称 , 为检验的功效函数。功效大的检验是好的检验,10.8.5 总体分布的假设检验 设 为来自总体 的简单随机样本, 为已知的一个固定的分布函数,要进行如下的检验: H0: H1: 对此检验问题,有两种常用的方法。 对总体分步进行假设检验,一般要求样本容量较大,例如至少100。 1. 检验 2. Kolmogorov检验 Kolmogorov检验利用的是经验分布函数 : 检验统计量为:,可以证明,对于任意的 , 为了求出临界值,先给出自定义函数KolQ.m用于计算上述 。 function Q=KolQ(x) n=length(x); for i=1:n Q(i)=0; if x(i)0 a=1; k=1; while abs(a)10(-10) Q(i)=Q(i)+a; a=2*(exp(-2*k2*x(i)2)*(-1)k; k=k+1; end end end

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论