《数学建模与数据学实验》课件第4章_第1页
《数学建模与数据学实验》课件第4章_第2页
《数学建模与数据学实验》课件第4章_第3页
《数学建模与数据学实验》课件第4章_第4页
《数学建模与数据学实验》课件第4章_第5页
已阅读5页,还剩139页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第4章随机模型4.1概率论基本知识4.2数理统计基本知识4.3随机转移模型4.4随机存储模型4.5蒙特卡罗方法

4.1概率论基本知识

4.1.1概率的概念

概率统计研究的对象是随机现象。在一定条件下,并不总是出现相同结果的现象称为随机现象,只有一个结果的现象称为确定性现象。在相同条件下可以重复的随机现象又称为随机试验。随机现象的一切可能基本结果组成的集合称为样本空间,记为Ω={ω},其中ω表示基本结果,又称为样本点。例如,抛一枚硬币的样本空间为Ω1={ω1,ω2},其中ω1表示正面朝上,ω2表示反面朝上。

随机现象的某些样本点组成的集合称为随机事件,简称事件,常用大写字母A、

B、C、…表示。事件A的概率记为P(A)。4.1.2概率的性质4.1.3随机变量及其分布

定义在样本空间Ω上的实值函数X=X(ω)称为随机变量。常用大写字母X、Y等表示随机变量,其取值用小写字母x、y等表示。假如一个随机变量仅取有限个或可列个值,则称其为离散随机变量;假如一个随机变量的可能取值充满数轴上的一个区间(a,b),则称其为连续随机变量,其中a可以是-∞,b可以是+∞。4.1.4随机变量的数学期望

1.离散随机变量的数学期望4.1.6常用离散分布

1.二项分布

X为n重伯努利试验中成功(记为事件A)的次数,记p为每次试验中A发生的概率,

4.2数理统计基本知识

4.2.1三大抽样分布

若设x1,x2,…,xn和y1,y2,…,ym是来自标准正态分布的两个相互独立的样本,则此三个统计量的构造及其抽样分布如表4.1所示。图4.1参数μ的置信区间

1)因素因素又称因子,是在实验中或在抽样时发生变化的“量”,通常用A、B、C、…表示。方差分析的目的就是分析因子对实验或抽样的结果有无显著影响。如果在实验中变化的因素只有一个,这时的方差分析称为单因素方差分析;在实验中变化的因素不只一个时,就称为多因素方差分析。双因素方差分析是多因素方差分析的最简单情形。

2)水平

因子在实验中的不同状态称做水平。如果因子A有r个不同状态,就称它有r个水平。我们针对因素的不同水平或水平的组合,进行实验或抽取样本,以便了解因子的影响。

3)交互影响

当方差分析的影响因子不唯一时,必须注意这些因子间的相互影响。如果因子间存在相互影响,我们称之为交互影响;如果因子间是相互独立的,则称为无交互影响。交互影响有时也称为交互作用,是对实验结果产生作用的一个新因素,分析过程中,有必要将它的影响作用也单独分离开来。

2.均方差与自由度

因素或因素间“交互作用”对观测结果的影响是否显著,关键要看组间方差与组内方差的比较结果。当然,产生方差的独立变量的个数对方差大小也有影响,独立变量个数越多,方差就可能越大;独立变量个数越少,方差就可能越小。为了消除独立变量个数对方差大小的影响,我们用方差除以独立变量个数,得到“均方差”,作为不同来源方差比较的基础。引起方差的独立变量的个数,称做“自由度”。检验因子影响是否显著的统计量是一个F统计量:

F统计量越大,越能说明组间方差是主要方差来源,因子影响越显著;F越小,越能说明随机方差是主要的方差来源,因子的影响越不显著。

3.单因子方差分析

(1)单因子条件下偏差平方和的分解数据结构如表4.8

所示。

F值越大,越说明总的方差波动中,组间方差是主要部分,有利于拒绝原假设接受备择假设;反之,F值越小,越说明随机方差是主要的方差来源,有利于接受原假设,有充分证据说明待检验的因素对总体波动没有显著影响。因此,检验的拒绝域安排在右侧。

对给定的α可判断如下:

如果F≥F1-α(fA,fe),则认为因子A显著;若F<F1-α

(fA,fe),则说明因子A不著。

单因子方差分析如表4.9所示。4.2.5回归分析

回归分析是考察变量之间的统计联系的一种重要方法,它在许多领域有广泛的应用。本节主要考察一个随机变量与另一个或多个非随机变量之间的关系。

1.回归的概念

实际问题中,我们常常需要研究多个变量之间的相互关系,变量之间的关系大致可分为两类:一类是确定性的关系,另一类是非确定性的关系。对于某些非确定性的关系,如随机变量y与变量x(它可以是一个n维向量)之间的关系,当自变量x确定之后,因变量y的值并不能跟着确定,而是按照一定的统计规律(即随机变量y的分布)取值,这时将它们之间的关系表示为

y=f(x)+ε其中,f(x)是一个确定的函数,称之为回归函数,ε为随机误差项,ε~N(0,σ2)。

回归分析的任务之一是确定回归函数f(x)。当f(x)是一元线性函数时,称之为一元线性回归;当f(x)为多元线性函数时,称之为多元线性回归;当f(x)是非线性函数时,称之为非线性回归。如何确定f(x)呢?一是根据经验公式,二是根据散点图。不管是哪种类型的回归,f(x)总含有未知参数,需要用到参数估计的方法,一般情况下,还需要检验f(x)是否合理。回归分析的目的是用f(x)来进行预测和决策。

2.一元线性回归模型

一元线性回归模型为

y=b0+b1x+ε

将数据点(xi,yi)(i=1,2,…,n)代入,有yi=b0+b1xi+εi(i=1,2,…,n)。其中,b0、b1是未知参数,εi为剩余残差项或随机扰动项,反映所有其他因素对因变量yi的影响。在运用回归方法进行预测时,要求满足一定的条件,其中最重要的是εi,必须具备如下特征:

(1)εi是一个随机变量;

(2)εi的数学期望值为零,即E(εi)=0;

(3)在每一个时期中,εi的方差为一常量,Var(εi)=σ2;

(4)各个εi间相互独立;

(5)εi与自变量无关。

大多数情况下,假定εi~N(0,σ2)。建立一元线性回归模型的步骤如下:

3)进行检验

回归模型建立之后,能否用来进行实际预测,取决于它与实际数据是否有较好的拟合度,模型的线性关系是否显著等。为此,在用来实际预测之前,还需要对模型进行一系列评价检验。

(1)标准误差。

标准误差是估计值与因变量值之间的平均平方误差,其计算公式为

它可以用来衡量拟合优度。(2)判定系数。

判定系数是衡量拟合优度的一个重要指标,它的取值介于0与1之间,其计算公式为

R2越接近于1,拟合程度越好;反之越差。(3)相关系数。

相关系数是一个用于测定因变量与自变量之间的线性相关程度的指标,其计算公式为

相关系数r与判别系数R2之间存在关系式,但两者的概念不同。判定系数R2用来衡量拟合优度,而相关系数r用来判定因变量与自变量之间的线性相关程度。相关系数的数值范围是-1≤r≤1。当r>0时,称x与

y正相关;当r<0时,称x与y负相关;当r=0时,称x与y不相关;当|r|=1时,称x与y完全相关。|r|越接近于1,相关程度越高。

相关系数的显著性检验,简称相关检验,用来判断y与x是否显著线性相关。

相关检验需利用相关系数表进行。首先计算样本相关系数r值,然后根据给定的样本容量n和显著性水平α查相关系数表,得临界值rα,最后进行检验判断:

若|r|>rα,则x与y有显著的线性关系;

若|r|<rα,则x与y的线性相关关系不显著。①当DW值小于或等于2时,DW检验法则规定:如果DW<dl,则认为εi存在正自相关;

如果DW>dε,则认为εi无自相关;

如果dl<DW<dε,则不能确定εi是否有自相关。②当DW值大于2时,DW的检验法则规定:

如果4-DW<dl,则认为εi存在负自相关;

如果4-DW>dε,则认为εi无自相关;

如果dl<4-DW<dε,则不能确定εi是否有自相关。

根据经验,DW统计量的值在1.5~2.5之间时表示没有显著自相关问题。以上检验可利用统计软件包(如SPSS、Matlab等)在进行回归时同时完成。

(3)复相关系数:

4.3随机转移模型

4.3.1马氏链模型

【例4.4】某商店每月考察一次经营状况,其结果用销路好和销路坏两种情况中的一种表示。已知如果本月销路好,下月仍保持这种状况的概率为0.5;如果本月销路坏,下月转变为销路好的概率为0.4。试分析假如开始时商店处于销路好的状况,那么经过若干月后能保持销路好的概率有多大?如果开始时商店处于销路坏的状况呢?

【例4.5】考察微量元素磷在自然界中的转移情况。假定磷只分布在土壤、草、牛、羊等生物体,以及上述系统之外(如河流中)这三种自然环境里。每经过一段时间磷在上述三种环境里的比例会发生变化,变化具有无后效性。经过一定时间,土壤中的磷有30%被草吸收,又被牛羊吃掉,有20%排至系统之外,50%仍在土壤之中;生物体中的磷有40%因草枯死、牛羊排泄又回到土壤中,40%移出系统,20%留在生物体内;而磷一旦转移到系统之外,就100%地不再进入系统。假定磷在土壤、生物体和系统外的初始比例是0.5∶0.3∶0.2,研究经过若干段时间后磷在三种环境中的转移情况。容易看出,对于马氏链模型最基本的问题是构造状态,即写出转移矩阵。一旦有了P,那么给定初始状态概率a(n),就可以用式(4.8)或(4.9)计算任意时段n的状态概率a(n)。

应该指出,这里的转移概率pij与时段n无关,这种马氏链称为齐次马氏链,本节将重点讨论。

2.正则链

这类马氏链的特点是从任意状态出发经过有限次转移都能达到另外的任意状态。其定义为:一个有k个状态的马氏链如果存在正整数N,使从任意状态i

经过N次转移都以大于零的概率到达状态j(i,j=1,2,…,k),则称为正则链。用下面的定理容易检验一个马氏链是否是正则链。

4.4随机存储模型

4.4.1离散型随机变量的存储模型

【例4.6】

(报童问题)一个报童每天从邮局订购一种报纸,沿街叫卖。已知报童每卖完100份报纸可获利7元。如果当天卖不掉,第二天削价可以全部卖出,但这时报童每100份报纸要赔4元。报童每天售出的报纸数x是一随机变量,概率分布见表4.18,问:报童每天订购多少份报纸

最佳?4.4.2连续型随机变量的存储模型

【例4.7】(物资存储策略)

一煤炭供应部门煤的进价为65元/吨,零售价为70元/吨。若当年卖不出去,则第二年削价20%处理掉;如供应短缺,有关部门每吨罚款10元。已知顾客对煤需求量x服从均匀分布,分布函数为

求一年煤炭的最优存储策略。

4.5蒙特卡罗方法

蒙特卡罗(MonteCarlo)方法的实质是通过大量随机试验,利用概率论解决问题的一种数值方法,基本思想基于概率的几何定义。利用蒙特卡罗方法在计算的过程中出现的数是随机的,但是它要解决的问题的结果却是相同的。4.5.1蒙特卡罗方法的来源和思想

历史上有记载的蒙特卡罗试验始于十八世纪末期,当时蒲丰(Buffon)为了计算圆周率,设计了一个“投针试验”。1.蒲丰投针试验

1777年,法国科学家蒲丰提出著名的投针问题,这是几何概率中一个最典型的例子。投针问题的主要内容是:在平面上等距离地画出一些平行线,向其投出某一特定长度的针,试求针与任一平行线相交的概率。下面推导π的计算公式。设针投到地面的位置可以用一组参数(x,θ)来描述,x为针中心的坐标,θ为针与平行线的夹角,如图4.2所示。图4.2蒲丰投针试验图图4.3数值积分简单示例蒙特卡罗数值积分方法和上述类似,差别在于,蒙特卡罗方法中,我们不需要将所有柱子的面积相加,只需要随机地抽取一些函数值,将它们的面积累加后计算平均值即可。通过相关数学知识可以证明,随着抽取点的增加,近似面积也将逼近真实面积。

如图4.4所示,设总计投了M个点,落入阴影部分N个,则阴影部分的面积为S≈N/M

。图4.4蒙特卡罗法计算图形面积

2.随机最优化

蒙特卡罗方法在随机最优化中的应用包括模拟退火(SimulatedAnnealing)、进化策略(EvolutionStrategy)等等。一个最简单的例子是,已知某函数,要求此函数的最大值,那么我们可以不断地在该函数定义域上随机取点,然后用得到的最大的点作为此函数的最大值。这个例子实质也是随机数值积分,它等价于求此函数的无穷阶范数(∞-Norm)在定义域上的积分。

(3)到达停止条件后退出:常用的停止条件有两种,一种是设定最多生成N个x,数量达到后即退出,另一种是检测计算结果与真实结果之间的误差,当这一误差小到某个范围之内时退出。积分表达式中的积分符号类比为上式中的累加符号,dx类比为1/N(数学知识告诉我们积分实质是极限意义下的累加;f(x)还是它自己,积分中的ψ(x)可类比为依据ψ(x)生成随机数)。(4)误差分析:利用蒙特卡罗方法得到的结果是随机变量,因此在给出点估计后,还需要给出此估计值的波动程度及区间估计。严格的误差分析首先要从证明收敛性出发,再计算理论方差,最后用样本方差来替代理论方差。4.5.4随机数的生成

定义4.1设R为[0,1]上服从均匀分布的随机变量,分布密度函数与分布函数分别为则R的样本值,即以等概率取自[0,1]的一串数称为[0,1]上均匀分布的随机数。随机数在数学建模中有很多应用,如前面的求面积和体积。在很多实际复杂问题的模拟上,也要用到随机数的产生,如交通流和大型战争模型等。

产生随机数的方法很多,现在一般是通过计算机产生随机数,其实计算机产生的随机数是根据一定的算法来产生的,产生的随机数不是完全随机的,这些随机数又称伪随机数,但

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论