第四章仿真输入与输出数据分析_第1页
第四章仿真输入与输出数据分析_第2页
第四章仿真输入与输出数据分析_第3页
第四章仿真输入与输出数据分析_第4页
第四章仿真输入与输出数据分析_第5页
已阅读5页,还剩81页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

问题的缘起目前一页\总数八十六页\编于十八点模拟问题的数据要求在模拟工作开始前,必须获得满足要求的数据(一般指的是随机分布特征)来作为输入数据。另外,由于模拟的特性,必须要求输入数据数量足够多。单次模拟就要需要许多满足同样分布特性的数据;由于模拟结果具有随机性,因此需要基于同样分布特性的数据进行多次模拟才能得到可靠解。问题背景在实际模拟过程中,很难获取实际的实验数据或者是压根找不到。在实际系统中很难找到足够多的数据:进行一次模拟的数据相对容易得到,进行多次模拟的数据则难以获得。例子回顾炸弹投掷问题理发店排队服务问题目前二页\总数八十六页\编于十八点解决思路通过少数的输入数据来合成大量数据一个基本假设一类输入数据应满足一定规律:解析规律/随机规律解决思路:

利用一种方法来确定输入数据是否满足某个随机分布规律,如果满足,则利用该分布规律来产生大量的数据。根据能得到的少量实际数据进行分析,得出数据的分布规律;根据该分布规律来生成足够多的随机数。目前三页\总数八十六页\编于十八点理发店例子:在所研究的理发店蹲点或者去调查已有数据;收集两类数据;顾客达到时间间隔数据理发师服务时间数据对收集到的数据进行拟合,看更加适合于哪种概率分布;选取最适合的概率分布函数,如到达时间间隔数据满足一定参数的泊松分布F,理发师服务时间数据满足一定参数的泊松分布G;根据概率分布函数F和G生成足够多的随机数据;利用这些数据进行模拟。目前四页\总数八十六页\编于十八点模型的输入数据哪里来?

输入数据分析目前五页\总数八十六页\编于十八点生产仿真结果的准确性生产模型的准确建立仿真数据的准确性输入数据是仿真模型的动力目前六页\总数八十六页\编于十八点系统名称典型的输入数据排队系统

顾客到达的间隔时间顾客被服务时间的分布自动化物流系统

货物到达间隔时间装载时间卸载时间生产系统

作业到达的间隔时间作业类型的概率每种作业每道工序服务时间的分布可靠性系统

生产无故障作业时间

系统的仿真依靠这些原型系统的运行数据,缺乏这些数据的实验和实验值的提取,仿真也就毫无意义。目前七页\总数八十六页\编于十八点

对系统进行认真的调查和分析后,可初步确定输入数据的种类和大致特性,接下来便是数据的采集。数据的采集可以在所模拟的现实系统中进行,也可以在所模拟系统的相近系统中进行。当然,采集数据的环境与所模拟的系统环境越相似越好。目前八页\总数八十六页\编于十八点4.1仿真输入数据收集什么是数据收集?数据收集的意义?数据收集的基本态度?数据收集是针对实际问题,经过系统分析或经验的总结,以系统的特征为目标,收集与此有关的资料、数据、信息等反映特征的相关数据。数据的收集是一项工作量很大的工作,也是在仿真中最重要、最困难的问题。即使一个模型结构是正确的,但若收集的输入数据数据不正确,或数据分析不对,或这些数据不能代表实际情况,那么利用这样的数据作为决策的依据必将导致错误,造成损失和浪费。数据收集工作应该具有科学的态度、忠于现实的工作作风。应该将数据收集工作、仿真工作的意义让参与者明确,得到参与者的支持和理解。目前九页\总数八十六页\编于十八点4.1仿真输入数据收集收集输入数据的主要方法:1.通过实际观测获得系统的输入数据。2.由系统管理人员提供实际系统的运行数据。3.从公开发表的研究成果、论文中收集类似系统的输入数据模型。目前十页\总数八十六页\编于十八点4.1仿真输入数据收集1.按系统研究的目的和模型确定输入数据项目

譬如:对于单窗口排队系统顾客到达间隔时间顾客服务时间

对于汽车转运站系统汽车到达间隔时间调度等待时间装车时间汽车故障间隔时间及处理时间数据的收集的内容和步骤:11目前十一页\总数八十六页\编于十八点6.粗略地分析,对不规范的数据要进行处理或重新收集2.分析每个输入数据的特性,环境,研究采集方法,

编制采集计划3.设计和绘制数据采集表格4.确定采集地点和时间5.按计划分组采集,整理例:某银行汽车顾客到达间隔时间数据7.采集的数据经整理后要认真存档124.1仿真输入数据收集目前十二页\总数八十六页\编于十八点13目前十三页\总数八十六页\编于十八点4.1仿真输入数据收集

做好仿真计划,详细规划仿真所需要收集的数据在收集数据过程中要注意分析数据数据的均匀组合收集的数据要满足独立性的要求数据自相关性的检验根据问题的特征,进行仿真的前期研究。分析影响系统的关键因素。从相关事物的观察入手,尽量收集相关的数据。为此可以事先设计好调研表格,并注意不断完善和修改调研方式,使收集的数据更符合仿真对象的数据需要。数据的收集与仿真的试运行是密切相关的,应当是边收集数据、边进行仿真的试运行。然而系统仿真是一项专业性很强的工作,要正确认识“仿真”的含义,抓住仿真研究的关键,避免求全、求精。确信所收集的数据足以确定仿真中的输入分量,而对仿真无用或影响不显著的数据就没有必要去多加收集。针对仿真所收集的各个数据需要进行相关性检验。为了确定在两个变量之间是否存在相关。通过统计方法确定相关的显著性。尽量把均匀数据组合在一组里。校核在相继的时间周期里以及在相继日子内的一时间周期里的数据的均匀性。当校核均匀性时,初步的检验是看一下分布的均值是相同。考察一个似乎是独立的观察序列数据存在自相关的可能性。自相关可能存在于相继的时间周期或相继的顾客中。例如,第i个顾客的服务时间与(i+n)个顾客的服务时间相关。数据收集过程中的注意事项目前十四页\总数八十六页\编于十八点

收集数据,目的是分析数据的规律性(即分布)。以找出这些数据变化的统计规律,并最终确定输入数据的拟合概率分布。如何了解数据的规律呢?1.看看数据是否符合某个理论分布。为此,可先按科学的方法假设一个理论分布,再利用统计检验的手段来判断其是否符合这一分布。2.如果找不到一个合适的理论分布,可以利用已有的数据建立一个经验分布。基本原则154.2仿真输入数据分析目前十五页\总数八十六页\编于十八点采用理论分布的优点不仅可以表现已知数据的基本特性,更重要的是可以表现没有采集到的所有数据的特性现实世界中大多数管理系统内的各类随机过程都有一定的概率分布规律几乎可以产生无限量的数据,从而满足长时间模拟的需要4.2仿真输入数据分析目前十六页\总数八十六页\编于十八点对具有随机变量的系统进行仿真,首先必须确定其随机变量的概率分布,以便在仿真模型中对这些不确定性进行模拟取样,以得到需要的随机变量。4.2仿真输入数据分析目前十七页\总数八十六页\编于十八点为X的分布函数。设X是一个随机变量,定义1的函数值的含义:上的概率.分布函数分布函数的概念是任意实数,则称函数表示X落在目前十八页\总数八十六页\编于十八点∴可以使用分布函数值描述随机变量落在区间里的概率。(1)(2)同理,还可以写出目前十九页\总数八十六页\编于十八点一般地,设离散型随机变量的分布律为由概率的可列可加性得的分布函数为目前二十页\总数八十六页\编于十八点定义1.

设F(x)是随机变量

X的分布函数,若存在非负,使对任意实数则称

X为连续型随机变量,称为

X的概率密度函数,简称概率密度或密度函数。函数概率密度目前二十一页\总数八十六页\编于十八点概率密度的性质⑴

非负性⑵

由于(3)

f(x)在点x处连续,则目前二十二页\总数八十六页\编于十八点3、连续性随机变量的特点(1)(2)(3)F(x)连续。f(x)x目前二十三页\总数八十六页\编于十八点2023/5/17ManagementInformationSimulation24输入数据常见的概率分布只能采取匹配法,来选取最佳匹配的概率分布函数。目前二十四页\总数八十六页\编于十八点§2.7

均匀分布•指数分布设连续随机变量的一切可能值充满某一且在该区间内任一点概率密度相同,即密度函数在区间上为常量,个有限区间称此分布为均匀分布(或等概率分布).理论分布一:均匀分布

(Uniformdistribution)

目前二十五页\总数八十六页\编于十八点均匀分布的意义§2.7

均匀分布•指数分布目前二十六页\总数八十六页\编于十八点§2.7

均匀分布•指数分布目前二十七页\总数八十六页\编于十八点

均匀分布的概率密度与分布函数(1)概率密度§2.7

均匀分布•指数分布目前二十八页\总数八十六页\编于十八点(2)分布函数§2.7

均匀分布•指数分布目前二十九页\总数八十六页\编于十八点§2.7

均匀分布•指数分布目前三十页\总数八十六页\编于十八点§2.7

均匀分布•指数分布理论分布三:指数分布(Exponentialdistribution)

目前三十一页\总数八十六页\编于十八点§2.7

均匀分布•指数分布目前三十二页\总数八十六页\编于十八点§2.7

均匀分布•指数分布目前三十三页\总数八十六页\编于十八点§2.7

均匀分布•指数分布目前三十四页\总数八十六页\编于十八点一、正态分布的定义及其特征(一)定义若连续性随机变量X的概率分布密度函数为:

其中,µ为平均数,σ2

为方差,则称随机变量χ服从正态分布,记为χ~N(µ,σ2).相应的概率分布函数为理论分布三:正态分布normaldistribution目前三十五页\总数八十六页\编于十八点(二)特征正态分布密度曲线是以χ=µ

为对称轴的单峰、对称的悬钟形;f(x)在χ=µ处达到极大值,极大值为f(x)是非负数,以x轴为渐进线;曲线在χ±

σ处各有一个拐点;正态分布密度函数曲线

目前三十六页\总数八十六页\编于十八点正态分布有两个参数,即平均数µ和标准差σ。µ是位置参数,σ是变异度参数。分布密度曲线与横轴所夹的面积为1,即:正态分布密度函数曲线

特征目前三十七页\总数八十六页\编于十八点

μ相同而σ不同的三个正态总体

σ相同而μ不同的三个正态总体特征目前三十八页\总数八十六页\编于十八点二、标准正态分布standardnormaldistribution(一)定义由于正态分布是依赖于参数

µ和(或σ)的一簇分布,造成研究具体正态总体时的不便。因此将一般的(μ,σ2)转换为µ=0,σ2=1的正态分布,则称µ=0,σ2=1的正态分布为标准正态分布。标准正态分布的概率密度函数及分布函数如下:若随机变量U服从标准正态分布,记作U~(0,1)目前三十九页\总数八十六页\编于十八点标准正态分布概率密度函数

目前四十页\总数八十六页\编于十八点理论分布四:泊松分布Possiondistribution

泊松分布是一种可以用来描述和分析随机地发生在单位空间或时间里的稀有事件的分布。所谓稀有事件即为小概率事件。要观察到这类事件,样本含量n必须很大。在生物、医学研究中,服从泊松分布的随机变量是常见的。由于泊松分布是描述小概率事件的,二项分布中p很小,n很大时,可使用泊松分布目前四十一页\总数八十六页\编于十八点泊松分布常用于描述在某一指定时间内或在某一指定范围内,源源不断出现的稀有事件个数的分布。例如,120急救中心每天接到要求服务的呼叫次数;每天到达机场的飞机数;在早上(7:00–8:00)交通高峰期间通过某一道口的机动车数;纺织品在单位面积上的疵点数等等。目前四十二页\总数八十六页\编于十八点一、泊松分布的意义(一)定义

若随机变量X(X=x)只取零和正整数值,且其概率分布为

其中x=0,1,…;μ>0;e=2.7182…是自然对数的底数,则称X服从参数为μ的泊松分布记为X~P(μ)。(二)特征泊松分布作为一种离散型随机变量的概率分布有一个重要的特征。这就是它的平均数和方差相等,都等于常数μ,即μ=σ2=μ。利用这一特征,可以初步判断一个随机变量是否服从泊松分布目前四十三页\总数八十六页\编于十八点泊松分布μ

=4目前四十四页\总数八十六页\编于十八点二、泊松分布的概率计算

μ是泊松分布所依赖的唯一参数。泊松分布的概率计算,只要参数μ确定了,问题就解决了。把x=0,1,2,…代入公式即可求得各项的概率。

但是在大多数服从泊松分布的实例中,分布参数μ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为μ的估计值。目前四十五页\总数八十六页\编于十八点

除理论概率分布外,还有一种由已知数据建立的经验分布。其公式如下:

这是一条非减、右连续函数.46目前四十六页\总数八十六页\编于十八点收集原始数据

基本统计分布的辨识参数估计

拟合度检验

可信否?否是是输入数据分析的基础,需要分析的经验,对收集的方法、数据需要做预先的设计和估算。因此这是一个关键的、细致的工作。通过统计的数学手段(计数统计、频率分析、直方图制作等),得出统计分布的假设函数(如:正态分布、指数分布等)根据(样本的已知)统计特征,计算确定(总体未知的)系统的假设分布参数。拟合优度检验的基本思路是将得到的拟合分布函数用原始数据进行统计假设检验。运用统计分布的检验方法,对假设的分布函数进行可信度检验。通常采用的是2检验。正确输入数据

输入数据模型确定的基本过程4.2仿真输入数据分析目前四十七页\总数八十六页\编于十八点第4章随机变量分布类型的辩识1.连续随机变量分布类型的辩识1)点统计法

基本原理是:基于连续随机变量的偏差系数,根据偏差系统的特征寻求与其相近的理论分布,并假设随机变量的分布为这一理论分布。偏差系数是均方差与均值的比,即

,其中

为随机变量分布的方差;

为随机变量的均值(在点统计法中计算的似然估计,即用样本均值和方差代替随机变量的总体期望和方差计算偏差系数的估计值)。根据连续随机变量分布的偏差系数表4-1,如果能够找到与的似然估计的值相同的偏差系数,则可以近似假设所收集的数据服从该种理论分布。目前四十八页\总数八十六页\编于十八点第4章随机变量分布类型的辩识1.连续随机变量分布类型的辩识目前四十九页\总数八十六页\编于十八点特点简单,但不能唯一确定分布的类型。随机变量分布类型的辩识1.连续随机变量分布类型的辩识目前五十页\总数八十六页\编于十八点第4章随机变量分布类型的辩识

2)直方图法直方图法的基本思路是:首先用观测到的样本数值建立随机变量的概率密度直方图,然后将得到的直方图与理论分布的密度函数曲线图进行比较,从图形上直观的判断该随机变量是否满足某种理论分布。具体步骤如下:(1)将观测的数据

的取值范围分成

个断开的相邻区间

,每个区间的宽度相等;记。(2)对任意区间,设

为第

个区间上观测点的个数,记(3)定义函数

(4)做出函数

的直方图。

(5)将直方图与理论分布的密度函数曲线图进行比较,确定被测函数服从哪种理论分布。只要找到与其直方图相近似的密度函数图,就可以假设随机变量服从该理论分布。1.连续随机变量分布类型的辩识目前五十一页\总数八十六页\编于十八点4.2仿真输入数据分析直方图1直方图的构造方法如下:取值区间划分水平区坐间标标轴注的计区算间确内定的每发一生数垂直标坐注标频轴数上绘上制的各发个生区频间数绘制直方图目前五十二页\总数八十六页\编于十八点直方图分组区间数量的选取1分组区间的组数依赖于观察次数以及数据的分散或散布的程度。一般分组区间组数近似等于样本量的平方根。即:

如果区间太宽(m太小),则直方图太粗或呈短粗状,这样,它的形状不能良好地显示出来。如果区间太窄,则直方图显得凹凸不平不好平滑

合适的区间选择(m值)是直方图制作,分布函数分析的基础。4.2仿真输入数据分析目前五十三页\总数八十六页\编于十八点4.2仿真输入数据分析目前五十四页\总数八十六页\编于十八点离散数据—汽车数量(p215)目前五十五页\总数八十六页\编于十八点连续数据—电子元器件寿命(p217)目前五十六页\总数八十六页\编于十八点例4-2注意选择适当的分段区间4.2仿真输入数据分析目前五十七页\总数八十六页\编于十八点第4章随机变量分布类型的辩识2.离散型随机变量分布类型的辩识

1)点统计法离散情况下的点统计法与连续的情况下的点统计方法相同,即同样采用计算偏差系数的方法,先得到偏差系数

的似然估计,再寻找偏差系数相近的理论分布。

2)线图法线图法是把采集到的数据进行统计并与假设的理论分布的质量函数曲线进行比较,如果存在相近的理论分布,则可以假设其为该理论分布。其具体做法为:采集数据为

,将其按递增顺序排列,由于可能有相同的值的数据,设共有

个取值(

),分别记为

;是取值

的数据个数占到总采集数据个数的比例数。以

作为自变量,以

的值作为函数的值;由函数值向相应的变量作垂线,所得到的图称为线图;再将得到的线图与假设的理论分布的质量函数进行比较,确定随机变量的分布。目前五十八页\总数八十六页\编于十八点第4章随机变量分布类型的辩识3.实验分布目前五十九页\总数八十六页\编于十八点样本总体总体均值、比例、方差等4.2.2参数估计样本统计量例如:样本均值、比例、方差目前六十页\总数八十六页\编于十八点分布函数族确定后,但是必须确定具体的参数值,才能真正得到一个可以应用的拟合分布。主要的方法即采用:参数的点估计。其理论根据是“极大似然法”,其原理是:

认为所观测到的数据是系统中所产生的概率最大的一组数据。4.2.2参数估计目前六十一页\总数八十六页\编于十八点设某一个随机过程X,其n个抽样样本为x1,x2,…,xn,该样本的均值为该样本的方差为如果离散数据已按频数分组,则k是X中不相同数值的个数即分组数,fi是X中数值Xj的观察频数4.2.2参数估计样本均值和样本方差目前六十二页\总数八十六页\编于十八点第4章4.2.2参数估计用直方图或线图确定所收集的样本数据服从某种理论分布之后,还要由观测到的样本值计算出理论分布的参数。在数理统计中有许多参数估计的方法,如矩估计法、极大似然估计法等。因本书的重点在于参数估计的应用,故仅给出常用的理论分布参数及其估计值,如表4-7所示:目前六十三页\总数八十六页\编于十八点在确定了参数后,并不意味着拟合分布已经得到和确定了。这是因为上述所采用的拟合分布的方法是试探法,它的结果只能被认为是一种可能的结果。为了检验所选分布是否正确,必须要对所选分布进行拟合优度检验,以便最后对所选分布做出结论。检验选定的分布是否与观测的数据相吻合目前六十四页\总数八十六页\编于十八点理论分布和实际分布的差异程度?

拟合度检验目前六十五页\总数八十六页\编于十八点什么是假设检验?事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立采用逻辑上的反证法,依据统计上的小概率原理目前六十六页\总数八十六页\编于十八点什么小概率?1. 在一次试验中,一个几乎不可能发生的事件发生的概率2. 在一次试验中小概率事件一旦发生,我们就有理由拒绝原假设3. 小概率由研究者事先确定目前六十七页\总数八十六页\编于十八点假设检验的步骤1提出假设(原假设H0,备择假设H1)2确定适当的检验统计量3规定显著性水平4作出统计决策目前六十八页\总数八十六页\编于十八点设总体参数为,L和U为由样本确定的两个统计量,对于给定的,有则称(L,U)为参数的置信水平为的置信区间。该区间的两个端点L,U分别称为置信下限和置信上限,通称为置信限。为显著性水平,则称为置信水平。显著性水平目前六十九页\总数八十六页\编于十八点将构造置信区间的步骤重复很多次,置信区间包含总体参数真值的次数所占的比例称为置信水平表示为(1-为是总体参数未在区间内的比例常用的置信水平值有99%,95%,90%相应的为0.01,0.05,0.10置信水平目前七十页\总数八十六页\编于十八点由样本统计量所构造的总体参数的估计区间称为置信区间统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个置信区间

目前七十一页\总数八十六页\编于十八点置信区间与置信水平均值的抽样分布(1-)%区间包含了

%的区间未包含1-aa/2a/2目前七十二页\总数八十六页\编于十八点用统计量决策抽样分布H0临界值临界值a/2a/2

拒绝H0拒绝H01-置信水平目前七十三页\总数八十六页\编于十八点20/2=.025目前七十四页\总数八十六页\编于十八点由阿贝(Abbe)

于1863年首先给出,后来由海尔墨特(Hermert)和卡·皮尔逊(K·Pearson)

分别于1875年和1900年推导出来设,则令,则y服从自由度为1的2分布,即对于n个正态随机变量y1

,y2

,yn,则随机变量称为具有n个自由度的2分布,记为c2-分布目前七十五页\总数八十六页\编于十八点c2-分布(性质和特点)1.期望为:E(2)=n,方差为:D(2)=2n(n为自由度)2.可加性:若U和V为两个独立的2分布随机变量,U~2(n1),V~2(n2),则U+V这一随机变量服从自由度为n1+n2的2分布3.当时,2分布的极限分布是正态分布目前七十六页\总数八十六页\编于十八点不同自由度的c2-分布c2n=1n=4n=10n

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论