Course3(输入数据分析).ppt_第1页
Course3(输入数据分析).ppt_第2页
Course3(输入数据分析).ppt_第3页
Course3(输入数据分析).ppt_第4页
Course3(输入数据分析).ppt_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

输入数据的分析,郑红星 大连海事大学交通运输管理学院 物流管理与工程系,2019/7/15,Management Information Simulation,2,内容,概述及输入数据概率分析的步骤 数据的采集与处理 数据分布的分析与假设分布族 参数估计 拟合优度检验,2019/7/15,Management Information Simulation,3,概述与输入数据 概率分析的步骤,2019/7/15,Management Information Simulation,4,概述问题的缘起,模拟问题的数据要求 在模拟工作开始前,必须获得满足要求的数据(一般指的是随机分布特征)来作为输入数据。 另外,由于模拟的特性,必须要求输入数据数量足够多。 单次模拟就要需要许多满足同样分布特性的数据; 由于模拟结果具有随机性,因此需要基于同样分布特性的数据进行多次模拟才能得到可靠解。 问题背景 在实际模拟过程中,很难获取实际的实验数据或者是压根找不到。 在实际系统中很难找到足够多的数据:进行一次模拟的数据相对容易得到,进行多次模拟的数据则难以获得。 例子回顾 炸弹投掷问题 理发店排队服务问题,2019/7/15,Management Information Simulation,5,概述解决思路,通过少数的输入数据来合成大量数据 一个基本假设 一类输入数据应满足一定规律:解析规律/随机规律 解决思路: 利用一种方法来确定输入数据是否满足某个随机分布规律,如果满足,则利用该分布规律来产生大量的数据。 根据能得到的少量实际数据进行分析,得出数据的分布规律; 根据该分布规律来生成足够多的随机数。,2019/7/15,Management Information Simulation,6,输入数据分析示例,理发店例子: 在所研究的理发店蹲点或者去调查已有数据; 收集两类数据; 顾客达到时间间隔数据 理发师服务时间数据 对收集到的数据进行拟合,看更加适合于哪种概率分布; 选取最适合的概率分布函数,如到达时间间隔数据满足一定参数的泊松分布F,理发师服务时间数据满足一定参数的泊松分布G; 根据概率分布函数F和G分布生成足够多的随机数据; 利用这些数据进行模拟。,2019/7/15,Management Information Simulation,7,输入数据常见的概率分布,连续型概率分布 均匀分布(Uniform Distribution) 指数分布(Exponential Distribution) 正态分布(Normal Distribution) 伽玛分布(Gamma Distribution) 离散型概率分布 二项分布(Binomial Distribution) 泊松分布(Poisson Distribution),2019/7/15,Management Information Simulation,8,输入数据常见的概率分布,只能采取匹配法,来选取最佳匹配的概率分布函数。,2019/7/15,Management Information Simulation,9,经验分布,以上假定的一些常见概率分布,则几乎对于任何数据集,都可以拟合到某一常见概率分布上。 一个假设:任何数据外的信息不可靠。 按照实际数据构成的分布(线性内插法) 不能用来产生已知数据以外的任何数据 不具有随机性 应用范围小,2019/7/15,Management Information Simulation,10,经验分布概率函数图示,假定x1, x2, , xn,其中xi xi+1,则可以认为生成一个随机数落在任何一个xi, xi+1)区间内是等概率的。则可得到以下分布函数。,不得以的做法。适用面很窄。,2019/7/15,Management Information Simulation,11,输入数据分析的步骤,按系统研究的目的和模型,确定输入数据的项目和个数; 分析每类输入数据的特性、环境、研究采集方法、编制采集计划、进行数据采集; 对采集的各类数据进行分析,确定数据属于的概率分布族; 确定各类分布的参数; 进行拟合优度检验; 给出结论,确定各类数据的拟合分布。,2019/7/15,Management Information Simulation,12,数据的采集与处理,2019/7/15,Management Information Simulation,13,数据的采集和处理,实际上是非常麻烦和复杂的过程,是一门专门的学科。 Gallup公司(盖洛普)、统计局、 基本步骤和要求: 研究采集方法,编制采集计划; 设计和绘制数据采集表格; 确定具体采集的时空; 按计划分组采集; 数据整理; 简单分析,如直方图,散点图,等; 数据归档。,2019/7/15,Management Information Simulation,14,数据分布的分析与假设分布族,2019/7/15,Management Information Simulation,15,数据分布分析,数据采集结束后,就需要利用概率和数理统计理论对所采集的数据或通过实验得到的数据进行分析。以确定输入数据的拟合概率分布。 确定是否可以拟合一个理论分布,否则就只能建立经验分布。 一个主观原则:除非显然不可能拟合理论分布,否则就一定找一个拟合最优的理论分布 理论分布更加容易理解。 理论分布不仅可以表现已知数据的基本特性,更为重要的是它可以表现没有采集到的数据的特征(一个很强的假设)。 经验告诉我们,很多事情总是有一个概率分布规律的。 可以用来合成无限的数据,从而满足长时间模拟的需要。,2019/7/15,Management Information Simulation,16,分布函数曲线族,指数分布族 正态分布族 ,2019/7/15,Management Information Simulation,17,确定拟合理论分布的步骤,为已知数据假设一组分布族 如,通常的伽马分布族、泊松分布族,正态分布族,指数分布族,等等。但参数待定。 逻辑分析,寻找接近的理论分布。 利用绘图或是简单数值分析的手段,来确定分布的基本特征,从而选出一些可能的或剔除一些不可能的分布族。 例如,对于服务系统中,顾客是以稳定速率一次来一个,切在各个非相互重叠的区间中所到达的顾客数目是相互独立的,则可在理论上认为顾客到达间隔时间是呈指数分布的随机变量。 又如,服务时间可能不可能服从正态分布,因为从正态分布中产生的随机变量有可能是负数。 根据积累的经验,根据系统的特征,确定相应的数据可能满足哪种分布。 统计检验/试探法,2019/7/15,Management Information Simulation,18,数据概率分布的试探法,点统计法 柱状图法 概率图法,2019/7/15,Management Information Simulation,19,点统计法,点统计法是根据某些概率分布的各参数之间存在的一些特殊的关系,通过他们构成的某些函数来判断分布的类型。 常用的一类函数方差系数 Var(x)为分布的方差,E(x)为分布的期望。,2019/7/15,Management Information Simulation,20,常用连续型分布的方差系数,点统计法作为一种简单的测度指标,可以作为判断分布族的一个基本试探。尤其是对于判断指数分布十分有效。,2019/7/15,Management Information Simulation,21,方差系数的估算方法,已知收集的n个数据为x1, x2, , xn,则方差系数的估算方法为: 均值: 方差: 方差系数: 例1 利用点统计法对P28上的某服务窗口219个顾客到达时间间隔数据进行分析,估计它的拟合分布族。 根据点统计的原则,应先计算所分析数据的均值、方差和方差系数如下: 均值:X(219) = 0.399 方差:S2(219) = 0.144 则方差系数为(219) = 0.951 1 则有理由假设这组数据呈指数分布。,2019/7/15,Management Information Simulation,22,柱状图法,是一种直观方法,根据所采集的数据出现频度进行计数,然后绘图。 柱状图对应于概率密度函数。 直观,简单。 但是在很大程度上,取决于所采取的分区间宽度的影响。不同的区间宽度会产生相当不同甚至相反的结果。通常是需要多次采取不同的分区间宽度进行测试比较。,2019/7/15,Management Information Simulation,23,柱状图法示例,通过对P28中的219个数据进行分析绘制出不同的柱状图如下,区间宽度0.1。很明显,这与指数分布的密度函数曲线形状十分相似。,2019/7/15,Management Information Simulation,24,概率图法,概率图法是根据分布函数进行比较和估计。它是将观测数据的分布函数与某个标准分布的分布函数在图形上进行比较,再选择合适的分布。 如下图所示,给定G(x)为某标准分布的分布函数曲线,一般呈S型(这是个问题,因为几乎所有概率分布的分布函数曲线都呈S型)。F(x)为所采集的数据的经验分布函数。则如果F(x)和G(x)形状近似相似(不一定近似相同),则可说明这两个分布相似。 为了能比目测更加精确地判断分布是否相似,可以采取Q-Q图法。可以取同一分位点qi所对应的G-1(qi)和F-1(qi),绘制散点图,如果绘制出的曲线接近一条直线,则说明在许多点上这两个值是相对应的。说明它们可能具有同一分布,只可能是参数取值不同。,2019/7/15,Management Information Simulation,25,概率图法示例,根据要求,理论分布G(x)应该具有显性反函数形式,否则将难以计算。对于经验分布函数而言,可以认为其第i个分位点的分布值qi近似等于i/n,并可用来计算反函数值。 对于此问题,假定理论分布G(x)为指数分布,但是现在还不知道参数(参数不会影响分布函数族形状),不妨假设G(x)为=1的指数分布,即G(x)=e-x,则G-1(q)=-ln(q)。则可根据每个qi=i/n来计算对应的xi和G-1(qi)。则得到一系列点:(xi, G-1(i/n)。则可以得到下图。下图进一步验证了拟合分布的假设分布族为指数分布族。,2019/7/15,Management Information Simulation,26,分布族选择小结,三种方法,或者更多的方法同时试探。 特别是概率图法,由于几乎所有的常见概率分布曲线都呈S型,因此有时很难根据Q-Q图来判断是否近似于某一理论分布。 大胆假设,小心论证,2019/7/15,Management Information Simulation,27,参数的估计,2019/7/15,Management Information Simulation,28,参数的估计,分布函数族确定后,但是必须确定具体的参数值,才能真正得到一个可以应用的拟合分布。 主要的方法即采用:参数的点估计。其理论根据是“极大似然法”,其原理是: 认为所观测到的数据是系统中所产生的概率最大的一组数据。 其方法是先求出选定分布的密度函数,然后利用求导数和判断极值的方法,求出使这组数据产生概率最大值时的分布参数。 常见分布的参数估计: 指数分布的均值: 正态分布的均值: 方差: 泊松分布的均值:,2019/7/15,Management Information Simulation,29,例子,顾客到达间隔219个数据 根据前面的分析,确定为指数分布族。 按照极大似然法,该指数分布根据拟合的密度函数为: = 0.399。则该指数分布为:,2019/7/15,Management Information Simulation,30,小结,在确定了参数后,并不意味着拟合分布已经得到和确定了。这是因为上述所采用的拟合分布的方法是试探法,它的结果只能被认为是一种可能的结果。 为了检验所选分布是否正确,必须要对所选分布进行拟合优度检验,以便最后对所选分布做出结论。,2019/7/15,Management Information Simulation,31,拟合优度检验,2019/7/15,Management Information Simulation,32,拟合优度检验(goodness-of-fit test),拟合优度检验的基本思路是将得到的拟合分布函数用原始数据进行统计假设检验。 假设检验问题即,如果从选定的拟合分布F中采样,是否有可能得到与所观测数据相似的数据? H0:观测数据xi是以F为分布函数的独立同分布的随机变量 即分析拟合分布与观测数据的吻合程度。 常用的拟合优度检验方法: 直观评估 X2检验:针对概率密度函数进行检验 K-S检验:针对分布函数进行检验,2019/7/15,Management Information Simulation,33,直观评估检验,即将拟合分布的密度函数和数据的柱状图比较,从点对点上形状上看是否相似。 特别粗糙,但是简单,可以作为第一步检验来做。,2019/7/15,Management Information Simulation,34,X2检验的基本原理,在总体分布为未知时,根据样本x1, x2, , xn来检验总体分布的假设: H0:总体x的分布函数为F(x)。 X2检验的基本思想如下: 将随机试验所得到的结果全体分为k个互不相容的事件区间A1, A2, , Ak。于是在假设H0下,可以计算pi=P(Ai) 。在n次实验中,事件Ai出现的频率fi/n与pi往往会有差异,但是一般来说,若H0为真,且试验次数足够多时,这种差异不应该很大。基于这种想法,Pierson使用 作为检验假设H0的统计量。 定理: 若n充分达(n 50),则当H0为真时,上述统计量总是近似地服从自由度为k-1的X2分布,其中r是被估计的参数的个数。 于是,若在假设H0下计算上述统计量,则有 在显著性水平下拒绝H0,否则就接收H0。,2019/7/15,Management Information Simulation,35,X2检验的主要步骤,若已知观测的数据有n个,用x1, x2, , xn表示,则X2检验步骤如下: 设定所分的区间数k,pj = 1/k,则每个区间的数据个数为npj。(npj =5)。 将观测数据排序。 按尽量使每个区间的数据数目接近理论概率值npj的要求分成k个相连的区间,并计算个区间端点aj,由于要满足每个区间的数据数目接近npj的要求,所以各个区

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论