




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第3章数据的采集与统计分析 主要内容 3 1数据的采集3 2分布的识别3 3参数估计3 4拟合度检验3 5随机变量的生成 输入数据是模拟实验的动力 系统的模拟依靠这些原型系统的运行数据 缺乏这些数据的实验和实验值的提取 模拟也就毫无意义 引言 收集原始数据 基本统计分布的辨识 参数估计 拟合度检验 否 是 是输入数据分析的基础 需要分析的经验 对收集的方法 数据需要做预先的设计和估算 因此这是一个关键的 细致的工作 通过统计的数学手段 计数统计 频率分析 直方图制作等 得出统计分布的假设函数 如 正态分布 负指数分布 Erlang分布等 根据统计特征 计算确定系统的假设分布参数 运用统计分布的检验方法 对假设的分布函数进行可信度检验 通常采用的是 2检验 输入数据模型确定的基本方法 正确输入数据 引言 常用随机分布离散两点分布二项式分布泊松分布 产品合格 不合格 批量产品中合格品数量与次品的数量 单位时间内道路上通过的车辆数 顾客到达数 交换机单位时间内呼叫数 引言 常用随机分布连续均匀分布指数分布正态分布韦伯分布 可用于随机变量的生成 电话系统中用户的通话时间 机器设备发生故障的时间间隔 测量误差 某个地区劳动者的收入 零部件或设备的寿命 完成某项任务所需要的时间 引言 3 1数据的采集 数据采集是针对实际问题 经过系统分析或经验的总结 以系统的特征为目标 收集与此有关的资料 数据 信息等反映特征的相关数据 数据的采集是一项工作量很大的工作 也是在模拟中最重要 最困难的问题 即使一个模型结构是正确的 但若收集的输入数据数据不正确 或数据分析不对 或这些数据不能代表实际情况 那么利用这样的数据作为决策的依据必将导致错误 造成损失和浪费 数据采集工作应该具有科学的态度 忠于现实的工作作风 应该将数据收集工作 模拟工作的意义让参与者明确 得到参与者的支持和理解 什么是数据采集 数据采集的意义 数据采集的基本态度 做好模拟计划 详细规划模拟所需要收集的数据确定应该收集些什么样的数据 何时进行采集以及以什么样的方式进行采集 数据采集的类型应该尽量广泛 而不应该仅仅局限于实际建模时要用到的数据类型 例如 在采集工人使用机床加工零件的时间时 如果除了采集工人加工一个零件所使用的时间外 同时再采集一些诸如工人的性别 年龄 身体状况等辅助数据 这样在以后的数据分析中如发现某些数据与其它数据有明显差异 就可利用辅助数据 判别数据是否具有合理性与代表性 或者指导我们对所采集数据进行合理的修正 数据采集的时间应有一定的跨度 以免所采集的样本数据带有某种片面性 为了对某个交通道口的堵车情况进行模拟 采集车流数据的时间不能只是在一天中的某一段时间 如早晨 也不能只是在一个星期中的某一天 3 1数据的采集 技巧 3 1数据的采集 过程监控 由于数据的采集工作可能并不是进行一次就能完成的 而是可能历时几天 几个星期甚至几个月 一般讲 系统在不同时间所处的环境不同 而在不同环境下采集的数据会有一定的统计差异性 我们要知道在数据采集过程中 所采集的数据是否具有统计上的一致性 或者说在采集过程中系统的特征是否发生了变化 可以运用控制图对数据的采集过程进行监控 主要对数据样本的均值与极差进行监控先确定一个数据采集的初始阶段 在这阶段中采集到的数据用于建立控制图 为以后的采集过程的监控提供依据 假设在初始阶段我们已采集到了N个数据 将这N个数据按采集的顺序分成k批 每批n 一般取n 5或6为好 个数据 记第i批第j个数据为xij 则我们可以计算出每批的均值极差 3 1数据的采集 过程监控 3 1数据的采集 过程监控 批均值的平均值和极差的平均值的控制限为R的控制限为 3 2分布的识别 数据特征分析 数据特征分析的目的是帮助我们用一些简单的统计特征指标来描述大样本数据 从而揭示样本数据的一些基本特征 样本均值 中位数 方差 偏差系数 莱克塞斯比率 偏斜系数 3 2分布的识别 直方图 直方图构筑方法 对于离散系统的统计分析中 一般用频率统计的分析方法来计算分布函数 其图形描述用的就是直方图 分组区间的组数依赖于观察次数以及数据的分散或散布的程度 一般分组区间组数近似等于样本量的平方根 即 如果区间太宽 m太小 则直方图太粗或呈短粗状 这样 它的形状不能良好地显示出来 如果区间太窄 则直方图显得凹凸不平不好平滑 合适的区间选择 m值 是直方图制作 分布函数分析的基础 3 2分布的识别 直方图分组区间数量的选取 合适的区间选择 m值 是直方图制作 分布函数分析的基础 对直方图进行曲线拟合 拟合所得到的曲线应该就是该随机变量的概率或密度函数 密度函数是一个一般概率函数 通常 我们通过标准函数的假设 将概率分布假设成标准分布函数形式 如 负指数分布 泊桑分布等 3 2分布的识别 直方图分组区间数量的选取 通过对随机过程的样本值的直方图分析 我们已经得到了随机过程的分布假设 即假设随机过程的概率分布符合某一种标准随机分布 这是一种定性分析的结果 在给定了一种随机分布函数后 需要进一步获取这一分布函数的特征参数在收集到的实际系统随机变量的实际数据基础上 对分布类型重点未知总体参数进行估计的过程称为参数估计 3 3参数估计 作用 位置参数 确定分布函数取值的范围当 变化时 分布函数仅仅在坐标系上的位置发生变化比例参数 用于确定在分布范围内取值的大小比例 的改变只压缩或扩张分布函数 不改变其基本形状形状参数 是决定分布函数基本形状 从而改变分布函数性质的参数 3 3参数估计 分布参数的类型 矩估计法 极大似然法 最小二乘拟合估计模拟中常用的一些分布参数建议值 3 3参数估计 方法 3 4拟合度检验 为了测试随机样本量为n的随机变量X服从某一特定分布形式的假设 常用 2拟合度检验 这种检验方法首先是把n个观察值分成k个分组区间或单元 检验的统计量由下式给出 k为分布的阶数 式中 Ni是在第i个分组区间的观察频数 Ni ni n 这里的pi是理论值 是对应第i个分组区间的假设概率 可以证明 02近似服从具有自由度f k s 1的 2分布 这里s表示由采样统计量所估计的假设分布的参数个数 假设检验作零假设 H0 观察值Xi是一组属于分组分布函数F的独立相同分布的随机变量 若 2太大则拒绝H0 若拟合是好的 则期望值 2很小 3 4拟合度检验 拟合程度的判定 我们可以根据拟合度检验的要求 设定一个拟合度的显著性指数 根据设定的显著性指数 以及 2分布的自由度数f k s 1 可以查 2表得到 f2 如果则检验未通过 H0不成立 如果则检验通过 H0成立 3 4拟合度检验 指定拟合度的检验 概述随机数的生成随机数的检验随机变量的生成 3 5随机变量的生成 在大量的模拟模型中 特别是在离散事件模拟模型中 都需要进行随机抽样 或者说产生服从一定分布的随机变量 以使模拟模型能够模拟实际系统中所具有的一些随机现象随机变量 设某一次试验产生的样本空间为 X是定义在 上的实函数 即对于任一样本点 X 为一实数 则称X为一个随机变量随机数就是指服从 0 1 均匀分布的随机变量 其他类型的分布 都可以用某种方法通过对 0 1 均匀分布进行转换来实现 3 5 1概述 随机变量 随机性具有独立性 均匀性 并且与真实随机数具有相同的数字特征 如期望 方差长周期发生器都是基于准确无误 决定性的公式而设计的 产生的随机数最终会回到它的起点 并重复以前出现过的序列 无重复随机数序列的长度称为周期可再现性调试 校正仿真系统的参数即要能生成同样的随机数序列 又要能生成不同以往的随机序列计算效率要高 3 5 1概述 随机数发生器 随机数的生成方法一般可以分作两类 即物理方法与数值方法 物理方法是通过一些物理设备 如电子噪声发生器 放射源计数器获得随机数 现在使用的比较广泛而又有效的方法是数值方法 即按照一定的算法利用计算机程序来产生随机数 一般称由这样的方法产生的随机数为伪随机数 伪随机数满足一定的随机性准则 但它们的产生总是以某个称之为种子的确定的初始值开始 并且是一个完全确定的 重复的过程 3 5 1概述 随机数的生成 线性同余法在1951年由菜默尔 Lehmer 首先提出 目前大多数随机数发生器都采用这种方法 在这个算法中 随机序列中的数由如下的递推关系产生初始值x0称为种子 常数a称为乘子 常数c称为增量 而常数m称为模数 当a 1时 加同余法 当c 0时 乘同余法 当a 1 c 0时 混合同余法 3 5 2随机数的生成 线性同余法 取m 2b b为计算机系统的位数 一般为32位 去掉一位符号位 b 31一方面 满足了模数取值尽可能大的要求另一方面 可以利用整型溢出的特性 避免直接进行除法运算对于b位的计算机系统 整型数据最多可保留 2b 1 对于一个位数大于b的整数W 实际保存的是数据的低b位数值 高于b位的数据丢失 即Wmod2b利用计算机系统本身位数限制 自动避免取余运算 以减少运算量 混合同余法 3 5 2随机数的生成 混合同余法 大多数模拟语言都提供了随机数发生器 如果用户需要自己编制随机数发生器的话 则需要注意以下几点 1 所产生的伪随机数应具有良好的统计特性 包括 a 独立性 即随机数之间不应该存在相关性 b 均匀性 即产生的数列应尽可能接近 0 1 区间上的均匀分布 2 所产生的伪随机数应具有尽可能长的周期 3 可重复性 即只要给以相同的初始值 就能得到相同的随机数序列 这样可以使我们在相同的条件下模拟不同的相同方案 3 5 2随机数的生成 由于伪随机数发生器并不是真正的随机变量 因此所产生的序列是否具有随机数序列的特征 有时很难得到保证 因此 对于由随机数发生器产生的伪随机数序列 必须对其进行统计检验 以确定是否具有随机数应该有的统计特征 数字特征检验 随机性检验 均匀性检验 3 5 3随机数的检验 检验随机数列的一些基本数字特征 如均值和方差的估计值与理论值是否有显著差异 如果由随机数发生器产生的随机数序列为 u1 u2 un如果ui是 0 1 上的均匀分布随机变量 则均值和方差分别为 3 5 3随机数的检验 数字特征检验 取统计量则当N充分大时 V1和V2近似服从N 0 1 正态分布 若取显著水平 0 05 则当 V1 1 96时 我们应该拒绝以及的假设 否则接受这一假设 当 V2 1 96时 我们应该拒绝以及的假设 否则接受这一假设 3 5 3随机数的检验 数字特征检验 3 5 3随机数的检验 分布均匀性检验 分布均匀性检验又称频率检验 是对检验随机数落在各个子区间内的频率与理论频率之间的差异是否显著进行检验 把 0 1 区间划分成等长度的k个子区间 那么对于均匀分布而言 落入每一个子区间的理论样本数应该为n k n为用于检验的样本数量 若记oi i 1 2 k 为落入第i个区间的实际样本数 则统计量服从自由度为k 1的分布 的值处在多大范围内可以认为的随机数抽样值是符合均匀性要求呢 首先确定一个显著性水平 从表中查出自由度为k 1的如果 则拒绝接受均匀分布的假设 3 5 3随机数的检验 分布均匀性检验 3 5 3随机数的检验 独立性 随机性检验 一个随机数序列可以是均匀分布 但却不一定是独立的 也就是说有可能是互相关联的 两个随机变量的相关系数反映了它们之间的线性相关程度 如果它们相互独立 那么它们的相关系数应为0 反之不一定 所以其值大小可以衡量相关程度 这里对独立性检验主要是对随机数序列中相隔一定间隔的数之间的相关系数进行检验 自相关检验 设给定N个随机数x1 x2 xN 我们计算前后距离为K的样本相关系数rK k 1 2 式中为随机数的方差 为随机数的平均值 3 5 3随机数的检验 独立性检验 3 5 3随机数的检验 独立性检验 如果各xi相互独立 则相关系数rK应为0 在原假设rK 0之下 当N充分大时 统计量渐近地服从正态分布N 0 1 同时选定 0 05 则根据概率统计理论 当 U 1 96时 称为差异显著 拒绝假设rK 0 反之 则接受 对于服从特定分布的随机变量的生成 可以采用不同的方法来实现反函数方法取舍方法组合方法卷积方法 3 5 4随机变量的生成 常用方法 假设随机变量X服从分布函数F x 且0 F x 1时单调递增 令F 1 u 是F x 的反函
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 会计顾问考试题及答案
- 电力应急面试题及答案
- 暑期托管测试题及答案
- 导游考试题集及答案
- 大学古风面试题及答案
- 中医桡骨骨折护理常规
- 作业治疗园艺活动
- 快餐管理培训课件
- 中国传统团扇课件
- 中医治未病在健康体检中的创新应用
- 中国近代史纲要-期末考试复习重点
- 企业法务概论智慧树知到期末考试答案2024年
- (高清版)DZT 0331-2020 地热资源评价方法及估算规程
- GB/T 7939.1-2024液压传动连接试验方法第1部分:管接头
- 低压配电系统维护保养及操作规程
- 肝癌科普讲座课件
- 学龄儿童多动症ADHD诊治指南课件
- 石膏固定术课件
- 实习生-OFFER正式通知函
- 闲鱼开店运营计划书模板
- 双一流大学完整版本
评论
0/150
提交评论