第八章预测与数据挖掘.ppt_第1页
第八章预测与数据挖掘.ppt_第2页
第八章预测与数据挖掘.ppt_第3页
第八章预测与数据挖掘.ppt_第4页
第八章预测与数据挖掘.ppt_第5页
已阅读5页,还剩67页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

美力特黄铜制品公司(美力特黄铜制品公司(merit brass)是一个家是一个家 族所有的公司,供应管材、阀门及配件领域的族所有的公司,供应管材、阀门及配件领域的 上千种产品。上千种产品。 1990年,公司提出了一个强调将年,公司提出了一个强调将 管理科学方法应用于统计销售预测和成品库存管理科学方法应用于统计销售预测和成品库存 管理(两项十分关键的活动)的现代化项目。管理(两项十分关键的活动)的现代化项目。 这个项目使得顾客服务(以产品可获得率衡量这个项目使得顾客服务(以产品可获得率衡量 )得到改进,同时费用大幅降低)得到改进,同时费用大幅降低 西班牙电力企业,西班牙电力企业,hidroelctrica espaol,开开 发并采用了一套管理科学模型来辅助管理水发并采用了一套管理科学模型来辅助管理水 力发电的水库系统。这些模型是依靠对能源力发电的水库系统。这些模型是依靠对能源 的需求(公司的销售)和水库流入量的预测的需求(公司的销售)和水库流入量的预测 来驱动的。一个复杂的统计预测模型被用来来驱动的。一个复杂的统计预测模型被用来 预测对能源的短期和长期的需求。一个水文预测对能源的短期和长期的需求。一个水文 预测模型提供了对水库流入量的预测预测模型提供了对水库流入量的预测 航空公司现在非常依赖于在收取不看重价格的航空公司现在非常依赖于在收取不看重价格的 商务人员旅行支付的高额票价的同时向其他人商务人员旅行支付的高额票价的同时向其他人 提供折扣票价以填满座位。座位的数目在不同提供折扣票价以填满座位。座位的数目在不同 的运费等级上如何分配的决策对利润最大化来的运费等级上如何分配的决策对利润最大化来 说是关键的。美洲航空公司(说是关键的。美洲航空公司(american airlines)使用对每一种票价需求的统计预测来使用对每一种票价需求的统计预测来 做出这项决策的做出这项决策的 美洲航空公司(美洲航空公司( american airlines)使用一个使用一个 基于计算机的称为旋转分配和计划系统(基于计算机的称为旋转分配和计划系统( rotatable allocation and planning system, raps)的系统来预测对旋转部件的需求,并的系统来预测对旋转部件的需求,并 帮助将这些部件分送到各个机场。这个统计帮助将这些部件分送到各个机场。这个统计 预测使用了预测使用了 18个月的部件以及飞行小时的数个月的部件以及飞行小时的数 据,以计划飞行小时为基础提前进行项目编据,以计划飞行小时为基础提前进行项目编 制。制。 艾尔巴古微电子公司(艾尔巴古微电子公司(albuquerque microelectronics operation)是一个固定散热(是一个固定散热( radiation-hardened)芯片的专业制造商。生产芯片芯片的专业制造商。生产芯片 的第一个步骤晶片制造,有一个连续但不稳定的合的第一个步骤晶片制造,有一个连续但不稳定的合 格品率。对于一件产品其合格品率在最初的几批中格品率。对于一件产品其合格品率在最初的几批中 会很小(会很小( 0到到40%),以后会逐步上升到较高水平(),以后会逐步上升到较高水平( 35%到到75%)。于是一种针对于这种上升趋势的统)。于是一种针对于这种上升趋势的统 计预测方法就被使用来预测合格品率计预测方法就被使用来预测合格品率 美国劳工部(美国劳工部( us department of labor)与与 一家咨询公司签订了一项协议,开发失业保一家咨询公司签订了一项协议,开发失业保 险经济预测模型(险经济预测模型(uiefm),), 这个模型现在这个模型现在 已经被全国各州的就业安全机构所使用。通已经被全国各州的就业安全机构所使用。通 过对基本经济因素如失业率、工资水平、失过对基本经济因素如失业率、工资水平、失 业保险所覆盖的劳动力人数等的预计,业保险所覆盖的劳动力人数等的预计, uiefm预测一个州要支付多少失业保险金。预测一个州要支付多少失业保险金。 通过对州失业保险基金税收收入的预计,通过对州失业保险基金税收收入的预计, uiefm还能够预测基金还能够预测基金 10年的收支年的收支 联合航空公司(联合航空公司( united airlines)在它的在它的 11个预个预 定处拥有超过定处拥有超过 4000名预定销售代理及支持人员,名预定销售代理及支持人员, 在在10个最大的机场有大约个最大的机场有大约1000名顾客服务代理人名顾客服务代理人 ,一个计算机化的计划系统已被用来为这些雇员,一个计算机化的计划系统已被用来为这些雇员 设计工作计划。尽管一些其他的管理科学技术(设计工作计划。尽管一些其他的管理科学技术( 包括线性规划)也被应用于系统中,但是对雇员包括线性规划)也被应用于系统中,但是对雇员 需求的统计预测仍是一个关键的部分。这个系统需求的统计预测仍是一个关键的部分。这个系统 除了每年为公司节省超过除了每年为公司节省超过600万美元的开支以外万美元的开支以外 ,还改进了顾客服务,减少了对直接人员的需求,还改进了顾客服务,减少了对直接人员的需求 l.l.bean是一家高档户外用品及服饰的主要零售是一家高档户外用品及服饰的主要零售 商。超过商。超过 70%的销售是通过在公司的呼叫中心下的销售是通过在公司的呼叫中心下 达订单后完成的。呼叫中心提供了两个达订单后完成的。呼叫中心提供了两个800号码号码 ,一个用于下达订单,另一个用于询问和反映,一个用于下达订单,另一个用于询问和反映 问题。每个公司的代理人都为应答这两个问题。每个公司的代理人都为应答这两个800电电 话中的一个而接受了训练。因此,不同的统计话中的一个而接受了训练。因此,不同的统计 预测模型被用于对两个预测模型被用于对两个800号码的人员周需求量号码的人员周需求量 进行预测。经过精确改进的模型通过提高计划进行预测。经过精确改进的模型通过提高计划 有效性每年为有效性每年为 l.l.bean公司节约了公司节约了 30万美元万美元 一段时期内的平均需求(一段时期内的平均需求(average demand ) 需求趋势(需求趋势( a trend) 季节因素(季节因素( seasonal element) 周期因素(周期因素( cyclical element) 随机因素(随机因素( rand variation) 自相关(自相关( autocorrelation) 选择具有不同知识背景的参与专家选择具有不同知识背景的参与专家. 通过问卷通过问卷 调查(或电子邮件)从专家处获得预测信息调查(或电子邮件)从专家处获得预测信息 汇汇 总调查结果,附加新的问题重新发给专家总调查结果,附加新的问题重新发给专家 再次再次 汇总,提炼预测结果和条件,再次形成新问题汇总,提炼预测结果和条件,再次形成新问题 如有必要,重复前一步骤,将最终结果发给所如有必要,重复前一步骤,将最终结果发给所 有专家有专家 预测技术预测技术 lowsales highsales $500m 经理意见经理意见 40.7% 39.6% 部门主管集体讨论部门主管集体讨论 40.7% 41.6% 销售人员意见汇集销售人员意见汇集 29.6% 35.4% 公司数目公司数目 27 48 在前三期需求在前三期需求 值值 与各自权重与各自权重 的基的基 础上预测础上预测 第四期第四期 的需求的需求 假设:假设: 近期的数据比早期的数据更能够准确地预测未,近期的数据比早期的数据更能够准确地预测未, 因此需要最近的数据的权重就要比以前的数据的因此需要最近的数据的权重就要比以前的数据的 权重要大权重要大 误差分为偏移误差和随机误差误差分为偏移误差和随机误差 偏移误差来源:未包含正确变量、变量间偏移误差来源:未包含正确变量、变量间 关系定义错误、趋势曲线不正确、季节性关系定义错误、趋势曲线不正确、季节性 需求偏离正常轨道、存在某些隐式趋势需求偏离正常轨道、存在某些隐式趋势 随机误差是无法由预测模型解释的误差项随机误差是无法由预测模型解释的误差项 影响长途旅客运运输量大小的因素很多,包括运价、影响长途旅客运运输量大小的因素很多,包括运价、 旅客满意度、班线情况以及站点的布局情况等等。通旅客满意度、班线情况以及站点的布局情况等等。通 过对这些因素的分析,可以对长途旅客流量做出预测过对这些因素的分析,可以对长途旅客流量做出预测 ,但由于部分影响因素是定性的,不便于进行定量化,但由于部分影响因素是定性的,不便于进行定量化 分析,在实际预测中存在一定的困难,预测的结果也分析,在实际预测中存在一定的困难,预测的结果也 未必会很好,再者,各影响因素之间往往存在多重共未必会很好,再者,各影响因素之间往往存在多重共 线性,在一定程度上也会使客流量的预测产生误差。线性,在一定程度上也会使客流量的预测产生误差。 但是,随着长途客运信息平台的运营,每天我们都可但是,随着长途客运信息平台的运营,每天我们都可 以从平台上得到大量的实际客流量数据,通过对这些以从平台上得到大量的实际客流量数据,通过对这些 数据进行分析,运用合理的统计方法,找出其发展规数据进行分析,运用合理的统计方法,找出其发展规 律,就可以较为准确的对客流量进行预测。律,就可以较为准确的对客流量进行预测。 面对数据挖掘系统能够建立大量的预测分类的数据挖面对数据挖掘系统能够建立大量的预测分类的数据挖 掘模型,决策者希望能够在选择一种或几种能得到最掘模型,决策者希望能够在选择一种或几种能得到最 高正确率的预测分类模型来进行更为有效的数据挖掘高正确率的预测分类模型来进行更为有效的数据挖掘 。为了达到这个目的,需要研究能够反映数据集结构。为了达到这个目的,需要研究能够反映数据集结构 的数据特征对预测分类的数据挖掘模型的影响。它一的数据特征对预测分类的数据挖掘模型的影响。它一 般是通过案例证明反映目标属性数据特征的般是通过案例证明反映目标属性数据特征的ci值等级值等级 (一个借鉴于产业经济学中的概念),并需要研究模(一个借鉴于产业经济学中的概念),并需要研究模 型交互作用对预测分类的正确率是否显著性影响。其型交互作用对预测分类的正确率是否显著性影响。其 目的是找到可以比较直观地让决策者从若干预测分类目的是找到可以比较直观地让决策者从若干预测分类 的数据挖掘模型中选择出最合适模型一种方法。的数据挖掘模型中选择出最合适模型一种方法。 其余的,按数据挖掘流程图建立分析过程,即还包括其余的,按数据挖掘流程图建立分析过程,即还包括 : (1)树模型。分别建立基于)树模型。分别建立基于cart算法和算法和 chaid算法算法 的树模型。的树模型。 cart算法中采用的分裂标准是熵不纯性,算法中采用的分裂标准是熵不纯性, 模型的评价标准是测试数据集的分类正确比例最高;模型的评价标准是测试数据集的分类正确比例最高; chaid算法中选择卡方检验作为分裂标准,模型的评价算法中选择卡方检验作为分裂标准,模型的评价 标准仍为测试数据集的分类正确比例最高。标准仍为测试数据集的分类正确比例最高。 (2)回归模型。使用显著性水平为)回归模型。使用显著性水平为0.05的逐步回归方的逐步回归方 法建立一个法建立一个 logistic回归模型,连接函数是回归模型,连接函数是logit函数,模函数,模 型的评价标准选用测试数据集的分类错误率最小。型的评价标准选用测试数据集的分类错误率最小。 (3)神经网络模型。建立一个多层感知器

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论