数据挖掘技术及应用_第1页
数据挖掘技术及应用_第2页
数据挖掘技术及应用_第3页
数据挖掘技术及应用_第4页
数据挖掘技术及应用_第5页
已阅读5页,还剩42页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘技术及应用 广州从兴电子开发有限公司 2009.10 张良均 内 容 数据挖掘 FAQ 数据挖掘过程 应用案例 总结 数据挖掘 FAQ What? Why? How? Which? Who? 数据挖掘 FAQ What 是一个选择、探索和建模的过程 按既定业务目标,对大量的企业数据进行探索,揭示隐藏其中的规律性,从而带来业务价值 数据挖掘 FAQ Why 从数据中淘金 从数据中获取智能 数据挖掘 FAQ Why 原始 数据 清洗后 的数据 标准 报表 即席查询 &OLAP 解释性模型 预测性模型 优化 分析决策 能力 投资回报分析 (ROI) 信息 数据 知识 智能 发生了什么? 为什么发生? 将会发生什么? 希望发生什么? 数据挖掘 FAQ Which 客户生命周期管理 起始(客户获取:对新的品牌缺乏了解,处于观望,忠诚度低) 发展(客户激活:使用频率低,想尝试其它产品) 成熟(客户流失预测) 终止 CRM客户关系管理 更多的钱包份额 (Wallet Share) 客户获取 (Acquisition) 客户保持 (Retention) 预防欺诈 (Frand) WAR/F:帮你打赢这场战争 数据挖掘 FAQ Which 请大家列举几个 工作中数据挖掘应用的例子? ?数据挖掘 FAQ Which 预测性模型 分类 数值预测 聚类 关联规则 时间序列预测 1、偷窃漏电预测 2、客户信用风险预测 1、售电量预测 2、绝缘子漏电量预测 3、负荷预测 1、电力用户分类 2、电力变压器状态评价 1、分时电价与售电量分析 1、负荷预测 2、线损预测 数据挖掘 FAQ Which 预测性模型 分类 数值预测 聚类 关联分析 时间序列预测 1、概率回归 2、对数回归 3、决策树模型 4、 MLP/RBF神经网络 1、线性回归 2、非线性回归 3、决策树模型 4、 MLP/RBF神经网络 1、 K均值法 2、 SOM/KOHONEN神经网络 3、系统聚类法 1、关联模式 2、序列模式 3、链接分析 4、相似时间序列 1、 ARIMA模型 2、支持向量机 3、灰色理论 4、移动平均 数据挖掘 FAQ Who 高级业务分析人员 领导决策者 数据挖掘 FAQ How ? 内 容 数据挖掘 FAQ 数据挖掘过程 应用案例 总结 数据挖掘过程 数据挖掘过程 数据取样 从企业数据中精选用于数据挖掘的样本 数据取样时要严把质量关 抽样数据必须在足够范围内有代表性 数据常分为训练、测试和验证数据集 数据挖掘过程 数据探索 抽样数据是否达到设想要求 ? 有没有什么明显的规律和趋势 ? 有没有出现从未设想过的数据状态 ? 因素之间有什么相关性 ? 是否有明显的组差别 ? 数据挖掘过程 模式发现 对问题解决的要求需进一步量化 过滤不需要的记录知识的发现 数据结构和内容进一步调整 数据挖掘过程 预测建模 数据挖掘的核心环节 根据数据集的特征和要实现的目标 ,选择合适的数据挖掘方法 尝试不同的建模技术,精炼模型 数据挖掘过程 模型评估 从多个模型中寻找最优模型 模型评价方法: 建模数据进行检验 另找一批数据进行检验 发布有效的挖掘模型 内 容 数据挖掘 FAQ 数据挖掘过程 应用案例 总结 应用案例 案例分析 在进行电力规划时,无论电源的建设,还是输电,配电网的建设,需要负荷预测这一基础数据; 在组织电力生产时,购置多少燃料 (水,煤等 ),外部电网供应多少,需要知道未来的负荷需求; 在每天的电力运行调度过程中,安排每日的机组发电计划,电网的运行方式,也要提前知道负荷的大小 。 应用案例 案例分析 超短期负荷预测:一小时以内的负荷预测,用于安全监视、预防性控制和紧急状态处理。 短期负荷预测:对未来一天 24 小时到未来几天的负荷预测,确定燃料的供应计划,对运行中的电厂出力要求提出预告。 中长期负荷预测:预测未来几个月到未来几年负荷的变化,主要确定电网的运行方式和设备大修计划等。 应用案例 案例分析 负荷预测的方法很多,并且随着这一领域研究的不断深化,新的负荷预测方法不断涌现。 传统预测方法的基础是传统数学工具,代表性的方法有回归模型法、时间序列法、趋势外推法等。现代预测方法是随着人工智能研究领域的兴起而出现的,它结合了人工智能领域的神经网络、小波分析、模糊数学等学科的最新研究成果,这是负荷预测方法发展历史中一个里程碑。 由于影响负荷变化的因素有很多,且关系错综复杂,寻常的模型如状态估计和多元回归等方法难于把握其影响因素和负荷变化之间的非线性函数关系,因此需要一种具有高度非线性函数映射关系的模型来进行模拟,神经元网络模型就具有这样的优点和特性,事实上正是因为它的发展才使得高精度的负荷预测成为可能。 负荷预测 数据取样 实时负荷数据 每日最高气温 是否节假日 突发事件 负荷预测 数据探索 样本数据是否按时间顺序排列? 不同时间粒度 (年、月、日 )数据是否存在明显分组? 抽样数据是否存在明显的规律和趋势? 负荷值与哪些因素存在关联? 趋势成分:显示一个时间序列在较长时期的变化趋势 季节成分:反映时间序列在一年中有规律的变化 循环成分:反映时间序列在超过一年的时间内有规律的变化 不规则成分:不能归因于上述三种成分的时间序列的变化 4050607080901001101201301 2 3 4 5 6 7 8 9 10 11 12月销量无趋势 60657075808590951001051 3 5 7 9 11 13 15 17 19 21 23月销量线性趋势 901001101201301401501601701 3 5 7 9 11 13 15 17 19 21 23月销量非线性趋势 0204060801001 2 3 4 5 6 7 8 9 10 11 12月销售额第一年第二年季节成分 负荷预测 数据探索 负荷预测 模式发现 明确预测目标: 短期负荷预测? 中期负荷预测? 长期负荷预测? 数据分组:实时负荷、日负荷、月负荷 数据结构和内容调整 负荷预测 模式发现 负荷预测 预测建模 外推法:找出时间序列观测值中的变化规律与趋势,然后通过对这些规律或趋势的外推来确定未来的预测值,包括: 移动平均法 (时间序列没有趋势和季节成分 ) 指数平滑法 (时间序列没有趋势和季节成分 ) 趋势预测法 (时间序列含有趋势成分 ) 季节指数法 (时间序列含有季节成分 ) 因果法:寻找时间序列因变量观测值与自变量观测值之间的依赖关系,然后利用这种依赖关系和自变量的预计值来确定因变量的预测值。 回归预测法 神经网络预测 适用于围绕一个稳定水平上下波动的时间序列。 利用平均使各个时间点上的观测值中的随机因素互相抵消掉,以获得关于稳定水平的预测。 将包括当前时刻在内的 N个时间点上的观测值的平均值作为对于下一时刻的预测值( N应选择得使 MSE极小化)。 负荷预测 移动平均模型 负荷预测 移动平均模型 改进移动平均预测模型,将计算平均值对于不同时期观测值的权数设置得不同:近期的权数较大,远期的权数较小。 负荷预测 指数平滑模型 指数平滑的叠代算法。 负荷预测 指数平滑模型 负荷预测 指数平滑模型 当电力负荷依时间变化呈现某种上升或下降的趋势,并且无明显的季节波动,又能找到一条合适的函数曲线反映这种变化趋势时,就可以用时间 t为自变量,时序数值 y为因变量,建立趋势模型 y f(t)。赋予变量 t所需要的值,可以得到相应时刻的时间序列未来值。这就是趋势外推法。 线性趋势预测法、对数趋势预测法、二次曲线趋势预测法、指数曲线趋势预测法。 负荷预测 趋势预测模型 负荷预测 趋势预测模型 对于既含有线性 (非线性 )趋势成分又含有季节成分的时间序列,可对其成分进行分解,这种分解建立在以下乘法模型的基础上: 其中, Tt表示趋势成分, St表示季节成分,It表示不规则成分。由于不规则成分的不可预测,因此预测值就可表示为趋势成分和季节成分的乘积。 负荷预测 季节指数模型 建立季节指数模型的一般步骤如下: 第一步,计算每一季(每季度,每月等等)的季节指数 St 。 第二步,用时间序列的每一个观测值除以适当的季节指数,消除季节影响。 第三步,为消除了季节影响的时间序列建立适当的趋势模型并用这个模型进行预测。 第四步,用预测值乘以季节指数,计算出最终的带季节影响的预测值。 负荷预测 季节指数模型 灰色预测是一种对含有不确定因素的系统进行预测的方法。 把一切随机过程看作是在一定范围内变化的、与时间有关的灰色过程,可在数据不多的情况下找出某个时期内起作用的规律,建立电量和负荷预测的模型。 负荷预测 灰色预测法 从因果关系出发,利用数理统计学中的回归分析来找出事物变化的规律,从而进行预测。分为简单线性回归分析,多元线性回归分析,非线性回归分析。 回归分析主要体现: 判别自变量是否能解释因变量的显著变化 -关系是否存在; 判别自变量能够在多大程度上解释因变量 -关系的强度; 判别关系的结构或形式 -反映因变量和自变量之间相关的数学表达式; 预测自变量的值; 当评价一个特殊变量或一组变量对因变量的贡献时,对其自变量进行控制。 负荷预测 回归分析 传统的预测模型是用显式的数学表达式加以描述,这就决定了它的局限性。 由于影响负荷变化的因素有很多,且关系错综复杂,寻常的模型如状态估计和多元回归等方法难于把握其影响因素和负荷变化之间的非线性函数关系,因此需要一种具有非线性函数映射关系的模型来进行模拟。 神经元网络模型就具有这样的优点和特性,事实上正是因为它的发展才使得高精度的负荷预测成为可能。 负荷预测 神经网络 负荷预测 神经网络 评价模型准确性 均方误差( MSE) 平均绝对误差( MAE) 平方和误差( SSE) 平均相对误差( MAPE) 负荷预测 模型评估 内 容 数据挖掘 FAQ 数据挖掘过程 应用案例 总结 总结 课程总结 数据挖掘能使企业的商务智能流程真正形成闭环。它帮助企业不断了解自身运作中的各种问题、发现新的市场机会,并适时调整企业经营的策略,从而螺旋式地提高企业的经营情况和管理水平。 总结 电力数据挖掘技术应用展望 对于电力系统这个存在着大量

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论