免费预览已结束,剩余1页可下载查看
下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据挖掘中的预测模型评价 赵荆松 中南财经政法大学企业管理2004级研究生 武汉 430064摘 要 预测模型的好坏对数据挖掘的成败起着至关重要的作用。该本文首先介绍了预测模型的建立过程和模型评价的重要工具,在此基础上提出一种新的数据挖掘预测模型评价体系:横向评价模型间执行效果;纵向评价单个模型在时间和空间上的适应性。关键词 数据挖掘;预测模型;累计增益图;模型评价1 序言近年来,数据挖掘得到越来越广泛的应用,数据挖掘的功能主要是预测性的和描述性的,但不论哪种功能,其核心都是为数据集建立模型。模型建立之后,可以用它进行金融风险预测,顾客行为分析等,并与商业规则结合,为客户决策提供科学的指导。因此,预测模型的好坏将对数据挖掘的成败起着至关重要的作用。本文将从横向和纵向两方面对预测模型进行评价。横向评价侧重于模型间执行效果评价;纵向评价侧重于单个模型在时间和空间上的适应性问题。2 预测模型的建立过程 预测模型的建立是数据挖掘过程中的重要步骤,但建立模型之前有许多准备工作需要完成,如业务问题理解,数据准备等。下面假设预分类数据已经准备妥当,给出建立和应用预测模型的基本步骤1(图一)。 训练集初始模型修正模型1修正模型3修正模型2测试集评价集得分集最优模型预测(图一) (1) 初始模型是通过预分类数据(也称模型集)中的一部分数据建立起来的。用于建立模型的这部分数据称为训练集。在此步骤中,数据挖掘算法会找到数据中所包含的预测模式。(2) 利用另外一个子集测试集来对模型进行修正。模型为什么要修正呢?其目的就是,为了防止模型对训练集的模式记忆太深,以使模型更具有一般性,并且能很好的适应未知数据。(3) 可以估计模型的效果,或者对模型的效果进行比较。这个过程需要用到评价集,它是在建模和测试修正过程中尚未用到的那部分数据的集合,也是模型集的一部分。(4) 将模型应用于得分集。得分集就是我门需要进行预测的数据集,它不是模型集的一部分也没有进行预分类。可以假定我们将利用这些预测得分来做出信息更充分的商业决策。3 评价中用到的工具介绍在模型评价中用的较多的工具是累计增益图1。本文将它作为对模型进行横向效果评价和纵向适应性评价的重要工具。目前绝大多数数据挖掘产品都提供对累计增益图的支持,如SAS公司的Enterprise Miner,IBM的Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等。(图二)图二中所示是不同模型产生的累计增益图表。建模曲线和对角线包围的面积越大,说明模型执行效果越好。图中横轴表示资料得分从大到小排序之后,按十分位累计资料数百分比。那么标记为10的位置就表示该模型输出得分前10的资料。以横轴表示这部分资料在总资料中的比例。如果20的资料可以得到70有意向的资料,那么这个模型就非常不错,因为描绘出来的曲线已经远离对角线。4 预测模型的评价 以下将按横向和纵向两个角度对模型进行评价。横向评价主要是训练集、测试集和评价集等模型集中的内部模型比较,以及多个模型间的评价,它侧重于模型的执行效果评价,而不过多考虑模型的有效性(即模型是否会与真实情况一直或相似)。从而选出拥有最优执行效果的模型。纵向评价侧重于评价单个模型的适应性问题,模型在不同的数据集、不同时间是否都能有较满意的表现。41 横向模型评价 训练集、测试集和评估集间的模型比较 如前所述,训练集用以建立初始模型,测试集用以对模型进行修正,而评估集对模型效果进行比较和估计。一个好的模型不仅要有合适的增益,而且在测试集和评价集上的表现非常接近,模型在训练集上的效果应该好于测试集上的效果,测试集上的效果要好于评估集上的效果。(图三) 如图三所示,在累计增益图中,训练集的曲线应该位于测试集曲线的上方,而二者的曲线则均应该在评价集曲线的上方。如果模型建立过程中,实际情况与上述规则严重背离,则需要对模型进行重新调整。 模型间的评价 大多数模型建立过程中,对同一模型集会建立多个模型,此时需要对这些模型的执行效果进行比较,以选出最适当的模型。在图二中,很显然模型1的执行效果要好于模型2的执行效果,同理,模型2的执行效果要好于模型3的执行效果。42纵向模型评价横向模型评价确保选出的模型在执行效果上是最优的,但不能说该模型就是我们所要的,该模型可能与真实情况存在很大的差距。一个成功的预测模型是基于三个假定的前提:过去是将来的预言家;数据是可以获得的;数据中包括我们的预期目标。然而,在建模时我们处理的数据只能时模型集,当用这个模型给其他数据集评分很可能预测结果不准确,这是模型空间上的适应性问题;另一方面,在时间上,得分集一般比模型集更新近,而新近的数据可能出现了新的变化,导致了模型时间上的适应性问题。不论是时间还是空间上的适应性问题,我们可以考虑用以下标准来衡量模型的好坏。 模型的可信度 可信度主要通过模型准确性来描述,准确性一般只有通过时间来检验模型有多大程度的准确性。但我们也可以借助一些工具如累计增益图事先对其准确性做一些基本判断,尽早修改不合适的模型。下面举例说明模型过度拟合的情形,出现过度拟合而产生的模型的准确性会非常差。(图四)图四是在数据挖掘工具中显示的一预测模型的增益图,除了增益不是太好之外,在20处有一回落点,其坡度几乎是水平的,这说明出现了过度拟合,即模型对训练集和测试集的模式记忆太深,不能很好的一般化。这样的模型在模型集上表现良好,但应用到得分集上表现却很差。好的模型其增益曲线一开始几乎是竖直的,然后再逐渐变平。任何异常情况的出现对我们都是一种提示,表明需要对模型重新审视了,以提高模型的准确性。 模型的可理解性2数据挖掘永远不可能替代有经验的商业分析师或管理人员所起的作用,因为它只是一个功能强大的工具,因此模型是否易于理解就显得很重要。关于模型的可理解性我们可以考虑下面的因素:模型是否可以使我们了解输入对结果会产生什么作用?模型是否可以使我们了解预测为什么会成功或失败?模型是否可以使我们对复杂的数据集产生预测的结果?模型是否能对其产生的结果进行检测? 模型性能 对于模型的性能考虑可以分为两个方面:一是你需要什么速度构造出模型;二是你需要什么速度从模型中获得预测结果。5、总结 随着数据挖掘工具应用的日益广泛,对预测模型建立起科学的评价机制显得更加重要。本文较系统的提出一种预测模型评价体系:横向评价模型间执行效果;纵向评价单个模型在时间和空间上的适应性,作为数据挖掘模型建立的参考。然而就评价本身的理论和方法来说,还有很多问题有待进一步研究,如从定量角度对模型做更精确的评价等。参考文献:1美迈克尔贝里,戈登利诺夫 著。袁卫 等译 高管商学院数据挖掘M 北京:中国劳动社会保障出版社,2004(10)。2夏火松 数据仓库与数据挖掘技术M.北京:科学出版社,2004(3)。3苏新宁,杨建林等著。数据挖掘理论与技术M。北京:科学技术文献出版社2003(6)The evaluation of data mining forecast modelZHAO JingSong1 WEN Jing2Abstract: Whether the forecast model is good or bad play a very important role in the data ming.The paper introduced the tools used in model evaluation and the building process of forecast model at first, based on these , then raise a new evaluation system on evaluation of forecast model: evaluating the executing effect from horizontal direction;ev
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 环境地质调查员安全强化模拟考核试卷含答案
- 家用电子产品维修工安全知识强化考核试卷含答案
- 输蔗破碎工岗位合规化技术规程
- 2025-2026学年冀教版(新教材)二年级上册数学第六单元达标试卷(附参考答案)
- 2025年述职报告范例
- 公差累积效应及应对策略探讨
- 解析数学思维
- 节气新闻的创新报道
- 硕士研究全解析
- 河北省石家庄市某中学2024-2025学年九年级上学期期中物理试题(含答案)
- 中医传承精髓文化简介模板课件
- 华中科技大学推荐免试攻读硕士和博士学位研究生分值奖励细则
- 2022-2023学年山西省长治实验中学教育集团九年级(上)第二次月考数学试卷(含解析)
- 如愿二声部合唱简谱文档
- 消化道早癌诊治现状及内镜下治疗进展复习课程
- HY/T 0349-2022海洋碳汇核算方法
- GB/T 33710-2017移动实验室分类分级方法
- 冬季停工应急预案完整版
- 内部控制案例第02章案例4 三鹿
- 2022年二级甲等中医院二甲复审外科准备资料
- 2020年农村人居环境整治项目施工组织设计EPC(第二版)
评论
0/150
提交评论