数据挖掘模型生命周期管理.docx_第1页
数据挖掘模型生命周期管理.docx_第2页
数据挖掘模型生命周期管理.docx_第3页
数据挖掘模型生命周期管理.docx_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据挖掘模型生命周期过程广州市安正软件科技有限公司 陈云为成功地利用数据挖掘模型,我们需要从开发阶段直至生产环境对模型进行全面跟踪管理与评估。挖掘模型生命周期过程是由以下阶段组成的高效交替过程。n 确定商业目标 最初的阶段集中在理解项目目标和从业务的角度理解需求,同时转化为数据挖掘问题的定义,完成目标的初步计划。确定所需模型以及模型的应用类型,制定策略保证模型部署后,业务单位了解模型的使用方法。 典型模型包括用于客户行为、风险管理和信用评分的预测建模模型。应用领域包括客户保有、信贷发放、交易验证、欺诈检测和促销等。这些因素推动数据采集和模型开发过程。n 数据理解数据理解阶段从初始的数据收集开始,通过一些活动的处理,目的是熟悉数据,检查数据的质量,初步发现数据的特征,或是探测引起兴趣的样本子集去构建隐含信息的假设。影响数据质量的几个主要问题包括:缺失值、不合理值、不同数据源的不一致、异常值。n 数据准备数据准备(预处理)阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将作为模型工具的输入值。这个阶段的任务有时一个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。 现实中的数据通常是不完整的、不一致的、含噪声,污染数据的普遍存在导致了数据清理的必要性,所谓“垃圾进垃圾出”。形成污染数据的原因包括:滥用缩写词、数据输入错误、不同的惯用语、重复记录、缺失值、不同的计量单位等。n 建立模型选择和应用不同的模型技术,调整模型参数到最佳值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。这个过程涉及采用挖掘统计和虚拟化技术、变量转换、过滤异常、数据替换、细分、聚合、预测建模运算和模型验证等。n 模型评估在最后部署模型之前,重要的事情是较彻底地评估模型。检查构造模型的步骤,确保模型可以达成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,关于数据挖掘结果使用的一个决定必须达成共识。随着越来越多地采用分析方法支持业务决策,预测模型已被视为企业的重要智能资产。每一种模型都是重要的,对企业利润水平、法规遵从和规避法律/经济风险具有重要作用。这种情况促使越来越多的企业将模型验证作为常规业务流程。n 结果发布通常,模型的创建不是项目的结束。模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。根据需求,这个阶段可以产生简单的报告,

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论