《数据挖掘原理与应用 第2版 》课件 2.2数据挖掘的过程-数据挖掘过程模型_第1页
《数据挖掘原理与应用 第2版 》课件 2.2数据挖掘的过程-数据挖掘过程模型_第2页
《数据挖掘原理与应用 第2版 》课件 2.2数据挖掘的过程-数据挖掘过程模型_第3页
《数据挖掘原理与应用 第2版 》课件 2.2数据挖掘的过程-数据挖掘过程模型_第4页
《数据挖掘原理与应用 第2版 》课件 2.2数据挖掘的过程-数据挖掘过程模型_第5页
已阅读5页,还剩17页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第2章数据挖掘的过程数据挖掘的过程模型CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布CRossIndustryStandardProcessforDataMiningCRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布明确要达到的业务目标,并将其转化为数据挖掘主题。要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案。具体包括:商业背景分析、商业成功标准的确定、形势评估获得企业资源清单、获得企业的要求和设想评估成本和收益、评估风险和意外初步理解行业术语确定数据挖掘的目标和制定数据挖掘计划CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解简单描述数据,探测数据意义对数据中潜藏的信息和知识提出拟用数据加以验证的假设。CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。要从原始数据中形成作为建模分析对象的最终数据集。具体工作主要包括:数据制表、记录处理、变量选择数据转换、数据格式化和数据清理等各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布使用软件工具,选择合适的建模方法,对准备好的数据表格进行处理,找出数据中隐藏的规律选择和使用各种建模方法,并将模型参数进行优化对于同样的业务问题和数据,可能有多种数据挖掘技术方法可供选用,可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法在建模过程中,还可能会发现一些潜在的数据问题,这是需要回到数据准备阶段重复进行建立模型阶段的具体工作包括:选择合适的建模技术进行检验设计建造模型CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布从业务角度和统计角度对模型结论进行评估。要求检查建模的整个过程,以确保模型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的发布计划达成一致。CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布也称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。在实际的数据挖掘工作中,根据不同的企业业务需求,模型发布的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。SEMMA方法SEMMA方法/模型是由SASInstitute提出来的。SASInstitute是一家美国跨国的分析软件开发企业,也是世界上最大的私营软件企业,财富500强企业中有很大一部分使用的都是该公司的管理与分析软件。SASInstitute开发并推出了一系列的分析软件,称为SAS。SAS软件起源于美国北卡罗来纳州立大学所开发的一个统计分析系统,可以完成对数据进行获取、管理、分析并形成报告,以便于帮助决策。9SEMMA方法SAS所推出的主要模块中,与数据挖掘相关的模块有:SASWarehouseAdministrator数据仓库模块EnterpriseMiner企业数据挖掘模块MDDBServerOLAP多维数据库产品可视化、应用开发和决策支持表现工具等相关的模块。10SEMMA方法111Sample数据抽样2Explore数据探索3Modify

数据调整4Model模型研发5Assess综合评价通过数据抽样,检验数据质量,根据业务需求精选样本数据子集。SEMMA方法121Sample数据抽样2Explore数据探索3Modify

数据调整4Model模型研发5Assess综合评价探索数据规律、趋势、相关性以及可区分的类别,发现其数据特征,并进行分析和预处理。SEMMA方法131Sample数据抽样2Explore数据探索3Modify

数据调整4Model模型研发5Assess综合评价明确和量化要解决的问题,调整数据以适应问题的需要。SEMMA方法141Sample数据抽样2Explore数据探索3Modify

数据调整4Model模型研发5Assess综合评价根据数据特征和实现目标选择和调整相关技术手段和方法,进行模型的研发以及知识的发现。SEMMA方法151Sample数据抽样2Explore数据探索3Modify

数据调整4Model模型研发5Assess综合评价模型和知识的综合解释和评价。通过综合评价,找出效果最优模型,并结合业务对模型进行针对性的解释和应用。5A161

Assess评价需求2

Access存取数据3Analyze完备分析4

Act模型演示5

Automate结果展现正确评价任务需求及数据,充分理解数据并决策。5A171

Assess评价需求2

Access存取数据3Analyze完备分析4

Act模型演示5

Automate结果展现方便快速存取数据。评价数据需求和质量,灵活处理数据。5A181

Assess评价需求2

Access存取数据3Analyze完备分析4

Act模型演示5

Automate结果展现采用完善分析技术及工具统计方法,并检验结果是否正确。5A191

Assess评价需求2

Access存取数据3Analyze完备分析4

Act模型演示5

Automate结果展现专业级的原型演示及图表演示能力,便于用户更好更快决策。5A201

Assess评价需求2

Access存取数据3Analyze完备分析4

Act模型演示5

Automate结果展现通过提供易于使用、方便快捷的展示软件,全面及时地显示结果。过程融合21CRISP-DM商业理解数据理解数据准备模型建立模型评估模型发布三阶段

数据集成数据选择数据预处理数据变换数据挖掘解释评估SEMMA

数据取样数据探索预处理数据调整模型研发知识发现模型解释评价5AAssess评价需求

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论