版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第2章数据挖掘的过程数据挖掘项目过程2数据分析vs数据挖掘3数据分析等级模型数据分析能力的8个等级常规报表即席查询多维分析警报统计分析预报预测型建模优化数据智能程度竞争优势回答:发生了什么?什么时候发生的?示例:月度或季度财务报表报表一般是定期生成,回答在某个特定的领域发生了什么。常规报表有其用途,但无法用于制定长期决策。回答:有多少数量?发生了多少次?在哪里?示例:一周内每天各种门诊的病人数量报告。即席查询的最大好处是让使用者不断提出问题并寻找答案。数据分析能力的8个等级数据智能程度竞争优势常规报表即席查询多维分析警报统计分析预报预测型建模优化回答:问题到底出在哪里?应该如何寻找答案?示例:对各种手机类型的用户进行排序,探查他们的呼叫行为。通过多维分析(OLAP)的钻取功能,可以有初步的发现。钻取功能如同层层剥笋,发现问题所在。回答:什么时候该有所反应?现在该做什么?示例:当销售额落后于目标时,销售总监将收到警报。
可以警示什么时候出了问题,并当问题再次出现时及时示警。警报可以通过多种途径来展示。数据分析能力的8个等级数据智能程度竞争优势常规报表即席查询多维分析警报统计分析预报预测型建模优化
回答:为什么会出现这种情况?错失了什么机会?示例:银行可以弄清楚为什么重新申请房贷的客户在增多。可以进行一些复杂的分析,比如频次分析模型或回归分析等等。统计分析是在历史数据中进行统计并总结规律。回答:如果持续这种发展趋势,未来会怎么样?还需要多少?什么时候需要?示例:零售商可以预计特定商品未来一段时间在各个门店的需求量。预报可以说是最热门的分析应用之一,各行各业都用得到。特别对于供应商来说,能够准确预报需求,就可以让他们合理安排库存,既不会缺货,也不会积压。数据分析能力的8个等级数据智能程度竞争优势常规报表即席查询多维分析警报统计分析预报预测型建模优化回答:接下来会发生什么?它对业务的影响程度如何?示例:酒店和娱乐行业可以预测哪些VIP客户会对特定度假产品有兴趣。如果客户数量众多,并希望展开一次市场营销活动,那么哪些人会是最可能响应的客户呢?如何划分出这些客户?哪些客户会流失?预测型建模能够给出解答。回答:如何把事情做得更好?对于一个复杂问题来说,那种决策是最优的?示例:在给定了业务上的优先级、资源调配的约束条件以及可用技术的情况下,给出IT平台优化的最佳方案,以满足每个用户的需求。优化带来创新,同时考虑到资源与需求,帮助找到实现目标的最佳方式。8数据挖掘的过程数据挖掘de过程商业问题行业经验数据工具知识商业决策数据挖掘数据挖掘的商业思路数据挖掘de过程数据挖掘的技术思路数据数据挖掘算法数据预处理(隐含)模型数据挖掘de过程数据挖掘是一个反复迭代的人机交互处理过程。该过程需要经历多个步骤,并且很多决策需要由用户提供从宏观上看,数据挖掘过程主要由三个部分组成,即数据整理、数据挖掘和结果的解释评估。
转换后数据
知识目标数据数据预处理后数据数据准备数据挖掘解释评估模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
数据集成中,应了解数据挖掘应用领域的有关情况,熟悉相关的背景知识,确定用户需求。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
对选出的数据再处理,检查数据的完整性及一致性,消除噪声,滤除与数据挖掘无关的冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
根据知识发现的任务对经过预处理的数据进行再处理,主要是通过投影或利用数据库的其他操作减少数据量。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
根据用户的要求,确定数据挖掘要发现的知识类型。因为对数据挖掘的不同要求会在具体的知识发现过程中采用不同的知识发现算法。如分类、总结、关联规则、聚类等。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
根据确定的任务选择合适的知识发现算法,包括选取合适的模型和参数。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
运用选定择的算法,从数据集中提取用户感兴趣的知识,并以一定的方式表示出来(如产生式规则等)。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
对在数据挖掘中发现的模式(知识)进行解释。经用户或计算评估后,例如可能会发现存在冗余模式或无关的模式,则予以剔除。若模式不能满足用户的要求,则需返回到前面的某些处理步骤中反复提取。数据准备数据挖掘解释评估转换后数据
知识目标数据数据预处理后数据模式数据源
数据挖掘解释评估数据选择数据集成预处理数据转换
最终,将发现的知识以用户能了解的方式呈现给用户。数据准备数据挖掘解释评估数据挖掘de过程1.数据准备2.数据选取3.数据预处理4.数据变换5.确定数据挖掘目标6.选择算法7.数据挖掘算法(模型)8.模式解释9.知识评价数据挖掘算法占据非常重要的地位,它主要是利用某些特定的知识发现算法,在一定的运算效率范围内,从数据中发现出有关知识,决定了整个数据挖掘过程的效果与效率。数据挖掘过程模型数据挖掘过程模型SEMMA5ACRISP-DM第2章数据挖掘的过程数据挖掘的过程模型CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布CRossIndustryStandardProcessforDataMiningCRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布明确要达到的业务目标,并将其转化为数据挖掘主题。要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案。具体包括:商业背景分析、商业成功标准的确定、形势评估获得企业资源清单、获得企业的要求和设想评估成本和收益、评估风险和意外初步理解行业术语确定数据挖掘的目标和制定数据挖掘计划CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解简单描述数据,探测数据意义对数据中潜藏的信息和知识提出拟用数据加以验证的假设。CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。要从原始数据中形成作为建模分析对象的最终数据集。具体工作主要包括:数据制表、记录处理、变量选择数据转换、数据格式化和数据清理等各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布使用软件工具,选择合适的建模方法,对准备好的数据表格进行处理,找出数据中隐藏的规律选择和使用各种建模方法,并将模型参数进行优化对于同样的业务问题和数据,可能有多种数据挖掘技术方法可供选用,可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法在建模过程中,还可能会发现一些潜在的数据问题,这是需要回到数据准备阶段重复进行建立模型阶段的具体工作包括:选择合适的建模技术进行检验设计建造模型CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布从业务角度和统计角度对模型结论进行评估。要求检查建模的整个过程,以确保模型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的发布计划达成一致。CRISP-DMCRISP-DM流程-跨行业数据挖掘标准过程商业理解数据理解数据准备建模模型评估结果发布也称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。在实际的数据挖掘工作中,根据不同的企业业务需求,模型发布的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。SEMMA方法SEMMA方法/模型是由SASInstitute提出来的。SASInstitute是一家美国跨国的分析软件开发企业,也是世界上最大的私营软件企业,财富500强企业中有很大一部分使用的都是该公司的管理与分析软件。SASInstitute开发并推出了一系列的分析软件,称为SAS。SAS软件起源于美国北卡罗来纳州立大学所开发的一个统计分析系统,可以完成对数据进行获取、管理、分析并形成报告,以便于帮助决策。32SEMMA方法SAS所推出的主要模块中,与数据挖掘相关的模块有:SASWarehouseAdministrator数据仓库模块EnterpriseMiner企业数据挖掘模块MDDBServerOLAP多维数据库产品可视化、应用开发和决策支持表现工具等相关的模块。33SEMMA方法341Sample数据抽样2Explore数据探索3Modify
数据调整4Model模型研发5Assess综合评价通过数据抽样,检验数据质量,根据业务需求精选样本数据子集。SEMMA方法351Sample数据抽样2Explore数据探索3Modify
数据调整4Model模型研发5Assess综合评价探索数据规律、趋势、相关性以及可区分的类别,发现其数据特征,并进行分析和预处理。SEMMA方法361Sample数据抽样2Explore数据探索3Modify
数据调整4Model模型研发5Assess综合评价明确和量化要解决的问题,调整数据以适应问题的需要。SEMMA方法371Sample数据抽样2Explore数据探索3Modify
数据调整4Model模型研发5Assess综合评价根据数据特征和实现目标选择和调整相关技术手段和方法,进行模型的研发以及知识的发现。SEMMA方法381Sample数据抽样2Explore数据探索3Modify
数据调整4Model模型研发5Assess综合评价模型和知识的综合解释和评价。通过综合评价,找出效果最优模型,并结合业务对模型进行针对性的解释和应用。5A391
Assess评价需求2
Access存取数据3Analyze完备分析4
Act模型演示5
Automate结果展现正确评价任务需求及数据,充分理解数据并决策。5A401
Assess评价需求2
Access存取数据3Analyze完备分析4
Act模型演示5
Automate结果展现方便快速存取数据。评价数据需求和质量,灵活处理数据。5A411
Assess评价
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 前端开发技术规范解析
- 2026年电力工程师电力安全知识与技能考核试题及答案
- 2026年资产评估实务操作题库及答案详解
- 2026年医学专业进阶测试疾病诊断判断力考验
- 2026年环境科学研究题目气候变化与环境影响评估
- 2026年高分子材料测试技术人员资格测试理论与试题库
- 2026年软件测试工程师预测模拟题集
- 2026年C编程进阶试题与解答详解
- 2026年法律实务案例分析初级题目
- 2026年阿里巴巴校招笔试题目大全
- 2026年齐齐哈尔高等师范专科学校单招(计算机)测试模拟题库必考题
- 剖宫产术后早期活动实施要点
- 2025年化工原理考试题及答案
- 湖南省益阳市2024-2025学年高二上学期语文1月期末考试试卷(含答案)
- 幕墙工程售后质量保障服务方案
- 铝合金铸造项目可行性研究报告
- 2024年西藏自治区事业单位《职业能力倾向测验(D类)》考试真题及答案
- 2025汽车行业Data+AI数智化转型白皮书
- 市政工程项目管理及表格模板全集
- 2025年甘肃省兰州市综合评标专家库考试题库(三)
- 家居行业投资合作合同(2025修订版)
评论
0/150
提交评论