数据仓库与数据挖掘ppt课件.ppt_第1页
数据仓库与数据挖掘ppt课件.ppt_第2页
数据仓库与数据挖掘ppt课件.ppt_第3页
数据仓库与数据挖掘ppt课件.ppt_第4页
数据仓库与数据挖掘ppt课件.ppt_第5页
已阅读5页,还剩115页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘 课程介绍 32学时 考查课24 8偏重工具使用 实际应用 案例分析总评构成 平时作业 实验作业 期末考查课外阅读参考文献 动手操作答疑方式 e mail qq 办公室 2 授课计划 1 数据仓库与数据挖掘概述2 数据仓库的分析3 数据仓库的设计4 数据仓库规划与开发5 数据仓库工具 数据挖掘过程6 数据挖掘算法 分类 预测 关联7 数据挖掘算法 聚类 神经网络8 数据挖掘新技术 文本挖掘 Web挖掘 可视化挖掘 3 授课计划 9 数据挖掘工具及应用 Excel200710 数据挖掘工具及应用 SqlServer2005 200011 数据挖掘工具及应用 SPSSORACLE 12 知识管理与知识管理系统13 数据仓库设计实验14 数据仓库设计实验15 数据挖掘实验16 数据挖掘实验 4 参考书 数据仓库 第四版 2007WilliamH Inmon 数据仓库之父 数据挖掘概念与技术 第二版 JiaweiHan 加 2006 5 数据挖掘职业能力要求 一 专业技能硕士以上学历 数据挖掘 统计学 数据库相关专业 熟练掌握关系数据库技术 具有数据库系统开发经验 熟练掌握常用的数据挖掘算法 具备数理统计理论基础 并熟悉常用的统计工具软件 二 行业知识具有相关的行业知识 或者能够很快熟悉相关的行业知识 三 合作精神具有良好的团队合作精神 能够主动和项目中其他成员紧密合作 四 客户关系能力具有良好的客户沟通能力 能够明确阐述数据挖掘项目的重点和难点 善于调整客户对数据挖掘的误解和过高期望 具有良好的知识转移能力 能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力 6 数据挖掘人员具备如下条件 可以提高数据挖掘项目的实施效率 缩短项目周期 具有数据仓库项目实施经验 熟悉数据仓库技术及方法论 熟练掌握SQL语言 包括复杂查询 性能调优 熟练掌握ETL开发工具和技术 熟练掌握MicrosoftOffice软件 包括Excel和PowerPoint中的各种统计图形技术 善于将挖掘结果和客户的业务管理相结合 根据数据挖掘的成果向客户提供有价值的可行性操作方案 7 职业薪酬 就目前来看 和大多IT业的职位一样 数据仓库和数据挖掘方面的人才在国内的需求工作也是低端饱和 高端紧缺 在二线成熟 高端数据仓库和数据挖掘方面的人才尤其稀少 高端数据仓库和数据挖掘人才需要熟悉多个行业 至少有3年以上大型DWH和BI经验 英语读写流利 具有项目推动能力 这样的人才年薪能达到20万以上 8 一 数据仓库与数据挖掘概述 9 主要内容 1 学习数据仓库与数据挖掘有何意义 2 为什么要建立数据仓库 3 数据仓库简介4 建立数据仓库的基本步骤是怎样的 5 为什么要进行数据挖掘 6 数据挖掘简介7 数据挖掘的基本过程是怎样的 8 数据仓库与数据挖掘的关系是什么 9 数据挖掘的热点和主要问题 10 1 学习数据仓库与数据挖掘有何意义 11 引言 社会信息化后 社会的运转是软件的运转社会信息化后 社会的历史是数据的历史 12 时代背景 我们生活在一个网络化时代 通信 计算机和网络技术正改变整个人类社会 如果用芯片集成度来衡量微电子技术 用CPU处理速度来衡量计算机技术 用信道传输速率来衡量通信技术 那么摩尔定律告诉我们 它们都是以每18个月翻一番的速度在增长 这一势头已经维持了十多年 13 信息传播的背景 在美国 广播达到5000万用户用了38年 电视用了13年 Internet拨号上网达到5000万用户仅用了4年 全球IP网发展速度达到每6个月翻一番 国内情况亦然 更多数据 详见视频 你知道吗 14 划时代意义的技术 有人提出 对待一个跨国企业也许比对待一个国家还要重要 在新世纪 回顾往昔 人们不禁要问 就推动人类社会进步而言 历史上能与网络技术想比拟的是什么技术呢 有人甚至提出要把网络技术与火的发明相比拟 火的发明区别了人和动物 各种重大科学技术的重大发现扩展了自然人的体能 技能和智能 而网络技术则大大提高了人的生存质量和人的素质 使人成为社会人 全球人 扩展视频 第六感 15 网络之后下一个技术热点是什么 纽约时报 由60年代的10 20版扩展至现在的100 200版 最高纪录1527版 北京青年报 也已是16 40版 市场营销报已达到100版 而现实社会中 人均日阅读时间通常为30 45分钟 只能浏览一份24版的报纸 16 信息处理的难题 大量信息在给人们带来方便的同时也带来了一大堆问题 第一是信息过量 难以消化 第二是信息真假难以辨别 第三是信息安全难以保证 第四是信息形式不一致 难以统一处理 17 要学会抛弃信息 人们开始考虑 如何才能不被信息淹没 而是从中及时发现有用的知识 提高信息利用率 面对这一挑战 数据挖掘和知识发现 DataMiningandKnowledgeDiscovery 技术应运而生 并显示出强大的生命力 18 数据爆炸但知识贫乏 人们积累的数据越来越多 激增的数据背后隐藏着许多重要的信息 人们希望能够对其进行高层次的分析 以便更好地利用这些数据 数据的丰富带来了对强有力的数据分析工具的需求 快速增长的海量数据 存放在大型和大量数据库中 没有强有力的工具 理解这些数据已远远超出了人的能力 19 我们怎么分析这些数据 20 导致 数据爆炸但知识贫乏 的原因 目前的数据库系统可以高效地实现数据的录入 查询 统计等功能 但无法发现数据中存在的关系和规则 无法根据现有的数据预测未来的发展趋势 缺乏挖掘数据背后隐藏的知识的手段 导致了 数据爆炸但知识贫乏 的现象 21 22 23 学习本课的意义 掌握数据仓库和数据挖掘的基本原理 用信息分析的方法进行思考问题 了解一些算法的基本思想 以便今后处理特定问题时使用 帮助你了解现代企业在信息化策略中所采用的技术手段 帮助你更深入地掌握面向经济问题开展研究和实践的基本方向 24 2 为什么要建立数据仓库 25 传统数据库的演化 主文件 26 传统数据库的演化 单一数据库 27 传统数据的演化 抽取程序 因为用抽取程序能将数据从高性能联机事务处理方式中转移出来 所以在需要总体分析数据时就与联机事务处理性能不发生冲突 当用抽取程序将数据从操作型事务处理范围内移出时 数据的控制方式就发生了转变 最终用户一旦开始控制数据 他 她 就最终 拥有 了这些数据 28 抽取程序形成了 蜘蛛网 29 自然演化体系结构的问题 与自然演化体系结构相关联的困难到底是什么呢 问题很多 主要有 数据可信性 生产率 数据不一致性 30 数据缺乏可信性 31 生产率问题 32 生产率问题 33 数据不一致性 34 原始数据与导出数据 原始数据是公司每天操作运行所用的细节性数据 导出数据是统计出来的或计算出来的满足公司管理者需要的数据 原始数据可以更新 导出数据不可以更新 原始数据主要是当前值数据 导出数据通常为历史数据 原始数据由以重复方式运行的过程操作 导出数据由非重复地启发式地运行的程序操作 操作型数据是原始的 DSS数据是导出的 原始数据支持日常工作 导出数据则支持管理工作 35 原始数据和导出数据的不同而导致的数据分离的自然扩展过程 36 可用不同数据层次进行查询的不同类型 37 数据在从操作型环境转移到数据仓库环境的同时进行集成 38 谁需要信息和知识 39 数据仓库的作用 两个主要作用 存储经过加工处理的决策需要的数据 存储数据的一种形式 加工和集成后的再存储 查询和决策分析的依据 为数据驱动型的决策支持提供数据基础 40 建立数据仓库的好处 有形好处改善产品库存控制降低产品推广费更加高效的制定决策提供一个关于整个企业的整体构架无形好处集中存放 方便存取 提高生产效率减少重复数据处理和分析提高用户对数据的应用程度为商务流程再造提供支持 41 知识点回顾 42 43 44 45 46 3 数据仓库简介 47 48 49 50 什么是数据仓库 DataWarehouse 数据仓库 DW 是一个面向主题的 SubjectOriented 集成的 Integrated 相对稳定的 Non Volatile 反映历史变化 TimeVariant 的数据集合 用于支持管理决策和信息的全局共享 W H Inmon 51 数据仓库回答的问题 数据仓库将为高层管理人员的科学决策提供可靠依据 去年各个地区各个产品的销售量和销售额 10年以来各厂商每季度的销售额占有比例的变化情况 如果某种产品的销售价格打9折 利润将发生怎样的变化 今年销售量下降的主要因素 时间 地区 部门 商品 是什么 52 数据仓库的特点 面向主题集成性不可更新性 相对稳定 时态性 反映历史变化 53 面向主题 在较高层次上对分析对象的数据进行一个完整 一致的描述 能完整 统一管理各个分析对象所涉及的企业各项数据以及数据之间的联系 高层次 很高的数据抽象级别 54 55 面向主题 一个主题领域的表来源于多个操作型应用 如 客户主题 来源于 订单处理 应收账目 应付账目 典型的主题领域 客户 产品 交易 账目 主题领域以一组相关的表来具体实现 相关的表通过公共的键码关联起来 如 顾客标识号 CustomerID 每个键码都有时间元素 从日期到日期 每月积累 单独日期 主题内数据可以存储在不同介质上 综合级 细节级 多粒度 56 57 58 59 60 集成性 数据仓库的每一个主题所对应的元数据在原有的各分散数据库中有许多重复各不一致的地方 且来源于不同联机系统的数据库和应用逻辑捆绑在一起 数据仓库中的综合数据不能从原有的数据库系统直接得到 统一元数据中有矛盾之处 进行数据综合和计算 61 62 63 不可更新性 相对稳定 涉及的操作 查询数据 相当长的时间的历史数据 基于不同时间的数据库快照进行统计 综合和重组而导出的数据 不是联机数据 64 65 时态性 反映历史变化 随时间的变化而不断增加新的数据内容数据有存储期限 操作型 60 90天 DSS数据 5 10年大量综合数据与时间有关 66 67 68 69 数据集市 datamarts 也称部门数据或主题数据 通常指较为小型化 针对特定目标且建设成本较低的一种数据仓库 分为 独立的数据集市 根据操作数据独立形成 非独立的数据集市 从中央数据库派生出来 70 4 建立数据仓库的基本步骤是怎样的 71 数据进入数据仓库的基本过程 72 建立数据仓库的步骤 发集和分析业务需求建立数据模型和数据仓库的物理设计定义数据源选择数据仓库技术和平台从操作型数据库中抽取 转换 清洗数据并加载到数据仓库选择访问和报表工具选择数据库连接软件选择数据分析和数据展示软件更新数据仓库 73 74 75 5 为什么要进行数据挖掘 76 数据挖掘都干了些什么 英国电信需要发布一种新的产品 需要通过直邮的方式向客户推荐这种产品 使直邮的回应率提高了100 77 数据挖掘都干了些什么 GUS日用品零售商店需要准确的预测未来的商品销售量 降低库存成本 通过数据挖掘的方法使库存成本比原来减少了3 8 78 数据挖掘都干了些什么 汇丰银行需要对不断增长的客户群进行分类 对每种产品找出最有价值的客户 营销费用减少了30 79 数据挖掘都干了些什么 美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象 发现可能存在欺诈的交易 进行深入调查 节约了大量的调查成本 80 数据挖掘都干了些什么 美国国内税务局需要提高对纳税人的服务水平 合理安排税务官的工作 为纳税人提供更迅捷 更准确的服务 81 数据挖掘都干了些什么 卓越亚马逊 82 通过数据挖掘我们可以 发现最有价值的客户 83 通过数据挖掘我们可以 使组合销售更有效率 84 通过数据挖掘我们可以 留住那些最有价值的客户 85 通过数据挖掘我们可以 用更小的成本发现欺诈现象 86 数据挖掘逐渐演变的过程 数据挖掘其实是一个逐渐演变的过程 电子数据处理的初期 人们就试图来实现自动决策支持 当机器学习成为人们关心的焦点 机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机 机器通过学习这些范例总结并生成喜相应的规则 这些规则具有通用性 使用它们可以解决某一类的问题 87 随着神经网络技术的形成和发展 人们的注意力转向知识工程 知识工程不同于机器学习那样给计算机输入范例 让它生成出规则 而是直接给计算机输入已被代码化的规则 而计算机是通过使用这些规则来解决某些问题 专家系统就是这种方法所得到的成果 但它有投资大 效果不甚理想等不足 88 数据挖掘逐渐演变的过程 80年代又在新的神经网络理论的指导下 重新回到机器学习的方法上 并将其成果应用于处理大型商业数据库 随着在80年代末一个新的术语 即数据库中的知识发现 简称KDD Knowledgediscoveryindatabase 它泛指所有从源数据中发掘模式或联系的方法 人们接受了这个术语 并用KDD来描述整个数据发掘的过程 包括最开始的制定业务目标到最终的结果分析 而用数据挖掘 datamining 来描述使用挖掘算法进行数据挖掘的子过程 89 数据挖掘逐渐演变的过程 最近人们却逐渐开始使用数据挖掘中有许多工作可以由统计方法来完成 并认为最好的策略是将统计方法与数据挖掘有机的结合起来 数据仓库技术的发展与数据挖掘有着密切的关系 数据仓库的发展是促进数据挖掘越来越热的原因之一 但是 数据仓库并不是数据挖掘的先决条件 因为有很多数据挖掘可直接从操作数据源中挖掘信息 90 数据挖掘应用前景看好 电信 客户流失 欺诈甄别 零售 销售预测 成本控制 农业 行业数据预测 电子商务 商品推荐 个性化网页等 银行 建立利润评测模型 客户关系优化 风险控制等 生物制药 DNA序列查询与匹配 识别基因序列的共发性 保险 91 数据挖掘解决的典型问题 数据库营销 DatabaseMarketing 客户群体划分 CustomerSegmentation Classification 背景分析 ProfileAnalysis 交叉销售 Cross selling 客户流失性分析 ChurnAnalysis 客户信用记分 CreditScoring 欺诈发现 FraudDetection 92 93 国内应用存在的问题 数据积累不充分 不全面业务模型构建困难缺少有经验的实施者 94 数据挖掘未来发展 与数据仓库系统集成与预言模型系统集成挖掘各种复杂类型的数据与应用相结合研制和开发数据挖掘标准支持移动环境 95 6 数据挖掘简介 96 数据挖掘的概念 数据挖掘是从大量数据中提取或挖掘知识 数据挖掘就是从大量的 不完全的 有噪声的 模糊的 随机的实际应用数据中 提取隐含在其中的 人们事先不知道的 但又是潜在有用的信息和知识的过程 97 什么是数据挖掘 例子 买尿布的客户中 80 买了啤酒 发生在美国大型超市WalMart的实例 周四 消费者通常同时购买尿布和啤酒出乎意料的信息 但对商店有用原因 98 数据挖掘的潜在应用 99 数据库查询与数据挖掘间的工具比较 查询工具 查询所要访问对象是否在某一特定位置 照亮 感兴趣的数据 主动的 不生成严格的结果和不同层次的挖掘挖掘工具 缩小范围 提高敏感度 针对动态变化 趋势 模式 被动的 只对字段进行严格的查询 100 数据挖掘的特点 从实际海量数据源中发现知识 完整性 一致性 正确性难以保证 处理数据规模十分庞大 适于寻找感兴趣的内容 对数据的变化能快速响应 发现潜在规则 不断更新规则 基于一定的阈值 使用相应的规则 101 数据挖掘与传统分析方法的区别 数据挖掘与传统的数据分析 如查询 报表 联机应用分析 的本质区别是 数据挖掘是在没有明确假设的前提下去挖掘信息 发现知识 数据挖掘所得到的信息应具有先知 有效和可实用三个特征 先前未知的信息是指该信息是预先未曾预料到的 既数据挖掘是要发现那些不能靠直觉发现的信息或知识 甚至是违背直觉的信息或知识 挖掘出的信息越是出乎意料 就可能越有价值 102 数据挖掘研究的内容 随着DMKD研究逐步走向深入 数据挖掘和知识发现的研究已经形成了三根强大的技术支柱 数据库 人工智能和数理统计 目前DMKD的主要研究内容包括基础理论 发现算法 数据仓库 可视化技术 定性定量互换模型 知识表示方法 发现知识的维护和再利用 半结构化和非结构化数据中的知识发现以及网上数据挖掘等 103 104 数据挖掘的功能 数据挖掘功能用于指定数据挖掘任务中要找的模式类型 数据挖掘任务有两类 描述和预测 描述性挖掘任务刻画数据库中数据的一般特性 预测性数据挖掘任务在当前数据上进行推断 预测1 概念描述2 关联分析3 自动预测趋势和行为4 聚类5 偏差检测 105 7 数据挖掘的基本过程是怎样的 106 保证数据挖掘成功的关键 准确的定义你要解决的问题 定位准确的问题 使用正确的数据核心技术 人工智能 机器学习 数理统计等 辅助技术 107 数据挖掘的数据分析过程 四个过程 数据准备提取集成数据 解决语义二义性问题 消除脏数据等数据仓库数据来源于整个企业 广泛性 完整性 数据选择和预分析 挖掘利用分析算法 表述可视化 评价数据准备 数据访问 算法与建模 模型评价和解释 用户界面 108 进行数据挖掘的步骤 问题定义 定义要分析的问题发现问题 识别关键信息制定计划 有针对性的计划采取行动 将数据挖掘与实际策略 决策相集成监测效果 动态模型 学习机制 109 8 数据仓库与数据挖掘的关系是什么 110 DW与DM关系密切 数据仓库促进数据挖掘的发展 数据挖掘可以看作是联机分析处理的高级阶段 数据仓库并不是数据挖掘的必要条件 数据挖掘库可能是数据仓库的一个子集 而不一定非是物理上单独的数据库 为了数据挖掘也不一定要建立数据仓库 基于在开发数据仓库过程中所进行的数据集成 清洗和准备 才使数据仓库对于数据挖掘有着重要的价值 111 知识挖掘过程 112 数据挖掘系统 113 9 数据挖掘的热点和主要问题 114 主要热点 就目前来看 将来的几个热点包括 网站的数据挖掘 WebSiteDataMining 生物信息或基因 Bioinformatics genomics 的数据挖掘 文本的数据挖掘 TextualMining 115 网站的数据挖掘 电子商务网站的困难 如何让您的电子商务网站有效益 要想有效益就必须吸引客户 增加能带来效益的客户忠诚度 电子商务业务的竞争比传统的业务竞争更加激烈 原因有很多方面 其中一个因素是客户从一个电子商务网站转换到竞争对手那边 只需点击几下鼠标即可 网站的内容和层次 用词 标题 奖励方案 服务等任何一个地方都有可能成为吸引客户 同时也可能成为失去客户的因素 而同时电子商务网站每天都可能有上百万次的在线交易 生成大量的记录文件 Logfiles 和登记表 如何对这些数据进行分析和挖掘 充分了解客户的喜好 购买模式 甚至是客户一时的冲动 设计出满足于不同客户群体需要的个性化网站 进而增加其竞争力 几乎变得势在必行 若想在竞争中生存进而获胜 就要比您的竞争对手更了解客户 116 电子商务网站数据挖掘

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论