版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘,周玲元QQ:503017672,课程介绍,48学时、专业选修课 32 + 16 偏重工具使用、实际应用、案例分析 总评构成:实验作业+期末考试 课外阅读参考文献、动手操作 答疑方式:e-mail、qq、办公室。,教学方式与考核方式,教学方式 本课程以课堂教学为主,以电子教案的内容为主线 课外阅读指定的参考文献并利用网上资源,加深对教学内容的理解。 考核方式及要求 1、平时: 点名+一篇报告(以数据挖掘为关键字查询论文,至少选读8篇,写读书报告或文献综述) 2、上机实验报告 3、期末课堂考试(开卷),授课计划,1. 数据仓库与数据挖掘概述 2. 数据
2、仓库的分析 3. 数据仓库的设计 4. 数据仓库规划与开发 5. 数据仓库工具、数据挖掘过程 6. 数据挖掘算法:分类、预测、关联 7. 数据挖掘算法:聚类、神经网络 8. 数据挖掘新技术:文本挖掘、Web挖掘、可视化挖掘,授课计划,9. 数据挖掘工具及应用:Excel 2007 10. 数据挖掘工具及应用:Sql Server 2005/2000 11. 数据挖掘工具及应用:SPSS ORACLE 12. 知识管理与知识管理系统 13. 数据仓库设计实验 14. 数据仓库设计实验 15. 数据挖掘实验 16. 数据挖掘实验 补充内容:R语言 数据分析 BI架构 语义网 数据展示 行业案例,参
3、考书,数据仓库(第四版)2007 William H.Inmon (数据仓库之父) 数据挖掘概念与技术(第二版) Jiawei Han(加)2006,数据挖掘职业能力要求,一、专业技能 硕士以上学历,数据挖掘、统计学、数据库相关专业,熟练掌握关系数据库技术,具有数据库系统开发经验; 熟练掌握常用的数据挖掘算法; 具备数理统计理论基础,并熟悉常用的统计工具软件; 二、行业知识 具有相关的行业知识,或者能够很快熟悉相关的行业知识; 三、合作精神 具有良好的团队合作精神,能够主动和项目中其他成员紧密合作; 四、客户关系能力 具有良好的客户沟通能力,能够明确阐述数据挖掘项目的重点和难点,善于调整客户对
4、数据挖掘的误解和过高期望; 具有良好的知识转移能力,能够尽快地让模型维护人员了解并掌握数据挖掘方法论及建模实施能力。,数据挖掘人员具备如下条件,可以提高数据挖掘项目的实施效率,缩短项目周期: 具有数据仓库项目实施经验,熟悉数据仓库技术及方法论 熟练掌握SQL语言,包括复杂查询、性能调优 熟练掌握ETL开发工具和技术 熟练掌握Microsoft Office软件,包括Excel和PowerPoint中的各种统计图形技术 善于将挖掘结果和客户的业务管理相结合,根据数据挖掘的成果向客户提供有价值的可行性操作方案,职业薪酬,就目前来看,和大多IT业的职位一样,数据仓库和数据挖掘方面的人才在国内的需求工
5、作也是低端饱和,高端紧缺,在二线成熟,高端数据仓库和数据挖掘方面的人才尤其稀少。高端数据仓库和数据挖掘人才需要熟悉多个行业,至少有3年以上大型DWH和BI经验,英语读写流利,具有项目推动能力,这样的人才年薪能达到20万以上。,一、 数据仓库与数据挖掘概述,主要内容,1.学习数据仓库与数据挖掘有何意义? 2.为什么要建立数据仓库? 3.数据仓库简介 4.建立数据仓库的基本步骤是怎样的? 5.为什么要进行数据挖掘? 6.数据挖掘简介 7.数据挖掘的基本过程是怎样的? 8.数据仓库与数据挖掘的关系是什么? 9.数据挖掘的热点和主要问题,1、学习数据仓库与数据挖掘有何意义,引言,社会信息化后,社会的运
6、转是软件的运转 社会信息化后,社会的历史是数据的历史,时代背景,我们生活在一个网络化时代,通信、计算机和网络技术正改变整个人类社会。 如果用芯片集成度来衡量微电子技术,用CPU处理速度来衡量计算机技术,用信道传输速率来衡量通信技术,那么摩尔定律告诉我们,它们都是以每18个月翻一番的速度在增长,这一势头已经维持了十多年。,信息传播的背景,在美国 广播达到5000万用户用了38年; 电视用了13年; Internet拨号上网达到5000万用户仅用了4年; 全球IP网发展速度达到每6个月翻一番,国内情况亦然。 更多数据,详见视频:你知道吗,划时代意义的技术,有人提出,对待一个跨国企业也许比对待一个国
7、家还要重要。在新世纪,回顾往昔,人们不禁要问:就推动人类社会进步而言,历史上能与网络技术想比拟的是什么技术呢? 有人甚至提出要把网络技术与火的发明相比拟,火的发明区别了人和动物;各种重大科学技术的重大发现扩展了自然人的体能、技能和智能,而网络技术则大大提高了人的生存质量和人的素质,使人成为社会人、全球人。 扩展视频:第六感,网络之后下一个技术热点是什么?,纽约时报由60年代的1020版扩展至现在的100200版,最高纪录1527版。 北京青年报也已是1640版;市场营销报已达到100版。 而现实社会中,人均日阅读时间通常为3045分钟,只能浏览一份24版的报纸。,信息处理的难题,大量信息在给人
8、们带来方便的同时也带来了一大堆问题: 第一是信息过量,难以消化; 第二是信息真假难以辨别; 第三是信息安全难以保证; 第四是信息形式不一致,难以统一处理。,要学会抛弃信息,人们开始考虑:“如何才能不被信息淹没,而是从中及时发现有用的知识、提高信息利用率?” 面对这一挑战,数据挖掘和知识发现(Data Mining and Knowledge Discovery)技术应运而生,并显示出强大的生命力。,数据爆炸但知识贫乏,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行高层次的分析,以便更好地利用这些数据。 数据的丰富带来了对强有力的数据分析工具的需求,快速增长的海
9、量数据、存放在大型和大量数据库中,没有强有力的工具,理解这些数据已远远超出了人的能力。,我们怎么分析这些数据,导致“数据爆炸但知识贫乏”的原因,目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。,企业面临的问题,经过多年的计算机应用和市场积累,许多企业保存了大量原始数据和各种业务数据, 它是企业生产经营活动的真实记录 由于缺乏集中存储和管理,这些数据不能为本企业加以利用, 不能进行有效的统计、分析及评估,无法将这些数据转换成企业有用的信息,数据
10、爆炸问题,自动的数据收集工具和成熟的数据库技术导致巨大的数据存储在文件系统、数据库和其它的信息库中 。 我们会淹死在数据中, 但却为信息、知识所饿!,面临的挑战,如何在堆积如山的企业交易数据中发现具有商业价值的闪光点? 如何使您的企业或组织在激烈的市场竞争中保持对客户的吸引力? 如何预先发现和避免企业运作过程中不易察觉的商业风险?,“我们花了20多年的时间将数据放入数据库,如今是该将它们拿出来的时候了。” -著名的数据仓库专家Ralph Kimball,市场需求是技术发展的源动力,学习本课的意义,掌握数据仓库和数据挖掘的基本原理,用信息分析的方法进行思考问题。 了解一些算法的基本思想,以便今后
11、处理特定问题时使用。 帮助你了解现代企业在信息化策略中所采用的技术手段,帮助你更深入地掌握面向经济问题开展研究和实践的基本方向。,2、为什么要建立数据仓库?,传统数据库的演化主文件,传统数据库的演化单一数据库,传统数据的演化抽取程序,因为用抽取程序能将数据从 高性能联机事务处理方式中转 移出来,所以在需要总体分析 数据时就与联机事务处理性能 不发生冲突。 当用抽取程序将数据从操作 型事务处理范围内移出时,数 据的控制方式就发生了转变。 最终用户一旦开始控制数据, 他(她)就最终“拥有”了这 些数据。,抽取程序形成了“蜘蛛网”,自然演化体系结构的问题,与自然演化体系结构相关联的困难到底是什么呢?
12、问题很多,主要有: - 数据可信性 - 生产率 - 数据不一致性,数据缺乏可信性,生产率问题,生产率问题,数据不一致性,原始数据与导出数据,原始数据是公司每天操作运行所用的细节性数据,导出数据是统计出来的或计算出来的满足公司管理者需要的数据。 原始数据可以更新,导出数据不可以更新。原始数据主要是当前值数据,导出数据通常为历史数据。 原始数据由以重复方式运行的过程操作,导出数据由非重复地启发式地运行的程序操作。 操作型数据是原始的,DSS数据是导出的。原始数据支持日常工作,导出数据则支持管理工作。,原始数据和导出数据的不同而导致的数据分离的自然扩展过程,可用不同数据层次进行查询的不同类型,数据在
13、从操作型环境转移到数据仓库环境的同时进行集成,谁需要信息和知识?,数据仓库的作用,两个主要作用: 存储经过加工处理的决策需要的数据 存储数据的一种形式 加工和集成后的再存储 查询和决策分析的依据 为数据驱动型的决策支持提供数据基础,建立数据仓库的好处,有形好处 改善产品库存控制 降低产品推广费 更加高效的制定决策 提供一个关于整个企业的整体构架 无形好处 集中存放,方便存取,提高生产效率 减少重复数据处理和分析 提高用户对数据的应用程度 为商务流程再造提供支持,知识点回顾,3、数据仓库简介,什么是数据仓库(Data Warehouse)?,数据仓库(DW)是一个面向主题的(Subject Or
14、iented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策和信息的全局共享。 W.H.Inmon,数据仓库回答的问题,数据仓库将为高层管理人员的科学决策提供可靠依据。 去年各个地区各个产品的销售量和销售额? 10年以来各厂商每季度的销售额占有比例的变化情况? 如果某种产品的销售价格打9折,利润将发生怎样的变化? 今年销售量下降的主要因素(时间、地区、部门、商品)是什么?,数据仓库的特点,面向主题 集成性 不可更新性(相对稳定) 时态性(反映历史变化),面向主题,在较高层次上对分析对象的数据进行一个
15、完整、一致的描述,能完整、统一管理各个分析对象所涉及的企业各项数据以及数据之间的联系。 高层次:很高的数据抽象级别,面向主题,一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:订单处理;应收账目;应付账目;) - 典型的主题领域:客户;产品;交易;账目 - 主题领域以一组相关的表来具体实现 - 相关的表通过公共的键码关联起来(如:顾客标识号:Customer ID) - 每个键码都有时间元素(从日期到日期;每月积累;单独日期) - 主题内数据可以存储在不同介质上(综合级,细节级,多粒度),集成性,数据仓库的每一个主题所对应的元数据在原有的各分散数据库中有许多重复各不一致的地方,且来源
16、于不同联机系统的数据库和应用逻辑捆绑在一起。 数据仓库中的综合数据不能从原有的数据库系统直接得到。 - 统一元数据中有矛盾之处 - 进行数据综合和计算,不可更新性(相对稳定),涉及的操作:查询 数据 - 相当长的时间的历史数据; - 基于不同时间的数据库快照进行统计、综合和重组而导出的数据,不是联机数据。,时态性(反映历史变化),随时间的变化而不断增加新的数据内容 数据有存储期限 - 操作型:60 90天 - DSS数据:5 10年 大量综合数据与时间有关,数据集市(data marts),也称部门数据或主题数据。 通常指较为小型化、针对特定目标且建设成本较低的一种数据仓库。 分为: - 独立
17、的数据集市(根据操作数据独立形成) - 非独立的数据集市(从中央数据库派生出来),4、建立数据仓库的基本步骤是怎样的?,数据进入数据仓库的基本过程,建立数据仓库的步骤,发集和分析业务需求 建立数据模型和数据仓库的物理设计 定义数据源 选择数据仓库技术和平台 从操作型数据库中抽取、转换、清洗数据并加载到数据仓库 选择访问和报表工具 选择数据库连接软件 选择数据分析和数据展示软件 更新数据仓库,5、为什么要进行数据挖掘?,数据挖掘都干了些什么?,英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。,使直邮的回应率提高了100,数据挖掘都干了些什么?,GUS日用品零售商店需要准确的预
18、测未来的商品销售量,降低库存成本。,通过数据挖掘的方法使库存成本比原来减少了3.8%,数据挖掘都干了些什么?,汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。,营销费用减少了30,数据挖掘都干了些什么?,美国国防财务部需要从每年上百万比的军火交易中发现可能存在的欺诈现象。,发现可能存在欺诈的交易,进行深入调查,节约了大量的调查成本,数据挖掘都干了些什么?,美国国内税务局需要提高对纳税人的服务水平。,合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务,数据挖掘都干了些什么?,卓越亚马逊,通过数据挖掘我们可以,发现最有价值的客户,通过数据挖掘我们可以,使组合销售更有效率,
19、通过数据挖掘我们可以,留住那些最有价值的客户,通过数据挖掘我们可以,用更小的成本发现欺诈现象,数据挖掘逐渐演变的过程,数据挖掘其实是一个逐渐演变的过程,电子数据处理的初期,人们就试图来实现自动决策支持。 当机器学习成为人们关心的焦点,机器学习的过程就是将一些已知的并已被成功解决的问题作为范例输入计算机,机器通过学习这些范例总结并生成喜相应的规则,这些规则具有通用性,使用它们可以解决某一类的问题。,随着神经网络技术的形成和发展,人们的注意力转向知识工程,知识工程不同于机器学习那样给计算机输入范例,让它生成出规则,而是直接给计算机输入已被代码化的规则,而计算机是通过使用这些规则来解决某些问题。专家
20、系统就是这种方法所得到的成果,但它有投资大、效果不甚理想等不足。,数据挖掘逐渐演变的过程,80年代又在新的神经网络理论的指导下,重新回到机器学习的方法上,并将其成果应用于处理大型商业数据库。 随着在80年代末一个新的术语,即数据库中的知识发现,简称KDD(Knowledge discovery in database)。它泛指所有从源数据中发掘模式或联系的方法,人们接受了这个术语,并用KDD来描述整个数据发掘的过程,包括最开始的制定业务目标到最终的结果分析,而用数据挖掘(data mining)来描述使用挖掘算法进行数据挖掘的子过程。,数据挖掘逐渐演变的过程,最近人们却逐渐开始使用数据挖掘中有
21、许多工作可以由统计方法来完成,并认为最好的策略是将统计方法与数据挖掘有机的结合起来。 数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热的原因之一。但是,数据仓库并不是数据挖掘的先决条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息。,数据挖掘应用前景看好,- 电信(客户流失、欺诈甄别) - 零售(销售预测;成本控制) - 农业(行业数据预测) - 电子商务(商品推荐;个性化网页等) - 银行(建立利润评测模型;客户关系优化;风险控制等) - 生物制药(DNA序列查询与匹配;识别基因序列的共发性) - 保险,数据挖掘解决的典型问题,数据库营销(Database
22、Marketing) 客户群体划分(Customer Segmentation & Classification) 背景分析(Profile Analysis) 交叉销售(Cross-selling) 客户流失性分析(Churn Analysis) 客户信用记分(Credit Scoring) 欺诈发现(Fraud Detection) ,国内应用存在的问题,数据积累不充分、不全面 业务模型构建困难 缺少有经验的实施者,数据挖掘未来发展,与数据仓库系统集成 与预言模型系统集成 挖掘各种复杂类型的数据 与应用相结合 研制和开发数据挖掘标准 支持移动环境,6、数据挖掘简介,数据挖掘的概念,数据挖掘
23、是从大量数据中提取或挖掘知识。 数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。,什么是数据挖掘,例子 “买尿布的客户中,80%买了啤酒!” 发生在美国大型超市WalMart的实例。 周四,消费者通常同时购买尿布和啤酒 出乎意料的信息,但对商店有用 原因?,数据挖掘的潜在应用,数据库查询与数据挖掘间的工具比较,查询工具 - 查询所要访问对象是否在某一特定位置。 -“照亮”感兴趣的数据 - 主动的、不生成严格的结果和不同层次的挖掘 挖掘工具 - 缩小范围、提高敏感度、针对动态变化。 - 趋势、模式。 -
24、 被动的、只对字段进行严格的查询。,数据挖掘的特点,从实际海量数据源中发现知识。完整性、一致性、正确性难以保证。 -处理数据规模十分庞大 -适于寻找感兴趣的内容 -对数据的变化能快速响应 -发现潜在规则、不断更新规则 -基于一定的阈值,使用相应的规则,数据挖掘与传统分析方法的区别,数据挖掘与传统的数据分析(如查询、报表、联机应用分析)的本质区别是 - 数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先知、有效和可实用三个特征。 - 先前未知的信息是指该信息是预先未曾预料到的,既数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识,挖掘出的信
25、息越是出乎意料,就可能越有价值。,数据挖掘研究的内容,随着DMKD研究逐步走向深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱:数据库、人工智能和数理统计。目前DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。,数据挖掘的功能,数据挖掘功能用于指定数据挖掘任务中要找的模式类型。 数据挖掘任务有两类:描述和预测 - 描述性挖掘任务刻画数据库中数据的一般特性; - 预测性数据挖掘任务在当前数据上进行推断、预测 1、概念描述 2、关联分析 3、自动预测趋势和行为
26、4、聚类 5、偏差检测,7、数据挖掘的基本过程是怎样的?,保证数据挖掘成功的关键,准确的定义你要解决的问题,定位准确的问题。 使用正确的数据 核心技术 人工智能、机器学习、数理统计等 辅助技术,数据挖掘的数据分析过程,四个过程 -数据准备 提取集成数据,解决语义二义性问题、消除脏数据等 数据仓库数据来源于整个企业(广泛性、完整性) 数据选择和预分析 -挖掘 利用分析算法 -表述 可视化 -评价 数据准备、数据访问、算法与建模、模型评价和解释、用户界面。,进行数据挖掘的步骤,问题定义 -定义要分析的问题 发现问题 -识别关键信息 制定计划 -有针对性的计划 采取行动 -将数据挖掘与实际策略、决策
27、相集成 监测效果 -动态模型、学习机制,8、数据仓库与数据挖掘的关系是什么?,DW与DM关系密切,数据仓库促进数据挖掘的发展,数据挖掘可以看作是联机分析处理的高级阶段。 数据仓库并不是数据挖掘的必要条件。 数据挖掘库可能是数据仓库的一个子集,而不一定非是物理上单独的数据库。 为了数据挖掘也不一定要建立数据仓库。 基于在开发数据仓库过程中所进行的数据集成、清洗和准备,才使数据仓库对于数据挖掘有着重要的价值。,知识挖掘过程,数据挖掘系统,9、数据挖掘的热点和主要问题,主要热点,就目前来看,将来的几个热点包括: 网站的数据挖掘 (Web Site Data Mining) 生物信息或基因 (Bioi
28、nformatics/genomics)的数据挖掘 文本的数据挖掘 (Textual Mining)。,网站的数据挖掘,电子商务网站的困难如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。 电子商务业务的竞争比传统的业务竞争更加激烈,原因有很多方面,其中一个因素是客户从一个电子商务网站转换到竞争对手那边,只需点击几下鼠标即可。 网站的内容和层次、用词、标题、奖励方案、服务等任何一个地方都有可能成为吸引客户、同时也可能成为失去客户的因素。而同时电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年中国油石磨头市场调查研究报告
- 2025年中国无油润油压缩机市场调查研究报告
- 2025年中国人造玛瑙卫生洁具市场调查研究报告
- 护理健康政策与改革
- 管路护理中的心理支持
- 异位妊娠护理中的健康教育
- 护理讲师信息化教学工具应用
- 护理案例分析课件
- 左心衰常用护理技术操作
- 2026-2032年中国成人拉拉裤行业市场全景分析及产业需求研判报告
- 吊车拆除铁塔专项施工方案(模版)
- 2025年1月浙江省普通高中学业水平考试思想政治试卷(含答案详解)
- DB50∕T 1886-2025 特殊健康状态儿童预防接种服务规范
- 职称英语考试理工类(C级)试题及答案
- 雨污水管道施工应急预案
- DB37∕T 4393-2021 政务信息化项目 验收材料编制指南
- 2025年生态环境监测详细作业指导书(水和废水第3部分)
- 2025年新版二建继续教育(市政公用工程)题库(有答案)
- T-ZZB 3168-2023 人造板饰面用印刷装饰纸
- 上海民间收藏管理办法
- 天津市河西区2024-2025学年七年级下学期期末考试英语试卷(原卷版)
评论
0/150
提交评论