




已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
26.04.2020,精品课件,1,数据仓库与数据挖掘(DataWarehouseandDataMining),任课教师:彭静联系方式:E-Mail:sunshinepengjing(O):63748859(M):(60026.04.2020,精品课件,2,课程成绩,期末总成绩平时成绩(30)期末卷面成绩(70)注:平时成绩(30)考勤(15)作业(15),26.04.2020,精品课件,3,推荐参考书,JiaweiHan、MichelineKamber著,范明等译,数据挖掘概念与技术,机械工业出版社,2001.W.H.Inmon,王志海等译,BuildingtheDataWarehouse,机械工业出版社,2000.5陈文伟,黄金才,赵新煜数据挖掘技术北京工业大学出版社2002.12陈文伟著,数据仓库与数据挖掘教程,清华大学出版社,2006.,26.04.2020,精品课件,4,主要内容,数据库、数据库管理系统与数据仓库(2学时)数据仓库原理(4学时)数据仓库设计(4学时)联机分析处理(OLAP)(4学时)数据仓库管理和应用(2学时)数据挖掘(12学时)总复习(2学时),26.04.2020,精品课件,5,第一章数据库、数据库管理系统与数据仓库,26.04.2020,精品课件,6,第1章数据库、数据库管理系统与数据仓库,1.1数据库与数据库技术1.1.1数据、数据库与数据库系统1.1.2数据库系统的特点1.2数据仓库1.2.1从传统数据库到数据仓库1.2.2数据仓库的基本特性1.3数据挖掘,26.04.2020,精品课件,7,1.1.1数据、数据库与数据库系统,1数据(Data)数据是信息系统的基本概念和计算机系统要处理的基本对象之一。严格地说,数据可定义为:数据是对客观事物记录下来的、可以鉴别的符号。数据是客观事物的属性、数量、位置及相互关系等等的抽象表示。,26.04.2020,精品课件,8,2数据库(DataBase,DB),数据库是按一定组织方式存储在计算机存储器中的相互关联的数据集合。,26.04.2020,精品课件,9,3数据库系统(DataBaseSystem,DBS),数据库系统是指在计算机系统中引入数据库后的系统。随着计算机软、硬件和相应技术的发展,数据管理经历了人工管理、文件系统和数据库系统3个阶段。,26.04.2020,精品课件,10,4数据库管理系统,数据库管理系统是一个管理数据库的软件系统,它为用户提供了描述数据库、操纵数据库和维护数据库的方法和命令,并且能自动控制数据库的安全以及数据完整。,26.04.2020,精品课件,11,1.1.2数据库系统的特点,1.数据的结构化2.数据的共享性3.数据的独立性4.数据统一由DBMS管理和控制(1)数据的安全性(2)数据的完整性(3)并发控制(4)数据库恢复,26.04.2020,精品课件,12,1.2数据仓库,1.2.1从传统数据库到数据仓库传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:,26.04.2020,精品课件,13,1.2.1从传统数据库到数据仓库由数据库发展到数据仓库主要在于以下几点:(宏观层面),(1)“数据太多,信息不足”的现状(2)异构环境的数据的转换和共享(3)利用数据进行数据处理转换为利用数据支持决策,1.2数据仓库,26.04.2020,精品课件,14,1.2数据仓库,1.2.1从传统数据库到数据仓库传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面(微观层面):,26.04.2020,精品课件,15,(1).系统响应问题,传统的业务处理系统:用户每次操作处理的时间短,存取数据量小,但操作频率高,并发程度大。决策分析处理:每次分析可能需要连续运行很长的时间,存取数据量大,但很少做这样的分析处理。,26.04.2020,精品课件,16,(2).数据集成问题,传统的业务处理系统:一般只需要与本部门业务有关的当前细节数据,而对整个企业范围内的集成应用考虑很少,这就造成大部分企业内部的数据是分散而非集成的。,26.04.2020,精品课件,17,(2).数据集成问题,决策分析处理:决策分析需要集成的数据,包括整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。全面而正确的数据是有效的分析和决策的首要前提。,26.04.2020,精品课件,18,(3)历史数据问题,传统的业务处理:一般只需要当前数据,数据库中的过时数据虽然也能通过数据转储等方式保存下来,但往往被束之高阁,未能得到充分利用。决策分析处理:更看重历史数据,可以通过对大量历史数据的详细分析来把握企业的发展趋势。,26.04.2020,精品课件,19,(4)数据的综合问题,传统的业务处理:需要的是当前的细节性操作数据。决策分析处理:需要的往往是大量的总结性分析型数据,而非数据库中的细节性操作型数据。,26.04.2020,精品课件,20,(4)数据的综合问题,数据库中太多的细节数据一方面会影响分析的效率,另一方面也不利于分析人员将注意力集中于有用的信息上。因此,在分析前往往需要对细节数据进行不同程度的综合,在数据库系统中,这种综合还往往因为是一种数据冗余而被限制。,26.04.2020,精品课件,21,传统的业务处理:提供多种不同类型的数据访问操作,对于需要修改的数据必须实时更新数据库。决策分析处理:数据的访问操作以读操作为主,不需要实时的更新操作,但需要定时刷新。,(5)数据的访问问题,26.04.2020,精品课件,22,综上所述,在事务处理环境中直接构建分析处理应用是不合适的,要提高分析处理和决策支持的效率和有效性,必须将分析型处理及其所需的综合性数据从传统的事务型处理和细节性数据中分离出来,按照决策分析的需要重新进行组织,建立单独的分析处理环境,数据仓库正是为了建立这种新的分析处理环境而出现的一种数据存储和组织技术。,26.04.2020,精品课件,23,表1-1数据仓库与数据库的对比,26.04.2020,精品课件,24,26.04.2020,精品课件,25,1.2.2数据仓库的基本特性,1.数据仓库的定义数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。,26.04.2020,精品课件,26,2.数据仓库的基本特征,(1)数据仓库的数据是面向主题的主题是数据归类的标准,每一个主题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。,26.04.2020,精品课件,27,例1:一个面向事务处理的“商场”数据库系统,其数据模式如下:,采购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期),26.04.2020,精品课件,28,库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话),26.04.2020,精品课件,29,上述数据模式基本上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的。如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题。,26.04.2020,精品课件,30,商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等,主题一:商品,26.04.2020,精品课件,31,供应商固有信息:供应商号,供应商名,地址,电话等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等,主题二:供应商,26.04.2020,精品课件,32,顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等顾客购物信息:顾客号,商品号,售价,购买日期,购买量等,主题三:顾客,26.04.2020,精品课件,33,在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。,面向主题,26.04.2020,精品课件,34,(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。,26.04.2020,精品课件,35,(3)数据仓库是不可更新的,数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企业决策分析之用,执行的主要是查询操作,一般情况下不执行更新操作。但这也不等于数据仓库中的数据不需要更新操作。在需要进行新的分析决策时,可能需要进行新的数据抽取和更新操作数据仓库中的一些过时的数据,也可以通过删除操作丢弃掉。,26.04.2020,精品课件,36,(4)数据仓库是随时间变化的,数据仓库中的数据必须以一定时间段为单位进行统一更新。,不断增加新的数据内容不断删去旧的数据内容,数据仓库内的数据时限在510年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。,26.04.2020,精品课件,37,(5)数据仓库的数据量很大大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)(6)数据仓库软、硬件要求较高需要一个巨大的硬件平台需要一个并行的数据库系统,26.04.2020,精品课件,38,1.3数据挖掘,1、从机器学习到数据挖掘学习是人类具有的智能行为,主要在于获取知识。机器学习是研究使计算机模拟或实现人类的学习行为,即让计算机通过算法自动获取知识。机器学习是人工智能领域中的重要研究方向。20世纪60年代开始了机器学习的研究。,26.04.2020,精品课件,39,(1)1980年在美国召开了第一届国际机器学习研讨会;明确了机器学习是人工智能的重要研究方向(2)1989年8月于美国底特律市召开的第一届知识发现(KDD)国际学术会议;首次提出知识发现概念(3)1995年在加拿大召开了第一届知识发现和数据挖掘(DM)国际学术会议;首次提出数据挖掘概念(4)我国于1987年召开了第一届全国机器学习研讨会。,26.04.2020,精品课件,40,2、数据挖掘含义,知识发现(KDD):从数据中发现有用知识的整个过程。数据挖掘(DM):KDD过程中的一个特定步骤,它用专门算法从数据中抽取知识。如在人类数据库中挖掘知识为:(头发=黑色)(眼睛=黑色)亚洲人该知识覆盖了所有亚州人的记录。,26.04.2020,精品课件,41,“Dataminingistheapplicationofartificialintelligence(AI)techniques(neuralnetwork,geneticalgorithms,etc)tolargequantitiesofdata,todiscoveryhiddentrends,patterns,andrelationships.”MetaGroup4/1996因此可以这样定义数据挖掘:数据挖掘,就是应用一系列技术从大型数据库或数据仓库的数据中提取人们感兴趣的信息和知识,这些知识或信息是隐含的、事先未知而潜在有用的。提取的知识表示为概念(concepts)、规则(Rules)、规律(Regularities)、模式(Patterns)等形式。,26.04.2020,精品课件,42,3、在何种数据上进行数据挖掘,原则上,数据挖掘可以在任何类型的信息存储上进行关系数据库数据仓库事务数据库高级数据库:面向对象、对象-关系数据库;面向特殊应用的数据库,如空间数据库、时间序列数据库、文本数据库和多媒体数据库展开文件www,26.04.2020,精品课件,43,4、数据挖掘与OLAP的比较,联机分析处理OLAP(On-LineAnalysisProcessing)。它专门设计用于支持复杂的分析操作,侧重对分析人员和高层管理人员的决策支持,可以应分析人员的要求快速、灵活地进行大数据量的复杂查询处理,并且以一种直观易懂的形式将查询结果提供给决策制定人,以便他们准确掌握企业(公司)的经营状况,了解市场需求,制定正确方案,增加效益。,26.04.2020,精品课件,44,4、数据挖掘与OLAP的比较,OLAP的典型应用,通过商业活动变化的查询发现的问题,经过追踪查询找出问题出现的原因,达到辅助决策的作用。数据挖掘数据挖掘任务在于聚类(如神经网络聚类)、分类(如决策树分类)、预测等。,26.04.2020,精品课件,45,5、数据仓库与数据挖掘的比较,数据挖掘和数据仓库作为决策支持新技术,在近10年来得到了迅速发展.数据仓库和数据挖掘是相互结合起来一起发展的,二者是相互影响、相互促进的。二者的联系可以概括为以下几点:,26.04.2020,精品课件,46,(1)数据仓库为数据挖掘提供了更好的、更广泛的数据源(2)数据仓库为数据挖掘提供了新的支持平台(3)数据仓库为更好地使用数据挖掘工具提供了方便(4)数据挖掘为数据仓库提供了更好的决策支持(5)数据挖掘对数据仓库的数据组织提供了更高的要求(6)数据挖掘还为数据仓库提供了广泛的技术支持,26.04.2020,精品课件,47,1.数据仓库与数据挖掘的区别数据仓库是一种存储技术,它的数据存储量是一般数据库的百倍,它包含大量的历史数据、当前的详细数据以及综合数据,能为不同用户的不同决策需求提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的,研究各种方法和技术,从大量的数据中挖掘有用的信息和知识。,26.04.2020,精品课件,48,数据仓库与数据挖掘都是决策支持新技术。但它们有着完全不同的辅助决策方式。在数据仓库系统的前端的分析工具中,数据挖掘是其中重要工具之一。它可以帮助决策用户挖掘数据仓库的数据中隐含的规律性。,26.04.2020,精品课件,49,数据挖掘用于数据仓库实现决策支持:(1)预测客户购买倾向;(2)客户利润贡献度分析;(3)分析欺诈行为;(4)销售渠道优化
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 抗疫课件教学课件
- 抗凝药物课件
- 2025年医用消毒灭菌设备项目合作计划书
- 2025年呼吸科护理考试题及答案
- 戚佳丽课件教学课件
- 2025年建行考试笔试题目及答案
- 美术中招考试题及答案
- 装火车工考试题及答案
- 企业管理考试真题及答案
- 司法考试综合题及答案
- 测绘保密自查管理制度
- 2026高考作文备考之题目解析及范文素材:觉醒是一种持续的心态
- 2025年《网络营销》课程标准
- DB32-T 5092-2025 低压分布式光伏接入电网数据采集要求
- 2025年中国微网雾化器行业市场前景预测及投资价值评估分析报告
- T/CCS 004-2023智能化煤矿体系架构
- 即墨区离婚协议书
- 别墅设计全套方案
- 科研项目经费管理
- 焊接生产与管理
- 《经济法基础》课件-第七章 税收法律制度
评论
0/150
提交评论