




已阅读5页,还剩75页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库与数据挖掘,杨春博士讲师Email:171165Tel平时成绩(30-40%)考勤、课堂回答问题、讨论:期末成绩(60-70%)考核方式:闭卷考试,16或17周。,数据仓库与数据挖掘技术(第2版)作者:陈京民出版社:电子工业出版社出版日期:2007年11月ISBN:9787121053054,参考书,1赵卫东.商务智能.北京:清华大学出版社,20092,第一章商务智能基本概念,1.1商务智能的基本概念,IBM商务智能定义知识就是力量。BI系统收集您客户的相关信息并加以分析,以帮助您确定商机和创建可以满足客户需求的战略。数据仓库、数据挖掘和决策支持中的先进技术创建大量的BI工具。,信息:有用的数据,一个人的垃圾(数据)是另一个人的财富(信息)Dataendowedwithrelevanceandpurpose信息是经过某种加工处理后的数据,是反映客观事物规律的一些数据。数据是信息的载体,信息是对数据的解释。,IBM商务智能产品,微软商务智能定义WatchthisinteractivevideoandlearnhowMicrosoftbusinessintelligencesolutionscanhelpyourIT,Finance,OperationsandSalesdepartmentsaccesstherightinformation,faster:,SAP商务智能定义SAPBusinessObjectsBI解决方案提供全面的商务智能功能,用户可根据可靠的数据和分析,作出有效而明智的决策。借助这些强大的解决方案,企业中的所有用户均可访问、分析和共享组织中的各种信息,并可以设置信息格式及在信息中进行导航。,SAPBusinessObjects智能平台,商务智能供应商,商务智能(BI,BusinessIntelligence)的定义IBM:利用已有的数据资源作出更好的商业决策,它包括数据访问、数据和业务分析,以及发现新的商业的机会。这说明商务智能的实质是从数据中有效地提取信息,从信息中发现知识,为商务决策和战略发展。Microsoft认为商务智能是任何尝试获取、分析企业数据以更清楚地了解市场和客户、改进企业流程、更有效地参与竞争的努力,以便在正确的时间向正确的决策者提供正确的信息。商务智能使企业能够做出比以前更好的决策。此外,IDC,Business,Objectes,Teradata,MicroStrategy公司也都有对商务智能不同的解释。,总而言之,商务智能是由数据仓库、联机分析处理和数据挖掘三种信息技术应用于商务活动后所形成的一组信息技术的应用技术。,业务数据分析的类型,数据分析技术的发展可分成报表查询、在线分析处理(OLAP)和数据挖掘3个阶段。,数据仓库是基础,它提供了商务智能所需要的各种信息;联机分析处理是商务智能应用之利器,管理决策者使用联机分析工具对反映企业商务活动的数据仓库进行智能分析,可以提高企业的市场竞争力;数据挖掘是商务智能的形成之源,利用数据挖掘可以从数据仓库中寻找企业的商务智能模式,从数据仓库的海量数据中归纳出商务知识。实例,销售分析仪表盘,客户流失分析,目标顾客群,信息流畅通了还需要?,数据,新一代决策支持系统,数据导向型决策支持系统:事务处理系统等搜集的大量数据,隐藏对决策有用的模式和规则,可以用统计方法、OLAP和数据挖掘等分析得到,以辅助决策分析用。,1.1.2商务智能的发展与应用,商务智能的发展与应用:电子数据处理系统-管理信息系统-决策支持系统商务智能的作用:理解、改善、衡量、创造商务智能的作用域:战略管理、营销管理、市场管理、客户关系管理和风险管理,图1.1商务智能体系结构,1.1.3商务智能的体系结构,BusinessIntelligenceArchitecture,OperationalandExternalData,MetadataManagement,1.2数据仓库的发展与展望,管理人员常常希望能够通过对组织中的大量数据进行分析,了解业务的发展趋势,而传统的数据库只保留了当前的业务处理信息,缺乏决策分析所需要的大量历史信息,为满足管理人员的决策分析需要,在数据库的基础上就产生了适应决策分析的数据环境-数据仓库(DW,DataWarehouse),1.2.1从数据库到数据仓库,传统数据库在联机事物处理中取得了较大的成功,但在基于事物处理的数据库帮助决策分析时却产生了很大的困难。主要原因是传统数据库的处理方式和决策分析中的数据需求不相称,导致传统数据库无法支持决策分析活动。这些不相称主要体现在如下几个方面:,(1)决策处理的系统响应问题:传统数据库数据存取频率高、操作时间快,有较高的响应时间。而在决策分析处理中,有些决策处理请求问题则可能需要系统长达数小时的运行,耗费大量的系统资源,而使事务联机系统无法忍受。(2)决策数据需求的问题:决策分析需要全面、正确的集成数据,这些数据不仅包括企业内部各部门的数据而且包括企业外部的、甚至竞争对手的相关数据。在决策数据的集成中还需要解决数据混乱的问题(0和1,M&F)。决策分析需要从数据库中抽取数据,查找有用的数据。,数据的集成还涉及外部数据与非结构化数据的应用问题。决策数据一般涉及到长期的大量历史数据。在决策分析过程中,往往需要经过汇总、概括的数据。(3)决策数据操作的问题:在对数据的操作方式上,事务处理系统往往不能满足决策人员的需要(访问权限、用户身份、报表表现形式)。同时,由于系统响应、决策数据需求和决策数据操作等影响,使企业无法使用现有的事务处理系统去解决决策分析的需要。(4)数据仓库与传统数据库的比较,表1-1数据仓库与数据库的对比,数据仓库的定义:数据仓库就是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合,它用以支持企业或组织的决策分析处理。,1.2.2数据仓库的基本特性,数据仓库的基本特征(1)数据仓库的数据是面向主题的:数据仓库中所有的数据都是围绕着某一主题组织展开的。例如企业中的客户、产品、供应商等都可以作为主题看待。(2)数据仓库的数据是集成的:根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等工作,最终集成到数据仓库中。(业务处理系统:在线事务处理系统OLTP、企业资源计划ERP、企业业务流程重组BPR、电子商务EC),(3)数据仓库是随时间变化的:数据应该随着时间的推移而变化;数据的追加和删除都是时变的;同时,概括数据也是时变的。(4)数据的非易失性:数据仓库中的数据不进行更新处理,而是一旦数据进入数据仓库以后,就会保持一个相当长的时间,而且数据主要是用于查询、分析。,(5)数据的集合性:数据仓库必须按照主题,以某种数据集合的形式存储起来。(6)支持决策作用:高层的企业决策者、中层的管理者和基层的业务处理者等不同层次的管理人员均利用数据仓库进行决策分析,提高管理决策质量。,1.2.3数据仓库的发展,1.基于关系对象数据库的数据仓库:将多媒体数据、复杂的数据类型和其他各种类型的数据引入数据仓库。2.网络的影响:数据仓库越来越依赖于网络进行数据的传输、数据的请求处理。3.操作型动态数据仓库:重在战术性决策支持,为执行工资的战略员工提供支持。(EMS-ESB(企业服务总线)追踪包裹)4.Web应用中的多智能体技术:利用合作伙伴的数据仓库或Internet系统中的多为数据集进行决策分析活动。,1.3数据仓库的体系结构,数据仓库体系结构建立在其概念基础之上,并根据商务智能的不同应用情况可以选择虚拟数据仓库结构、数据集市结构、单一数据仓库结构和分布式数据仓库结构。,图1.2数据仓库的概念结构,业务系统,外部数据源,数据准备区,数据集市/知识挖掘库,数据仓库数据库,数据集市/知识挖掘库,应用工具,应用工具,用户,用户,管理工具,数据源,1.3.1数据仓库的概念结构,从数据仓库的概念结构看,应该包含数据源、数据准备区、数据仓库数据库、数据集市/知识挖掘库以及各种管理工具和应用工具。数据仓库的创建、应用可以利用各种数据仓库管理工具辅助完成。,业务系统数据库,数据仓库查询管理服务器,用户,图1.3虚拟数据仓库结构,问题:这种数据库由于主要依靠原系统的运行,使原系统的运行效率大幅度下降;系统在操作过程中可能会涉及许多原系统,这些系统中的同一数据缺乏相同字段结构、编码和关键字,而且不同系统中数据的更新不一致,必然会产生在不同时间对同一查询结果的不同结果。,业务系统数据库,数据仓库查询管理服务器,用户1,图1.4数据集市结构,问题:数据集市的结构往往只能对某一主题进行操作,如果用户希望对两个以上主题操作,就要求用户对这两个主题的数据结构都了解,否则无法实现多主题的操作;在多主题数据仓库结构中往往产生大量的数据冗余。,主题1,主题2,用户2,业务系统数据库,数据仓库查询管理服务器,用户1,图1.5单一数据仓库结构,问题:这种体系结构需要构建一个统一的企业体系结构,而且数据存储过程中需要高昂的存储费用和维护费用。从数据仓库的应用情况看,许多企业大多采用单一的数据仓库,因为数据仓库中集成了企业的所有数据,使企业能够使用企业总体视图对企业总体决策提供帮助。,主题1,主题2,用户2,数据仓库,局部数据仓库,局部数据仓库,全局数据仓库,局部数据仓库,局部数据仓库,站点A,站点C,总部,站点B,站点D,图1.6分布式数据仓库结构,问题:随着服务器的增加,最后可能会使网络中的数据传输不堪重负。此外,全局数据仓库与局部数据仓库中的数据冗余是分布式数据仓库的又一缺陷。,1.4数据仓库的参照结构,基本功能层:数据抽取,数据筛选、清洗,清洗后的数据加载,设立数据集市,完成数据仓库的查询、决策分析和知识的挖掘等操作。数据仓库的管理层分成数据管理与元数据管理两部分,主要负责对数据仓库中的数据抽取、清理、加载、更新等操作进行管理。数据仓库环境支持层包含数据传输和数据仓库基础两部分。,图1.7数据仓库总体框架结构,1.4.1数据仓库基本功能层,1.数据仓库的数据源,图1.8数据仓库功能结构,图1.9数据源功能结构,业务数据:从组织目前正在运行的业务处理系统那里收集到,并保存在业务处理系统数据库中的数据。往往由关系型数据库、非关系型数据库或文件系统所构成。历史数据:长期的信息处理过程中所积累下来的数据,一般进行了脱机处理,以磁带或者其他脱机存储设施保存,对业务系统的当前运行不起作用。办公数据:组织内部的办公系统数据,这些数据分电子数据和非电子数据。电子数据方式保存的数据,主要指电子表格、数据库或,文字处理文档等形式保存的数据。非电子数据主要是指那些文件、通知、会议纪要等文件。(OCR,文字识别软件)Web数据:企业通过Internet所获取的数据,可以通过企业的电子商务系统获取,也可以通过网络调查获取。外部数据:不为企业所操作、所拥有、所控制的数据。这些数据可以以电子形式或者非电子形式保存。数据源数据:属于元数据管理范围,在数据仓库中的所有数据都需要通过元数据管理层来进行管理、控制。,2.数据准备区,图1.10数据准备区功能结构图,3.数据仓库功能结构,图1.11数据仓库的功能结构,数据重整,数据仓库创建,元数据管理,4.数据集市/知识挖掘库,图1.12数据集市的结构,求精与重整,数据集市/知识挖掘库创建,元数据管理,数据集市/知识挖掘库的功能结构与数据仓库的结构极为相似,只是数据集市设立的目的在于为某一部门或某一领域的用户提供服务,而设立数据仓库的目的则在于为企业全体用户提供服务。因此,可将数据集市/知识挖掘库看成是数据仓库的一个逻辑上或物理上的子集,数据集市/知识挖掘库也包含了用户所需要查询的详细数据和概括性数据。从数据集市/知识挖掘库所包含的主题与数据量看,都比数据仓库少。,5.数据仓库的数据存取与使用,图1.13数据仓库存取与使用结构,数据仓库存取与检索,数据仓库分析与报告,元数据管理,1.4.2.数据仓库的管理层,1.数据仓库的数据管理层,图1.14数据仓库的数据管理层,图1.14数据仓库的数据管理层,2.数据仓库的元数据管理层,图1.15数据仓库的元数据管理层,图1.15数据仓库的元数据管理层,1.4.3.数据仓库的环境支持层,1.数据仓库的数据传输层,图1.16数据仓库的数据传输曾,图1.16数据仓库的数据传输层,2.数据仓库的基础层,图1.17数据仓库的基础层,1.5数据挖掘技术概述,1.5.1数据挖掘的发展,1.超大规模数据库的出现2.先进的计算机技术3.经营管理的实际需要4.对数据挖掘的精深计算能力,决策需要信息与知识,高效消费者响应(ECR),商业企业信息系统,数据爆炸,知识贫乏,苦恼:淹没在数据中,不能制定合适的决策!,数据,知识,决策,1.5.2数据挖掘的定义,May19,2020,DataMining:ConceptsandTechniques,67,数据挖掘与商务智能,Increasingpotentialtosupportbusinessdecisions,EndUser,BusinessAnalyst,DataAnalyst,DBA,DecisionMaking,DataPresentation,VisualizationTechniques,DataMining,InformationDiscovery,DataExploration,StatisticalSummary,Querying,andReporting,DataPreprocessing/Integration,DataWarehouses,DataSources,Paper,Files,Webdocuments,Scientificexperiments,DatabaseSystems,从技术角度看,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们所不知道的、但又是潜在有用的信息和知识的过程。从商业应用角度看,数据挖掘是一种崭新的商业信息处理技术、主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。因此数据挖掘可以描述成:按企业既定目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的商业规律,并进一步模式化的处理方法。,表1-2数据挖掘工具与传统数据分析工具的比较,1.6数据挖掘技术与工具,1.6.1常用数据挖掘技术,传统分析类:常用的数据挖掘模型主要有线性分析和非线性分析、回归分析、逻辑回归分析、单变量分析、时间序列数据、最近邻算法和聚类分析等技术。知识发现类:包含人工神经网络、决策树、遗传算法、粗糙集(RoughSet,RS)和关联规则等。最新发展的数据挖掘技术:包含文本数据挖掘、Web数据挖掘、可视化系统、空间数据挖掘和分布式数据挖掘技术等。,1.6.2常用数据挖掘工具,按使用方式分类的数据挖掘工具:决策方案生成工具、商业分析工具和研究分析工具。按照数据挖掘技术分类的数据挖掘工具:基于规则和决策树的工具,基于模糊逻辑的工具和综合性数据挖掘工具等。按应用范围分类的数据挖掘工具:专用型数据挖掘工具(SKICAT空间数据挖掘,TASA网络
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园应急知识培训课件会
- 法警面试题目及答案
- 学车模拟考试试题及答案
- 吕梁分班考试题及答案
- 校园安全知识培训课件实施
- 扫路车考试试题及答案
- 校园保卫消防知识培训课件
- 部首类考试题及答案
- 立体构成考试题及答案
- 2025年赣州大余县左拔镇招聘基层公共服务专岗人员试题(含答案)
- 出入境证件承诺书
- 合理膳食 均衡营养课件
- 医院科教科主任竞聘演讲稿课件
- 建筑装饰施工技术课件
- 2024届高考语文一轮复习:现代诗歌 专练(含答案)
- 《公路桥涵养护规范》(5120-2021)【可编辑】
- 医院科研诚信管理办法范例
- 乳腺钼靶诊断分级标准
- (完整版)数字信号处理教案(东南大学)
- 班组长能力提升角色认知课件
- 人民代表大会的职权
评论
0/150
提交评论