数据仓库与数据挖掘第章_第1页
数据仓库与数据挖掘第章_第2页
数据仓库与数据挖掘第章_第3页
数据仓库与数据挖掘第章_第4页
数据仓库与数据挖掘第章_第5页
已阅读5页,还剩50页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘南京邮电大学信息产业发展战略研究院朱恒民教材及参考书教材

JiaweiHan,数据挖掘概念与技术(中译本),机械工业出版社参考书

-苏新宁.数据仓库与数据挖掘.北京:清华大学出版社

-李志刚等.数据仓库与数据挖掘的原理及应用,高教出版社

-安淑之等.数据挖掘与数据仓库,清华大学出版社

-周根贵.数据仓库与数据挖掘,浙江大学出版社

-康晓东.基于数据仓库的数据挖掘技术,机械工业出版社课时安排总课时32学时其中,课堂讲授16学时,实验16学时考核标准平时成绩占30%期末考试的成绩占70%答疑安排周三第6小节办公室等待大家的光临电子邮件答疑课间答疑行政南楼346房间本课程的特点理论性强 统计学、信息理论、各种算法实践性强 解决生活中的问题具备一定的计算机基础 数据库、数据结构、操作系统、算法实现等知识如何学习?定位:

-基本要求:掌握数据挖掘的操作流程和基本原理,能够基于软件工具,分析和解决具体数据挖掘应用问题。

-更高要求:对于计算机基础强、且学有余力的同学,能够针对具体应用,程序实现数据挖掘算法。理论联系实际课程体系共六章内容:第一章数据仓库与数据挖掘概述第二章数据仓库与OLAP第三章数据预处理第四章关联分析第五章分类和预测第六章聚类分析实验内容实验1数据仓库与OLAP的使用实验2测试常用数据预处理操作实验3测试K-means算法实验4分类挖掘任务的实践Chap1数据仓库与数据挖掘概述学习数据仓库与数据挖掘有何意义?初识数据仓库初识数据挖掘1、学习习数据据仓库库与数数据挖挖掘有有何意意义??•社会信信息化化后,,社会会的运运转是是软件件的运运转•社会信信息化化后,,社会会的历历史是是数据据的历历史划时代代意义义的技技术??计算机机和网网络技技术!!有人甚甚至提提出要要把计计算机机与网网络技技术与与火的的发明明相比比拟。。火的发发明区区别了了动物物和人人;而计算算机和和网络络技术术则大大大提提高了了人的的生存存质量量和人人的素质,,使人人成为为社会会人、、全球球人。。网络之之后的的下一一个技技术热热点是是什么么?《纽约时时报》由60年代的的10~20版扩张张至现现在在的100~200版,最最高曾曾达1572版;《北京青青年报报》也已是是16~40版;市市场营营销销报已已达100版。然而在在现实实社会会中,,人均均日阅阅读时时间通通常为为30~45分钟,,只能能浏览览一份份24版的报报纸。。信息处处理的的难题题大量信信息在在给人人们带带来方方便的的同时时也带带来了了一大大堆问问题::第一是是信息息过量量,难难以消消化;;第二是是信息息真假假难以以辨识识;第三是是信息息安全全难以以保证证;第四是是信息息形式式不一一致,,难以以统一一处理理。数据爆爆炸但但知识识贫乏乏人们积积累的的数据据越来来越多多。激激增的的数据据背后后隐隐藏着着许多多重要要的信信息,,人们们希望望能够够对对其进进行更更高层层次的的分析析,以以便更更好地地利用用这这些数数据。。数据的丰富富带来了对对强有力的的数据分析析工具的的需求,快快速增长的的海量数据据、存放在在大型和和大量数据据库中,没没有强有力力的工具具,理解这这些数据已已远远超出出了人的能能力.导致“数据据爆炸但知知识贫乏””的原因目前的数据据库系统可可以高效地地实现数据据的录入入、查询、、统计等功功能,但无无法发现数数据中存存在的关系系和规则,,无法根据据现有的数数据预测测未来的发发展趋势。。缺乏挖掘掘数据背背后隐藏的的知识的手手段,导致致了“数据据爆炸但但知识贫乏乏”的现象象。我怎么分析析这些数据据?如何才能不不被信息淹淹没?人们开始考考虑:“如如何才能不不被信息淹淹没,而而是从中及及时发现有有用的知识识、提高信信息利用用率?”面对这一挑挑战,数据据挖掘和知知识发现(DataMiningandKnowledgeDiscovery)技术应运而而生,并显显示出强大大的生命命力.学习本课程程的意义掌握数据仓仓库和数据据挖掘的基基本原理,用信息分分析的方法法进行思考考问题.了解一些算算法的基本本思想.以便今后处处理特定定问题时使使用.帮助你了解解现代企业业在信息化化战略中所所采用的的技术手段段,帮助你更深深入地掌握握面向经济济问题开开展研究和和实践的基基本方向.2初识数据仓仓库为什么要建建立数据仓仓库?传统数据库库的演化·主文件传统数据库库的演化·单一数据库库20世纪80年代——90年代初期,,联机事务处处理(OLTP)是数据库库应用的主主流!OLTP———在交易中处处理信息,,主要是基基本的日常常的事务处处理。例如:银行行交易数据据库、业务务数据库。。20世纪90年代初期,,OLTP已经不足以以获得市场场竞争优势势!用户要对大大量业务数数据和历史史数据进行行分析,产产生决策,,因此出现现了联机分分析处理((OLAP)!OLAP———基于业务数数据的决策策分析。数据仓库专专家RalphKimball写道:“我们花了了20多年的时间间将数据放放入数据库库,如今是是将它们拿拿出来的时时候了!””OLTP和OLAP对数据的要要求是不一一样的!

OLTPOLAP

用户操作人员,低层管理人员

决策人员,高级管理人员

功能

日常操作处理分析决策

DB设计面向应用

面向主题

数据当前的,最新的,细节的,二维的,分立的

历史的,聚集的,多维的,集成的,统一的

存取读/写数十条记录读上百万条记录

工作单位简单的事务

复杂的查询

用户数上千个上百个

DB大小100MB~GB100GB~TB

正是事务处处理和分析析处理具有有极其差异异的性质,,所以以事务处理理环境来支持分析处理理是行不通通的!行不通的的主要原原因有::两种处理理的性能能特点不不同!数据集成成问题!!数据动态态集成问问题!历史数据据问题!!数据的综综合问题题!传统数据据库的演演化·抽取程序序因为用抽抽取程序序能将数数据从高高性能联联机事务务处理方方式中中转移出出来,所所以在需需要总总体分析析数据时时就与联联机事事务处理理性能不不发生冲冲突。。抽取程序序形成了了“蜘蛛蛛网”数据不一一致!而且生产产率很低低!传统数据据库的演演化·数据仓库库数据在从从操作型型环境转转移到数数据仓库库环境境的同时时进行集集成什么是数数据仓库库(DW)?——是一种为为信息分分析提供供了良好好的基础础并支持持管理理决策活活动的分分析环境境,是面面向主题题的、集集成的、、相对稳稳定的、、随时间间变化化的、分分层次的的多维的的集成数数据集合合。数据仓库库的作用用两个主要要作用存储经过过加工处处理的决决策需要要的数据据–存储数据据的一种种形式–加工和集集成后的的再存储储查询和决决策分析析的依据据–为数据驱驱动型的的决策支支持提供供数据基基础建立数据据仓库的的好处更加高效效的地制制定决策策提供一个个关于整整个企业业的整体体构架集中存放放,方便便存取,,提高生生产效率率减少重复复数据处处理和分分析提高用户户对数据据的应用用程度为商务流流程再造造提供支支持数据仓库库的特点点面向主题题集成性相对稳定定(非易失)时态性(反映时间间变化)3初识数据据挖掘数据挖掘掘逐渐演演变的过过程:机器学习习成为人人们关心心的焦点点。从范例出出发随着人工工智能技技术的形形成和发发展,人们的注注意力转转向知识识工程,,直接从从计算机机输入规规则。从规则出出发80年代末出出现一个个新的术术语,即即数据库库中的知知识发现现,简称称KDD(Knowledgediscoveryindatabase)。从数据出出发数据仓库库技术的的发展与与数据挖挖掘有着着密切的的关系系。促进,但不是是先决条件!!数据挖掘在商商务智能中的的位置IncreasingpotentialtosupportbusinessdecisionsEndUserBusinessAnalystDataAnalystDBAMakingDecisionsDataPresentationVisualizationTechniquesDataMiningInformationDiscoveryDataExplorationOLAP,MDAStatisticalAnalysis,QueryingandReportingDataWarehouses/DataMartsDataSourcesPaper,Files,InformationProviders,DatabaseSystems,OLTP什么是数据挖挖掘?数据挖掘(DataMining,DM),又称数据据库中的知识识发现(KnowledgeDiscoveryinDatabase,KDD)是从数据中中识别出有效效的、新颖的的、潜在有用用的,以及最最终可理解的的模式的非平平凡过程。数据挖掘数据库技术统计学知识库信息科学机器学习可视化技术数据挖掘的过过程(1) 数据收集集(2) 数据预处处理(3) 数据挖掘掘(4) 知识评价价数据挖掘系统统结构数据挖掘的任任务数据挖掘任务务有两类:描描述和预测描述性挖掘任任务刻划数据据库中数据据的一般特性性;预测性数据挖挖掘任务在当当前数据上上进行推断、、预测具体任务包括括:1)分类(Classification)2)回归(Regression)3)聚类(Clustering)4)关联分析(AssociationAnalysis)5)时间序列分析析(TimeSeriesAnalysis)6)偏差检测(DeviationDetection)7)概念描述((ConceptDescription)分类(Classification)用于提取反映映同类事物共共同性质的特特征型知识和和不同事物之之间的差异型型特征知识。。在数据挖掘掘中,分类模模型通过对已已知类别的个个体进行归纳纳,找出各类类别与个体的的特征属性之之间的关系,,即分类模式式。例如:疾病诊诊断系统、高高血压药物选选择、电信客客户流失。训练集应用决策树算算法判断某人人是否会购买买计算机?算法输出age?overcaststudent?creditrating?noyesfairexcellent<=30>40nonoyesyesyes30..40聚类(Clustering)是将一个群体体分成多个类类,使同类个个体尽可能相相似而不同类类间个体差异异尽可能大。。与分类的区别别?例如:电信客客户细分?K-means算法的聚类过过程关联(association)用于发现事物物间的关联规规则,或称相相关程度。关联规则:X&YZ[s,c]例如:如果IBM的股票价格上上升,有70%的可能微软的的股票价格要要下降;买榔榔头的人有40%同时买钉子。。例如:交叉销销售。回归(Regression)用属性的历史史数据预测未未来趋势。包包括线性问题题、非线性问问题。例如:工作与与工龄的关

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论