数据挖掘1ppt课件_第1页
数据挖掘1ppt课件_第2页
数据挖掘1ppt课件_第3页
数据挖掘1ppt课件_第4页
数据挖掘1ppt课件_第5页
已阅读5页,还剩494页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

.,1,数据挖掘,jxhanxa,.,2,主要内容,1.概述2.数据仓库与OLAP技术3.数据挖掘技术4.数据挖掘应用数据挖掘工具6.数据挖掘实例,.,3,1概述,1.1背景1.2数据挖掘定义1.3基本概念1.4主要功能1.5数据挖掘模型1.6实现流程1.7数据挖掘的应用1.8未来趋势,.,4,1.1背景,二十世纪末以来,全球信息量以惊人的速度急剧增长据估计,每二十个月将增加一倍。许多组织机构的IT系统中都收集了大量的数据(信息)。目前的数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。为了充分利用现有信息资源,从海量数据中找出隐藏的知识,数据挖掘技术应运而生并显示出强大的生命力。,.,5,1.1背景,数据挖掘是八十年代投资AI研究项目失败后,AI转入实际应用时提出的。它是一个新兴的,面向商业应用的AI研究。(AI(ArtificialIntelligence,人工智能)1989年8月,在美国底特律召开的第11届国际人工智能联合会议的专题讨论会上首次出现数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD)这一术语。随后,在1991年、1993年和1994年都举行KDD专题讨论会,汇集来自各个领域的研究人员和应用开发者,集中讨论数据统计、海量数据分析算法、知识表示、知识运用等问题。最初,数据挖掘是作为KDD中利用算法处理数据的一个步骤,其后逐渐演变成KDD的同义词。,.,6,1.1背景,现在,人们往往不加区别地使用两者。KDD常常被称为数据挖掘(DataMining),实际两者是有区别的。一般将KDD中进行知识学习的阶段称为数据挖掘(DataMining),数据挖掘是KDD中一个非常重要的处理步骤。数据挖掘是近年来出现的客户关系管理(CustomerRelationshipManagement,CRM)、商业智能(BusinessIntelligence,BI)等热点领域的核心技术之一。,.,7,DataMining.FindingpatternsindataDescribingthepatterns-onewayisbyrulesPredictingfromtherules-classification-forecasting,orKnowledgeDiscoveryinDatabasesExtractingknowledgeRepresentingknowledgeacquiredUsingtheknowledgeforfutureexamples,1.2数据挖掘定义,.,8,1.2数据挖掘定义,技术角度的定义数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词包括:数据融合、数据分析和决策支持等。这一定义包括好几层含义:数据源必须是真实的、海量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。,.,9,1.2数据挖掘定义,商业角度的定义数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性信息。简言之,数据挖掘其实是一类深层次的数据分析方法。因此,数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证己知的规律性,并进一步将其模型化的有效方法。,.,10,Dataminingcontext,BusinessintelligencemodelLevelsofdataanalysismethod,hidden,shallow,surface,simpledatabasequeries,statisticalanalysis,datamining,.,11,Whatsortofdata?ConsiderhereonlytextualtypedatacharactersornumbersDatathathasbeenstructuredinsomewayDatacanalsobebevisual,auralortactilePatternrecognitioninotherdatavisualanalysisofdatalater,WhatData?,.,12,Datasets,DatasetconcerningbridgesinUSAE13,A,33,CRAFTS,HIGHWAY,?,2,N,THROUGH,WOOD,?,S,WOODE15,A,28,CRAFTS,RR,?,2,N,THROUGH,WOOD,?,S,WOODE16,A,25,CRAFTS,HIGHWAY,MEDIUM,2,N,THROUGH,IRON,MEDIUM,S-F,SUSPENE17,M,4,CRAFTS,RR,MEDIUM,2,N,THROUGH,IRON,MEDIUM,?,SIMPLE-TE18,A,28,CRAFTS,RR,MEDIUM,2,N,THROUGH,IRON,SHORT,S,SIMPLE-TE19,A,29,CRAFTS,HIGHWAY,MEDIUM,2,N,THROUGH,WOOD,MEDIUM,S,WOODE20,A,32,EMERGING,HIGHWAY,MEDIUM,2,N,THROUGH,WOOD,MEDIUM,S,WOODE21,M,16,EMERGING,RR,?,2,?,THROUGH,IRON,?,?,SIMPLE-TE23,M,1,EMERGING,HIGHWAY,MEDIUM,?,?,THROUGH,STEEL,LONG,F,SUSPENE22,A,24,EMERGING,HIGHWAY,MEDIUM,4,G,THROUGH,WOOD,SHORT,S,WOODE24,O,45,EMERGING,RR,?,2,G,?,STEEL,?,?,SIMPLE-TE25,M,10,EMERGING,RR,?,2,G,?,STEEL,?,?,SIMPLE-TE27,A,39,EMERGING,RR,?,2,G,THROUGH,STEEL,?,F,SIMPLE-TE26,M,12,EMERGING,RR,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,S,SIMPLE-TE30,A,31,EMERGING,RR,?,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-TE29,A,26,EMERGING,HIGHWAY,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,?,SUSPENE28,M,3,EMERGING,HIGHWAY,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,S,ARCHE32,A,30,EMERGING,HIGHWAY,?,2,G,THROUGH,IRON,MEDIUM,F,SIMPLE-TE31,M,8,EMERGING,RR,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,S,SIMPLE-TE34,O,41,EMERGING,RR,LONG,2,G,THROUGH,STEEL,LONG,F,SIMPLE-TE33,M,19,EMERGING,HIGHWAY,MEDIUM,?,G,THROUGH,IRON,MEDIUM,F,SIMPLE-TE36,O,45,MATURE,HIGHWAY,?,2,G,THROUGH,IRON,SHORT,F,SIMPLE-TE35,A,27,MATURE,HIGHWAY,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-TE38,M,17,MATURE,HIGHWAY,?,2,G,THROUGH,IRON,MEDIUM,F,SIMPLE-TE37,M,18,MATURE,RR,MEDIUM,2,G,THROUGH,STEEL,MEDIUM,S,SIMPLE-TE39,A,25,MATURE,HIGHWAY,?,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-TE4,A,27,MATURE,AQUEDUCT,MEDIUM,1,N,THROUGH,WOOD,SHORT,S,WOODE40,M,22,MATURE,HIGHWAY,?,2,G,THROUGH,STEEL,MEDIUM,F,SIMPLE-TE41,M,11,MATURE,HIGHWAY,?,2,G,THROUGH,IRON,MEDIUM,F,SIMPLE-TE42,M,9,MATURE,HIGHWAY,LONG,2,G,THROUGH,STEEL,LONG,F,SIMPLE-T,formatissimplycommaseparatedvalues,.,13,Datasets,Datasetconcerninggeotechnicalparameters,formattakendirectlyfromaspreadsheet,.,14,DatastructuredintothreepartsRelationshaveAttributeswhichhaveInstancesExample,Relationaboutcupsofcoffeecoffeehasattributesofsize,sugar,temperatureetcsizehasinstancesofsmall,medium,largesugarhasinstancesofyesornotemperaturehasinstancesof39.8,54.7or41.0Celsius,DataStructure,.,15,Eachcupofcoffeehasattribute-values(records)InstancescanbenumericalornominalDatapreparation,filteringanddiscretizationcanbeconsiderableasmuchanartasscience,Data,.,16,Example,Cappuccinocoffeerelation,missingdata,attribute-value,attributeasnumber,orname,notethisattribute,processofdiscretization,.,17,Coffee?,CappuccinocoffeerelationBestrulesfound:1.milkiness=over3=size=largeenjoy=yes32.size=largemilkiness=over3=enjoy=kiness=overenjoy=yes3=size=kiness=over3=enjoy=kiness=over3=size=large36.size=small3=enjoy=no37.size=largechocolate=ok2=milkiness=overenjoy=kiness=overchocolate=ok2=size=largeenjoy=yes29.size=largemilkiness=overchocolate=ok2=enjoy=yes210.size=largechocolate=okenjoy=yes2=milkiness=over2,New(test)dataposesquestionmedium,over,?,ok,Wheatley,yes,ablightagg/sumlevelsofrollupsmoreagg/sum,.,163,ETL流程数据清洁,数据仓库中必须存放“优质数据”(QualityData)符合一致性的、大家公认或经过验证是有价值的,并符合元数据定义的。清洁功能能够检测出那些违反规则的数据,一旦发现要么抛弃,要么将其转换成“清洁”数据,使其符合规则,然后装载到数据仓库中。,.,164,ETL流程数据清洁,来自操作型数据源的数据如果含有不洁的成分和不规范的格式,将对数据仓库的建立维护,特别是对联机分析处理的使用,造成很多问题和麻烦。这时必须在ETL处理过程中加以解决,通常包括以下处理方法:a.设计拼写检查、分类并与标准值表对照检查b.处理名字和地址c.为名字和地址建立辅助表格或联机字典,据此进行检查修正d.数据转换函数以及子程序库,.,165,ETL流程数据清洁,“脏”数据(DirtyData)数据不符合一致性用数据库设计工具定义Checks,ValidationCriteria,IntegrityConstrains数据库设计者不是很清楚DBMS删除了“约束”,因为它们会降低操作性能使用一些特定代码、标志或“哑元”(Dummyvalues)多目标域(Fields)某域依赖其他域,但不一致,.,166,ETL流程数据清洁,“脏”数据的清洁包括三个层次:数据源、应用层的数据清洁(实现起来困难)整合与转换层的数据清洁元素化剖析成原子数据标准化每个元素值的表达验证标准化后的元素值是否满足一致性数据仓库内部的数据清洁通常,上述三种方式联合使用,以获得高效性。,.,167,ETL流程数据清洁,保障数据清洁顺利进行的原则首先,对数据清洁流程进行分析和系统化的设计,其次,针对数据的主要问题和特征,设计一系列数据对照表和数据清洗程序库。两者的有效组合,可以面对不断变化的、形形色色的数据清洁问题。,.,168,ETL流程数据清洁,数据清洁的过程(1)预处理:对于大的数据加载文件(特别是新的文件和数据集体)进行预先诊断和检测,不能贸然加载。有时需要临时编写诊断小程序,称作“小狗”,它会用鼻子闻一闻这个庞然大物(不知底细的文件),以进行卫生检查;(2)标准化处理:应用建于数据仓库内部的标准字典,对于地区名、人名、公司名、产品名、品类名进行标准化处理;(3)查重:应用各种数据查询手段,避免引入重复数据;(4)出错处理和修正:将出错的记录和数据写入到日志文件,留待进一步处理。,.,169,ETL流程数据装载,装载过程将转换/清洁后的数据装载到企业数据仓库中。在完成数据提取和转换/清洁后,接下来是将数据加载到数据仓库中。在进行数据加载时,可供选用的实用程序和工具很多,可选择最基本的Import、SQLLoader和SQL语言进行必要的转换。为了提高程序和实用过程的复用性,编制和设计数据转换的函数库子程序库是十分必要的。,.,170,ETL流程数据装载,使用装载工具或数据查询语言(SQL)效率问题避免违反约束关系,注意装载顺序,.,171,ETL流程数据装载,转换的工作虽然较为繁琐,但却是三个步骤中最简单的。许多ETL工具都提供了强大的转换功能。例如DTS中有:复制字段转换、小写字符串转换、大写字符串转换、中间字符串转换、剪裁字符串转换、日期时间字符串转换、读取文件转换、写入文件转换和ActiveX脚本转换等。在这些转换操作中,最常用的是A

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论