数据仓库与数据挖掘技术讲座_第1页
数据仓库与数据挖掘技术讲座_第2页
数据仓库与数据挖掘技术讲座_第3页
数据仓库与数据挖掘技术讲座_第4页
数据仓库与数据挖掘技术讲座_第5页
已阅读5页,还剩76页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库与数据挖掘综述,概念、体系结构、趋势、应用,报告人:朱建秋2001年6月7日,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库概念,基本概念对数据仓库的一些误解,基本概念数据仓库,Datawarehouseisasubjectoriented,integrated,non-volatileandtimevariantcollectionofdatainsupportofmanagementsdecisionInmon,1996.Datawarehouseisasetofmethods,techniques,andtoolsthatmaybeleveragedtogethertoproduceavehiclethatdeliversdatatoend-usersonanintegratedplatformLadley,1997.Datawarehouseisaprocessofcrating,maintaining,andusingadecision-supportinfrastructureAppleton,1995Haley,1997Gardner1998.,基本概念数据仓库特征Inmon,1996,面向主题一个主题领域的表来源于多个操作型应用(如:客户主题,来源于:定单处理;应收帐目;应付帐目;)典型的主题领域:客户;产品;交易;帐目主题领域以一组相关的表来具体实现相关的表通过公共的键码联系起来(如:顾客标识号CustomerID)每个键码都有时间元素(从日期到日期;每月累积;单独日期)主题内数据可以存储在不同介质上(综合级,细节级,多粒度)集成数据提取、净化、转换、装载稳定性批处理增加,仓库已经存在的数据不会改变随时间而变化(时间维)管理决策支持,基本概念DataMart,ODS,DataMart数据集市-小型的,面向部门或工作组级数据仓库。OperationDataStore操作数据存储ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。,基本概念ETL,元数据,粒度,分割,ETLETL(Extract/Transformation/Load)数据装载、转换、抽取工具。MicrosoftDTS;IBMVisualWarehouseetc.元数据关于数据的数据,用于构造、维持、管理、和使用数据仓库,在数据仓库中尤为重要。粒度数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度越小。分割数据分散到各自的物理单元中去,它们能独立地处理。,对数据仓库的一些误解,数据仓库与OLAP星型数据模型多维分析数据仓库不是一个虚拟的概念数据仓库与范式理论需要非范式化处理,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库体系结构及组件,体系结构ETL工具元数据库(Repository)及元数据管理数据访问和分析工具,体系结构Pieter,1998,SourceDatabases,ArchitectedDataMarts,DataAccessandAnalysis,End-UserDWTools,CentralDataWarehouse,CentralDataWarehouse,Mid-Tier,Mid-Tier,DataMart,DataMart,LocalMetadata,MetadataExchange,MDB,DataCleansingTool,Relational,Appl.Package,Legacy,External,RDBMS,RDBMS,带ODS的体系结构,SourceDatabases,ArchitectedDataMarts,DataAccessandAnalysis,CentralDataWare-houseandODS,CentralDataWarehouse,Mid-Tier,RDBMS,DataMart,Mid-Tier,RDBMS,DataMart,LocalMetadata,MetadataExchange,ODS,OLTPTools,End-UserDWTools,现实环境异质性DouglasHackney,2001,CustomMarketingDataWarehouse,PackagedOracleFinancialDataWarehouse,PackagedI2SupplyChainNon-ArchitectedDataMart,SubsetDataMarts,OracleFinancials,i2SupplyChain,SiebelCRM,3rdParty,e-Commerce,联合型数据仓库/数据集市体系结构,RealTimeODS,FederatedFinancialDataWarehouse,SubsetDataMarts,CommonStagingArea,OracleFinancials,i2SupplyChain,SiebelCRM,3rdParty,FederatedPackagedI2SupplyChainDataMarts,AnalyticalApplications,e-Commerce,RealTimeDataMiningandAnalytics,RealTimeSegmentation,Classification,Qualification,Offerings,etc.,FederatedMarketingDataWarehouse,Front-andback-officeOLTP,e-Businesssystems,Externalinformationproviders,CRMAnalyticsglobaldatadiscoveryBuilddatamartsfromtheEnterpriseDataWarehouse(EDW)SubsetofEDWrelevanttodepartmentMostlysummarizeddataDirectdependencyonEDWdataavailability,LocalDataMart,ExternalData,LocalDataMart,OperationalData,自底而上设计方法,创建部门的数据集市范围局限于一个主题区域快速的ROI-局部的商业需求得到满足本部门自治-设计上具有灵活性对其他部门数据集市是一个好的指导容易复制到其他部门需要为每个部门做数据重建有一定级别的冗余和不一致性一个切实可行的方法扩大到企业数据仓库创建EDB作为一个长期的目标,局部数据集市,操作型数据(局部),局部数据集市,企业数据仓库EDB,数据仓库建模星型模式,ExampleofStarSchema,数据仓库建模雪片模式,DateMonth,Date,SalesFactTable,Date,Product,Store,Customer,unit_sales,dollar_sales,Yen_sales,Measurements,MonthYear,Month,Year,Year,ExampleofSnowflakeSchema,操作型(OLTP)数据源-销售库,星形模式,时间维,事实表,多维模型,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库技术Inmon,1996,管理大量数据能够管理大量数据的能力能够管理好的能力管理多介质(层次)主存、扩展内存、高速缓存、DASD、光盘、缩微胶片监视数据决定是否应数据重组决定索引是否建立得不恰当决定是否有太多数据溢出决定剩余的可用空间利用多种技术获得和传送数据批模式,联机模式并不非常有用程序员/设计者对数据存放位置的控制(块/页)数据的并行存储/管理元数据管理,数据仓库技术Inmon,1996,数据仓库语言接口能够一次访问一组数据能够一次访问一条记录支持一个或多个索引有SQL接口数据的高效装入高效索引的利用用位映像的方法、多级索引等数据压缩I/O资源比CPU资源少得多,因此数据解压缩不是主要问题复合键码(因为数据随时间变化)变长数据加锁管理(程序员能显式控制锁管理程序)单独索引处理(查看索引就能提供某些服务)快速恢复,数据仓库技术Inmon,1996,其他技术特征,传统技术起很小作用事务集成性、高速缓存、行/页级锁定、参照完整性、数据视图传统DBMS与数据仓库DBMS区别为数据仓库和决策支持优化设计管理更多数据:10GB/100GB/TB传统DBMS适合记录级更新,提供:锁定Lock、提交Commit、检测点CheckPoint、日志处理Log、死锁处理DeadLock、回退Roolback.基本数据管理,如:块管理,传统DBMS需要预留空间索引区别:传统DBMS限制索引数量,数据仓库DBMS没有限制通用DBMS物理上优化便于事务访问处理,而数据仓库便于DSS访问分析改变DBMS技术多维DBMS和数据仓库多维DBMS作为数据仓库的数据库技术,这种想法是不正确的多维DBMS(OLAP)是一种技术,数据仓库是一种体系结构的基础双重粒度级别(DASD/磁带),数据仓库技术Inmon,1996,数据仓库环境中的元数据DSS分析人员和IT专业人员不同,需要元数据的帮助操作型环境和数据仓库环境之间的映射需要元数据数据仓库包含很长时间的数据,必须有元数据标记数据结构/定义上下文和内容(上下文维)简单上下文信息(数据结构/编码/命名约定/度量)复杂上下文信息(产品定义/市场领域/定价/包装/组织结构)外部上下文信息(经济预测:通货膨胀、金融、税收/政治信息/竞争信息/技术进展)刷新数据仓库数据复制(触发器)变化数据捕获(CDC)(日志),提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库性能Inmon,1999,使用数据平台服务管理,王天佑等译,数据仓库管理,电子工业出版社,2000年5月,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据仓库应用DW用户数的调查,“DW系统的用户在100-500以内或以上是未来一段时期内的主要部分“,DW用户的调查最近一年MetaGroupSurvey调查对象:3000+用户或意向用户,DW数据规模的调查,DW规模的调查最近一年MetaGroupSurvey调查对象:3000+用户或意向用户,HowMuch?,$3-6mformid-sizecompany,lessifsmaller,moreiflarger$10m+forlargeorganizations,largedatasets10-50+%annualmaintenancecosts33%Hardware/33%Software/33%Services,HowLong?,2-4yearsfor80/20offullsystemformid-sizecompany6-12monthsforinitialiteration3-6monthsforsubsequentiterations,HowRisky?,ForEDWProjects,20%(Meta)to70%(OTR,DWN)failHighfailureratefornon-businessdriveninitiativesVeryfewsystemsmeettheexpectationsofthebusinessFailurenotduetotechnology,dueto“soft”issuesMassiveupsidetosuccessfulprojects(100%-2000+%ROI)99%politics-1%technology,参考文献,Inmon,W.H.,”BuildingtheDataWarehouse”,JohmWileyandSons,1996.Ladley,John,”OperationalDataStores:BuildinganEffectiveStrategy”,Datawarehouse:PraticalAdviceformtheExperts,PrenticeHall,EnglewoodCliffs,NJ,1997.Gardmer,StephenR.,“BuildingtheDatawarehouse”,CommunicationofACM,September1998,Volume41,Numver9,52-60.DouglasHackney,Http:/,DW101:APracticalOverview,2001PieterR.Mimno,“TheBigPicture-HowBrioCompetesintheDataWarehousingMarket”,PresentationtoBrioTechnology-August4,1998.AlexBerson,StephenSmith,KurtTherling,“BuildingDataMiningApplicationforCRM”,McGraw-Hill,1999MartinStardt,AncaVaduva,ThomasVetterli,“TheRoleofMetaforDataWarehouse”,2000W.H.Inmon,KenRudin,ChristopherK.Buss,RyanSousa,“DataWarehousePerformance”,JohnWiley&Sons,1999,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据挖掘应用综述,数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台,数据挖掘应用概述,应用比例DataMiningUpsidesDataMiningDownsidesDataMiningUseDataMiningIndustryandApplicationDataMiningCosts,应用比例,Clustering22%DirectMarketing14%Cross-SellModels12%2001/6/11News,Discoveryofpreviouslyunknownrelationships,trends,anomalies,etc.PowerfulcompetitiveweaponAutomationofrepetitiveanalysisPredictivecapabilities,DataMiningUpsides,KnowledgediscoverytechnologyimmatureLonglearningandtuningcyclesforsometechnologies“Blackbox”technologyminimizesconfidenceVLDB(VeryLargeDataBase)requirements,DataMiningDownsides,DataMiningUses,Discoveranomalies,outliersandexceptionsinprocessdataDiscoverbehaviorandpredictoutcomesofcustomerrelationshipsChurnmanagementTargetmarketing(marketofone)PromotionmanagementFrauddetectionPatternID&matching(darkprograms,science),DataMiningIndustryandApplications,Fromresearchprototypestodataminingproducts,languages,andstandardsIBMIntelligentMiner,SASEnterpriseMiner,SGIMineSet,Clementine,MS/SQLServer2000,DBMiner,BlueMartini,MineIt,DigiMine,etc.Afewdatamininglanguagesandstandards(esp.MSOLEDBforDataMining).ApplicationachievementsinmanydomainsMarketanalysis,trendanalysis,frauddetection,outlieranalysis,Webmining,etc.,DataMiningCosts,Desktoptools:$500andup(MSFTcomingatlowpricepoint)Server/MFbased:$20,000to$700,000+MustalsoaddcostofextensiveconsultingforhighendtoolsDontforgetlongtrainingandlearningcurvetimeOngoingprocess,nottaskautomationsoftware,提纲,数据仓库概念数据仓库体系结构及组件数据仓库设计数据仓库技术(与数据库技术的区别)数据仓库性能数据仓库应用数据挖掘应用概述数据挖掘技术与趋势数据挖掘应用平台(科委申请项目),数据挖掘趋势,历史回顾多学科交叉数据挖掘从多个角度分类最近十年的研究进展数据挖掘的趋势数据挖掘与标准化进程,历史回顾,1989IJCAIWorkshoponKnowledgeDiscoveryinDatabasesKnowledgeDiscoveryinDatabases(G.Piatetsky-ShapiroandW.Frawley,1991)1991-1994WorkshopsonKnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscoveryandDataMining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth,andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscoveryinDatabasesandDataMining(KDD95-98)JournalofDataMiningandKnowledgeDiscovery(1997)1998ACMSIGKDD,SIGKDD1999-2001conferences,andSIGKDDExplorationsMoreconferencesondataminingPAKDD,PKDD,SIAM-DataMining,(IEEE)ICDM,DaWaK,SPIE-DM,etc.,DataMining:ConfluenceofMultipleDisciplines,DataMining,DatabaseTechnology,Statistics,OtherDisciplines,InformationScience,MachineLearning(AI),Visualization,AMulti-DimensionalViewofDataMining,DatabasestobeminedRelational,transactional,object-relational,active,spatial,time-series,text,multi-media,heterogeneous,legacy,WWW,etc.KnowledgetobeminedCharacterization,discrimination,association,classification,clustering,trend,deviationandoutlieranalysis,etc.TechniquesutilizedDatabase-oriented,datawarehouse(OLAP),machinelearning,statistics,visualization,neuralnetwork,etc.ApplicationsadaptedRetail,telecommunication,banking,fraudanalysis,DNAmining,stockmarketanalysis,Webmining,Webloganalysis,etc.,ResearchProgressintheLastDecade,Multi-dimensionaldataanalysis:DatawarehouseandOLAP(on-lineanalyticalprocessing)Association,correlation,andcausalityanalysisClassification:scalabilityandnewapproachesClusteringandoutlieranalysisSequentialpatternsandtime-seriesanalysisSimilarityanalysis:curves,trends,images,texts,etc.Textmining,WebminingandWebloganalysisSpatial,multimedia,scientificdataanalysisDatapreprocessinganddatabasecompressionDatavisualizationandvisualdataminingManyothers,e.g.,collaborativefiltering,ResearchDirectionsHanJ.W.,2001,WebminingTowardsintegrateddataminingenvironmentsandtools“Vertical”(orapplication-specific)dataminingInvisibledataminingTowardsintelligent,efficient,andscalabledataminingmethods,TowardsIntegratedDataMiningEnvironmentsandTools,OLAPMining:IntegrationofDataWarehousingandDataMiningQueryingandMining:AnIntegratedInformationAnalysisEnvironmentBasicMiningOperationsandMiningQueryOptimization“Vertical”(orapplication-specific)dataminingInvisibledatamining,QueryingandMining:AnIntegratedInformationAnalysisEnvironment,DataminingasacomponentofDBMS,datawarehouse,orWebinformationsystemIntegratedinformationprocessingenvironmentMS/SQLServer-2000(Analysisservice)IBMIntelligentMineronDB2SASEnterpriseMiner:datawarehousing+miningQuery-basedminingQueryingdatabase/DW/WebknowledgeEfficiencyandflexibility:preprocessing,on-lineprocessing,optimization,integration,etc.,“Vertical”DataMining,Genericdataminingtools?Toosimpletomatchdomain-specific,sophisticatedapplicationsExpertknowledgeandbusinesslogicrepresentmanyyearsofworkintheirownfields!Datamining+businesslogic+domainexpertsAmulti-dimensionalviewofdataminersComplexityofdata:Web,sequence,spatial,multimedia,Complexityofdomains:DNA,astronomy,market,telecom,Domain-specificdataminingtoolsProvideconcrete,killersolutiontospecificproblemsFeedbacktobuildmorepowerfultools,InvisibleDataMining,BuildminingfunctionsintodailyinformationservicesWebsearchengine(linkanalysis,authoritativepages,userprofiles)adaptivewebsites,etc.Improvementofqueryprocessing:history+dataMakingservicesmartandefficientBenefitsfrom/todataminingresearchDataminingresearchhasproducedmanyscalable,efficient,novelminingsolutionsApplicationsfeednewchallengeproblemstoresearch,TowardsIntelligentToolsforDataMining,IntegrationpavesthewaytointelligentminingSmartinterfacebringsintelligenceEasytouse,understandandmanipulateOnepicturemayworth1,000wordsVisualandaudiodataminingHuman-CenteredDataMiningTowardsself-tuning,self-managing,self-triggeringdatamining,IntegratedMining:ABoosterforIntelligentMining,IntegrationpavesthewaytointelligentminingDataminingintegrateswithDBMS,DW,WebDB,etcIntegrationinheritsthepowerofup-to-dateinformationtechnology:querying,MDanalysis,similaritysearch,etc.Miningcanbeviewedasqueryingdataba

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论