版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据仓库与数据挖掘综述概念、体系结构、趋势、应用报告人:朱建秋 2001年6月7日提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据仓库库概念基本概念念对数据仓仓库的一一些误解解基本概念念数据仓库库Data warehouseisa subjectoriented, integrated,non-volatile andtime variantcollection of datainsupport of managementsde
2、cisionInmon,1996.Data warehouseisa setofmethods,techniques,andtoolsthat maybeleveragedtogethertoproducea vehiclethatdeliversdata to end-usersonanintegrated platform Ladley,1997.Data warehouseisa processofcrating,maintaining,andusingadecision-support infrastructure Appleton,1995Haley,1997Gardner1998.
3、基本概念念数据仓库库特征Inmon,1996面向主题题一个主题题领域的的表来源源于多个个操作型型应用(如:客客户主题题,来源源于:定定单处理理;应收收帐目;应付帐帐目;)典型的主主题领域域:客户户;产品品;交易易;帐目目主题领域域以一组组相关的的表来具具体实现现相关的表表通过公公共的键键码联系系起来(如:顾顾客标识识号CustomerID)每个键码码都有时时间元素素(从日日期到日日期;每每月累积积;单独独日期)主题内数数据可以以存储在在不同介介质上(综合级级,细节节级,多多粒度)集成数据提取取、净化化、转换换、装载载稳定性批处理增增加,仓仓库已经经存在的的数据不不会改变变随时间而而变化(时间维
4、维)管理决策策支持基本概念念Data Mart, ODSData Mart数据集市市 -小型的,面向部部门或工工作组级级数据仓仓库。OperationDataStore操作数据据存储ODS是能支持持企业日日常的全全局应用用的数据据集合,是不同同于DB的一种新新的数据据环境, 是DW扩展后得得到的一一个混合合形式。四个基基本特点点:面向向主题的的(Subject -Oriented)、集成的、可变的的、当当前或接接近当前前的。基本概念念ETL,元数据,粒度,分割ETLETL(Extract/Transformation/Load)数据装载载、转换换、抽取取工具。MicrosoftDTS;IBMV
5、isual Warehouseetc.元数据关于数据据的数据据,用于构造造、维持持、管理理、和使使用数据据仓库,在数据仓仓库中尤尤为重要要。粒度数据仓库库的数据据单位中中保存数数据的细细化或综综合程度度的级别别。细化化程度越越高,粒粒度越小小。分割数据分散散到各自自的物理理单元中中去,它它们能独独立地处处理。对数据仓仓库的一一些误解解数据仓库库与OLAP星型数据据模型多维分析析数据仓库库不是一一个虚拟拟的概念念数据仓库库与范式式理论需要非范范式化处处理提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用
6、概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据仓库库体系结结构及组组件体系结构构ETL工具元数据库库(Repository)及元数据据管理数据访问问和分析析工具体系结构构Pieter,1998SourceDatabasesData Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand LoadDataModelingToolCentralMetadataArchitectedData MartsData AccessandAnalysisEnd-UserDWToolsCentr
7、al DataWarehouseCentralDataWarehouseMid-TierMid-TierDataMartDataMartLocalMetadataLocal MetadataLocal MetadataMetadataExchangeMDBDataCleansingToolRelationalAppl.PackageLegacyExternalRDBMSRDBMS带ODS的体系结结构SourceDatabasesHub - Data Extraction,Transformation, loadWarehouseAdmin.ToolsExtract, Transformand
8、LoadDataModelingToolCentralMetadataArchitectedData MartsData AccessandAnalysisCentral DataWare-houseandODSCentralDataWarehouseMid-TierRDBMSDataMartMid-TierRDBMSDataMartLocalMetadataLocal MetadataLocal MetadataMetadataExchangeODSOLTPToolsDataCleansingToolRelationalAppl. PackageLegacyExternalMDBEnd-Us
9、erDWTools现实环境境异质质性Douglas Hackney,2001CustomMarketingDataWarehousePackagedOracleFinancialDataWarehousePackagedI2SupplyChainNon-ArchitectedData MartSubsetData MartsOracleFinancialsi2SupplyChainSiebelCRM3rdPartye-Commerce联合型数数据仓库库/数据据集市体体系结构构Real TimeODSFederatedFinancialDataWarehouseSubsetData MartsC
10、ommonStagingAreaOracleFinancialsi2SupplyChainSiebelCRM3rdPartyFederatedPackagedI2SupplyChainData MartsAnalyticalApplicationse-CommerceReal TimeData MiningandAnalyticsReal TimeSegmentation,Classification,Qualification,Offerings, etc.FederatedMarketingDataWarehouseETL tools & DW templatesData profilin
11、g & reengineering toolsDemand-driven data acquisition & analysisMetadata InterchangeFederated data warehouse and data mart systemsDecision engine models, rules and metricsOLAP & data mining tools, Analysis templatesAnalytic application development tools & componentsAnalytic applicationsFront-and bac
12、k-office OLTPe-Business systemsExternalinformationprovidersCRMAnalytics &ReportingSupplyChainAnalytics &ReportingEKP-Enterprise KnowledgeManagement PortalEPMAnalytics &ReportingBusinessinformation& recommendationsInformeddecisions&actionsFinancialAnalytics &ReportingHRAnalytics&Reporting闭环的联联合型BI体系结
13、构构数据仓库库的焦点点问题-数据的获获得、存存储和使使用RelationalPackageLegacyExternalsourceDataCleanToolDataStagingEnterpriseDataWarehouseDatamartDatamartRDBMSROLAPRDBMSEnd-UserToolEnd-UserToolMDBEnd-UserToolEnd-UserTool数据仓库库和集市市的加载载能力至至关重要要数据仓库库和集市市的查询询输出能能力至关关重要ETL工具去掉操作作型数据据库中的的不需要要的数据据统一转换换数据的的名称和和定义计算汇总总数据和和派生数数据估计遗失失数据
14、的的缺省值值调节源数数据的定定义变化化ETL工具体系系结构元数据库库及元数数据管理理元数据分分类:技技术元数数据;商商业元数数据;数数据仓库库操作型型信息。-Alex Bersonetc, 1999技术元数数据包括为数数据仓库库设计人人员和管管理员使使用的数数据仓库库数据信信息,用用于执行行数据仓仓库开发发和管理理任务。包括:数据源信信息转换描述述(从操操作数据据库到数数据仓库库的映射射方法,以及转转换数据据的算法法)目标数据据的仓库库对象和和数据结结构定义义数据清洗洗和数据据增加的的规则数据映射射操作访问权限限,备份份历史,存档历历史,信信息传输输历史,数据获获取历史史,数据据访问,等等元数
15、据库库及元数数据管理理商业元数数据给用户易易于理解解的信息息,包括括:主题区和和信息对对象类型型,包括括查询、报表、图像、音频、视频等等Internet主页支持数据据仓库的的其它信信息,例例如对于于信息传传输系统统包括预预约信息息、调度度信息、传送目目标的详详细描述述、商业业查询对对象,等等数据仓库库操作型型信息例如,数数据历史史(快照照,版本本),拥拥有权,抽取的的审计轨轨迹,数数据用法法元数据库库及元数数据管理理元数据库库(metadatarepository)和工具 MartinStardt,2000数据访问问和分析析工具报表OLAP数据挖掘掘提纲数据仓库库概念数据仓库库体系结结构及组组
16、件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据仓库库设计自上而下下(Top-Down)自底而上上(BottomUp)混合的方方法数据仓库库建模Top-downApproachBuildEnterprise datawarehouseCommoncentraldata modelData re-engineering performedonceMinimizeredundancy andinconsistencyDetailedandhistorydata;globald
17、atadiscoveryBuilddatamartsfromtheEnterpriseData Warehouse(EDW)SubsetofEDW relevant to departmentMostlysummarizeddataDirectdependencyonEDWdataavailabilityLocalData MartExternalDataLocalData MartOperationalDataEnterprise Warehouse自底而上上设计方方法创建部门门的数据据集市范围局限限于一个个主题区区域快速的ROI-局部的商商业需求求得到满满足本部门自自治-设设计上具具有灵活
18、活性对其他部部门数据据集市是是一个好好的指导导容易复制制到其他他部门需要为每每个部门门做数据据重建有一定级级别的冗冗余和不不一致性性一个切实实可行的的方法扩大到企企业数据据仓库创建EDB作为一个个长期的的目标局部数据据集市外部数据操作型数据 (全部)操作型数据(局部)操作型数数据(局部)局部数据据集市企业数据据仓库EDB数据仓库库建模星星型模式式Example of StarSchemaDateMonthYearDateCustIdCustNameCustCityCustCountryCustSales Fact Table Date Product Store Customer unit_s
19、ales dollar_sales Yen_salesMeasurementsProductNoProdNameProdDescCategoryQOHProductStoreIDCityStateCountryRegionStore数据仓库库建模雪雪片模式式 DateMonthDateCustIdCustNameCustCityCustCountryCustSalesFact TableDateProductStoreCustomerunit_salesdollar_salesYen_salesMeasurementsProductNoProdNameProdDescCategoryQOHPr
20、oductMonthYearMonthYearYearCityStateCityCountryRegionCountryStateCountryStateStoreIDCityStoreExample of SnowflakeSchema操作型(OLTP)数据源- 销售售库星形模式式时间维事实表多维模型型事实度量(Metrics)时间维时间维的属性提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据仓库库技术Inmon,1996管理
21、大量量数据能够管理理大量数数据的能能力能够管理理好的能能力管理多介介质(层层次)主存、扩扩展内存存、高速速缓存、DASD、光盘、缩缩微胶片片监视数据据决定是否否应数据据重组决定索引引是否建建立得不不恰当决定是否否有太多多数据溢溢出决定剩余余的可用用空间利用多种种技术获获得和传传送数据据批模式,联机模模式并不不非常有有用程序员/设计者者对数据据存放位位置的控控制(块块/页)数据的并并行存储储/管理理元数据管管理数据仓库库技术Inmon,1996数据仓库库语言接接口能够一次次访问一一组数据据能够一次次访问一一条记录录支持一个个或多个个索引有SQL接口数据的高高效装入入高效索引引的利用用用位映像像的
22、方法法、多级级索引等等数据压缩缩I/O资源比CPU资源少得得多,因因此数据据解压缩缩不是主主要问题题复合键码码(因为为数据随随时间变变化)变长数据据加锁管理理(程序序员能显显式控制制锁管理理程序)单独索引引处理(查看索索引就能能提供某某些服务务)快速恢复复数据仓库库技术Inmon,1996其他技术术特征,传统技技术起很很小作用用事务集成成性、高高速缓存存、行/页级锁锁定、参参照完整整性、数数据视图图传统DBMS与数据仓仓库DBMS区别为数据仓仓库和决决策支持持优化设设计管理更多多数据:10GB/100GB/TB传统DBMS适合记录录级更新新,提供供:锁定定Lock、提交Commit、检测点Ch
23、eckPoint、日志处理理Log、死锁处理理DeadLock、回退Roolback.基本数据据管理,如:块块管理,传统DBMS需要预留留空间索引区别别:传统统DBMS限制索引引数量,数据仓仓库DBMS没有限制制通用DBMS物理上优优化便于于事务访访问处理理,而数数据仓库库便于DSS访问分析析改变DBMS技术多维DBMS和数据仓仓库多维DBMS作为数据据仓库的的数据库库技术,这种想想法是不不正确的的多维DBMS(OLAP)是一种技技术,数数据仓库库是一种种体系结结构的基基础双重粒度度级别(DASD/磁带)数据仓库库技术Inmon,1996数据仓库库环境中中的元数数据DSS分析人员员和IT专业人
24、员员不同,需要元元数据的的帮助操作型环环境和数数据仓库库环境之之间的映映射需要要元数据据数据仓库库包含很很长时间间的数据据,必须须有元数数据标记记数据结结构/定定义上下文和和内容(上下文文维)简单上下下文信息息(数据据结构/编码/命名约约定/度度量)复杂上下下文信息息(产品品定义/市场领领域/定定价/包包装/组组织结构构)外部上下下文信息息(经济济预测:通货膨膨胀、金金融、税税收/政政治信息息/竞争争信息/技术进进展)刷新数据据仓库数据复制制(触发发器)变化数据据捕获(CDC)(日志)提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库
25、库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据仓库库性能 Inmon,1999使用数据平台服务管理理王天佑等等译,数据据仓库管管理,电电子工业业出版社社,2000年年5月提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据仓库库应用DW用户数的的调查“DW系统的用用户在100-500以内内或以上上是未来一一段时期期内的主要部部分“DW用户的调查最近一年年Meta Group
26、 Survey调查对象象:3000+ 用户户或意向向用户DW数据规模模的调查查DW规模的调调查最近一年年Meta Group Survey调查对象象:3000+ 用户户或意向向用户HowMuch?$3-6m formid-sizecompany,less if smaller, moreiflarger$10m+forlargeorganizations,largedatasets10-50+% annualmaintenancecosts33%Hardware/33%Software/33%ServicesHowLong?2-4yearsfor80/20offullsystemfor mid
27、-size company6-12 monthsforinitialiteration3-6months forsubsequent iterationsHowRisky?ForEDW Projects,20%(Meta) to 70%(OTR,DWN) failHigh failureratefornon-business driveninitiativesVery fewsystems meetthe expectationsofthebusinessFailure notduetotechnology,due to “soft”issuesMassive upsidetosuccessf
28、ul projects (100% -2000+% ROI)99%politics- 1% technology参考文献献提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据挖掘掘应用综综述数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台数据挖掘掘应用概概述应用比例例Data MiningUpsidesData MiningDownsidesData MiningUseData MiningIndustryandApp
29、licationData MiningCosts应用比例例Discoveryofpreviouslyunknown relationships, trends,anomalies,etc.PowerfulcompetitiveweaponAutomation of repetitiveanalysisPredictive capabilitiesData MiningUpsidesKnowledgediscovery technologyimmatureLong learning andtuningcycles forsome technologies“Blackbox”technology
30、minimizesconfidenceVLDB (Very Large DataBase)requirementsData MiningDownsidesData MiningUsesDiscoveranomalies, outliers andexceptions in processdataDiscoverbehaviorandpredictoutcomesofcustomerrelationshipsChurnmanagementTargetmarketing (marketofone)PromotionmanagementFrauddetectionPattern ID &matchi
31、ng(darkprograms, science)Data MiningIndustryandApplicationsFrom research prototypestodataminingproducts, languages,and standardsIBMIntelligentMiner, SASEnterprise Miner,SGIMineSet,Clementine, MS/SQLServer2000,DBMiner,BlueMartini,MineIt,DigiMine, etc.A fewdata mininglanguagesand standards(esp.MSOLEDB
32、forDataMining).ApplicationachievementsinmanydomainsMarketanalysis, trend analysis,frauddetection, outlieranalysis, Webmining, etc.Data MiningCostsDesktop tools:$500 andup(MSFTcomingatlow price point)Server/MFbased:$20,000to$700,000+Must alsoadd costofextensive consultingfor highend toolsDontforgetlo
33、ngtrainingandlearningcurvetimeOngoing process, nottask automationsoftware提纲数据仓库库概念数据仓库库体系结结构及组组件数据仓库库设计数据仓库库技术(与数据据库技术术的区别别)数据仓库库性能数据仓库库应用数据挖掘掘应用概概述数据挖掘掘技术与与趋势数据挖掘掘应用平平台(科科委申请请项目)数据挖掘掘趋势历史回顾顾多学科交交叉数据挖掘掘从多个个角度分分类最近十年年的研究究进展数据挖掘掘的趋势势数据挖掘掘与标准准化进程程历史回顾顾1989IJCAIWorkshoponKnowledgeDiscovery in DatabasesK
34、nowledgeDiscovery in Databases(G.Piatetsky-Shapiroand W. Frawley, 1991)1991-1994Workshops on KnowledgeDiscoveryinDatabasesAdvancesinKnowledgeDiscovery andData Mining(U.Fayyad,G.Piatetsky-Shapiro,P.Smyth, andR.Uthurusamy,1996)1995-1998InternationalConferencesonKnowledgeDiscovery in DatabasesandDataMi
35、ning(KDD95-98)Journal of DataMining andKnowledgeDiscovery (1997)1998 ACMSIGKDD, SIGKDD1999-2001conferences, andSIGKDDExplorationsMore conferences on dataminingPAKDD,PKDD,SIAM-Data Mining,(IEEE) ICDM, DaWaK,SPIE-DM,etc.Data Mining:ConfluenceofMultipleDisciplinesData MiningDatabaseTechnologyStatistics
36、OtherDisciplinesInformationScienceMachineLearning(AI)VisualizationA Multi-Dimensional ViewofDataMiningResearchProgressintheLastDecadeMulti-dimensionaldata analysis:Data warehouseandOLAP(on-lineanalytical processing)Association,correlation, andcausalityanalysisClassification:scalabilityand newapproac
37、hesClustering andoutlier analysisSequential patterns andtime-seriesanalysisSimilarity analysis:curves, trends,images,texts,etc.Text mining,Web miningandWeblog analysisSpatial,multimedia,scientific dataanalysisData preprocessingand database compressionData visualizationand visualdata miningMany other
38、s,e.g.,collaborativefilteringResearchDirections HanJ.W.,2001WebminingTowards integrateddataminingenvironments andtools“Vertical” (orapplication-specific)dataminingInvisibledataminingTowards intelligent,efficient, andscalabledata miningmethodsTowards IntegratedDataMiningEnvironments andToolsOLAP Mini
39、ng:IntegrationofDataWarehousingandDataMiningQueryingandMining:AnIntegrated Information Analysis EnvironmentBasicMiningOperationsandMining Query Optimization“Vertical” (orapplication-specific)dataminingInvisibledataminingQueryingandMining:AnIntegrated Information Analysis EnvironmentData miningasa co
40、mponentofDBMS,data warehouse,orWeb information systemIntegrated information processingenvironmentMS/SQLServer-2000(Analysis service)IBMIntelligentMineronDB2SASEnterpriseMiner:data warehousing +miningQuery-basedminingQueryingdatabase/DW/WebknowledgeEfficiency andflexibility:preprocessing,on-lineproce
41、ssing,optimization, integration,etc.“Vertical”DataMiningGeneric datamining tools?Too simpletomatchdomain-specific, sophisticatedapplicationsExpertknowledge andbusinesslogicrepresentmanyyearsofwork in their ownfields!Data mining+ business logic +domain expertsA multi-dimensional viewofdataminersCompl
42、exity of data: Web,sequence, spatial, multimedia, Complexity of domains: DNA,astronomy,market, telecom, Domain-specificdataminingtoolsProvide concrete,killersolutiontospecificproblemsFeedbacktobuildmore powerful toolsInvisibleDataMiningBuildminingfunctions intodailyinformationservicesWebsearch engin
43、e(linkanalysis,authoritativepages,userprofiles)adaptiveweb sites,etc.Improvementofqueryprocessing:history +dataMakingservicesmartandefficientBenefitsfrom/to datamining researchData miningresearchhasproducedmanyscalable,efficient,novelminingsolutionsApplicationsfeednewchallenge problems to researchTo
44、wards Intelligent Tools forData MiningIntegrationpavestheway to intelligent miningSmartinterfacebrings intelligenceEasy to use,understandandmanipulateOnepicturemayworth1,000wordsVisualand audio dataminingHuman-CenteredData MiningTowards self-tuning,self-managing,self-triggeringdataminingIntegrated M
45、ining:ABooster forIntelligentMiningIntegrationpavestheway to intelligent miningData miningintegrates withDBMS,DW, WebDB,etcIntegrationinheritsthepowerofup-to-dateinformationtechnology:querying,MDanalysis, similaritysearch,etc.Miningcan be viewedasqueryingdatabaseknowledgeIntegrationleadstostandardinterface/language, function/processstandardization,utility,andreacha
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 山西单招英语题库及答案
- 防高空坠落安全教育课件
- 2026年安徽绿海商务职业学院单招职业适应性测试参考题库及答案解析
- 深圳中考听说真题及答案
- 北京物理二模试卷及答案
- 永辉超市管理层培训课件
- 简约风企业部门工作汇报
- 对管理能力培训课件
- 长郡双语招生试卷及答案
- 八年级安全作文课件
- 2025年政府财务岗面试题及答案
- 广东省东华高级中学2026届高一化学第一学期期末统考试题含解析
- 2025医疗器械检测行业全面分析及质量监管与发展趋势报告
- 口腔诊所管理运营培训课件
- 中国葡萄膜炎临床诊断要点专家共识2025
- 受益所有人识别与风险管理培训
- 幼儿园每日消毒及安全管理操作规范
- 2025年军队文职保管员题库及答案(可下载)
- 西游记车迟国课件
- 化工新材料生产线项目社会稳定风险评估报告
- 新生儿科护理服务标准与操作规范
评论
0/150
提交评论