资料探勘中的资料仓储.ppt_第1页
资料探勘中的资料仓储.ppt_第2页
资料探勘中的资料仓储.ppt_第3页
资料探勘中的资料仓储.ppt_第4页
资料探勘中的资料仓储.ppt_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第二章 資料探勘中的資料倉儲和OLAP技術 2 本章大綱 第一節資料倉儲的概念第二節多維度資料模型第三節資料倉儲的發展與設計第四節線上分析處理 3 前言 第一節 介紹資料倉儲的概念以及與傳統交易資料庫的差異 第二節 介紹各類型的多維度資料模型 以提供資料倉儲使用 第三節 介紹資料倉儲的設計與發展過程 最後 介紹如何使用線上分析處理 On LineAnalyticalProcessing OLAP 來進行資料的分析 4 第一節資料倉儲的概念 操作型資料庫系統資料倉儲操作型資料庫系統與資料倉儲的比較 5 操作型資料庫系統 在業界廣為應用的資料庫軟體 常用到的功能不外乎為執行線上交易或是查詢處理 因而也稱為線上交易處理系統 On LineTransactionProcessing OLTP 線上交易處理系統 最主要在提供企業平日的所有交易紀錄之存取 因此 其資料庫又稱為操作型資料庫 OperationalDatabase 6 資料倉儲 資料倉儲是一個 主題導向的 整合的 隨時間變化的 非揮發性的 資料集合 主要被用來使用在組織的決策制定功能 7 資料倉儲 c2 主題導向的 Subjected Oriented 資料倉儲的設計規劃必須是針對特定主題 譬如信用卡客戶評等 股票投資市場的風險分析 資料倉儲所欲解決的問題是決策分析的問題 而非交易導向的問題 8 資料倉儲 c3 整合的 Integrated 資料倉儲是處理各種異質資料庫整合的工作 HeterogeneousDatabaseIntegration 異質資料庫包括關聯式資料庫 檔案和線上交易紀錄等不同的來源 9 資料倉儲 c4 隨時間變化的 Time Variant 資料倉儲是處理各種歷史性的資料並加以分析 而資料倉儲中的各項關鍵結構 不論是顯性或隱性 都包含時間要素 非揮發性的 Nonvolatile 資料倉儲不同於傳統的操作型資料庫系統 亦即不包含交易處理 回復與並行控制等機制 10 操作型資料庫系統與資料倉儲的比較 OLTP系統的特性是針對工商企業現行業務的自動化而設計的是在協助工作人員執行既有的活動多個使用者同時使用資訊系統儲存的資料比較偏重細節資料的來源是使用者日常工作的輸入資料庫內容會隨時被新增 刪除以及變更資料的處理是以交易為單位 交易時間短而且佔用系統的資源少設計資料庫是採用正規化的設計方式 11 操作型資料庫系統與資料倉儲的比較 c2 OLAP系統的特性是針對工商企業資料分析需求而設計的是在協助工作人員執行管理決策同時間不會有太多使用者同時使用系統儲存的資料偏重較高層級的彙總資訊資料的來源是OLTP系統資料庫的內容是歷史性的資料 不會隨時加以變更設計資料庫不是採用正規化的設計方式將分散各處的異質性資料整合到單一的資料集合之中使用適合資料分析的結構來儲存資料包含由日常交易資料轉換而來的資料資料倉儲的資料在內部必須包含易於使用的瀏覽工具 12 第二節多維度資料模型 多維度資料模型的定義多維度資料庫的綱要階層概念 13 多維度資料模型的定義 以往傳統的資料庫概念 是將資料庫裡存放的資料以初始概念等級的細部資訊加以儲存 目前的資料倉儲概念 便是試著將儲存資料的初始概念等級加以歸納至更高的層級 而要將資料的階層概念往上提歸納 必須將資料倉儲的資料以多維度 Multidimensional 資料模式儲存 也就是所謂的資料方塊法 DataCubeApproach 14 多維度資料模型的定義 c2 所謂的 多維度 是指利用多項不同分析問題的變項 將同一個資料庫用不同維度構面下去分析彼此的關連性 系統並可據此動態且即時的產生所需的報表 而維度的表現方式則為 0維度資料方塊代表一個點 1維是代表每一個維度的每一個點 2維則是代表兩各維度的交叉表格 3維則是有三個維度交叉的立體方塊 15 圖2 1資料立方體的呈現方式 16 多維度資料庫的綱要 資料倉儲的資料是由事實資料 FactData 與維度資料 DimensionData 所組成的 事實資料是能夠反應過去事實的資料 維度資料則是為了使查詢更加快速而立的索引參考資料 而由事實資料表與維度資料表所組成的就是一個資料倉儲的資料架構 又稱為此資料庫的綱要 Schema 17 多維度資料庫的綱要 c2 星狀綱要 StarSchema 最常見的資料庫綱要格式 架構中間有一個事實資料表 而週邊則有多個未經正規化的維度資料表 優點 使用OLAP進行查詢資料時 可提升查詢效率 缺點 易造成整個搜尋暫存表 SearchTable 會激增 18 圖2 3學校資料庫的星狀綱要 19 多維度資料庫的綱要 c3 雪花式綱要 SnowflakeSchema 為 星狀綱要 的變形 用來描述某些維度資料表間的關聯性以及合併後的綱要型態 可減少資料重複性與空間浪費等問題 20 圖2 4學校資料庫的雪花綱要 21 多維度資料庫的綱要 c4 事實群集綱要 FactConstellationSchema 主要的特徵在於包含多個事實資料表 並共用許多維度資料表 又稱為 銀河綱要 GalaxySchema 22 圖2 5學校資料庫的銀河綱要 23 階層概念 概念階層 是定義一相關主題的概念 GeneralConcept 並從低層次概念 Low LevelConcept 對映到高層次概念 High LevelConcept 的關係 概念階層是由概念層次所形成 而這些層次之間的關係 往往隱含在資料庫的綱要設計中 此種階層又可稱為 綱要階層 SchemaHierarchy 概念階層也可加以自行定義與調整 此種階層稱為 群組階層 Set GroupingHierarchy 24 第三節資料倉儲的發展與設計 資料倉儲的基本程序資料倉儲的種類 25 資料倉儲的基本程序 資料倉儲的處理過程及架構 可分為五個主要流程 異質資料庫來源資料轉換資料倉儲OLAP分析使用者應用系統 26 圖2 8資料倉儲流程架構 27 資料倉儲的種類 資料倉儲以其規模與應用層面來加以區分 大致可以區分為下列幾種 標準資料倉儲資料超市 DataMart 多層式資料倉儲 Multi tierDataWarehouse 聯合式資料倉儲 FederatedDataWarehouse 虛擬資料倉儲 VirtualDataWarehouse 28 第四節線上分析處理 資料倉儲的OLAP分析從資料倉儲到資料探勘 29 資料倉儲的OLAP分析 OLAP的目標是要滿足決策支援或是在多維環境下的特定查詢和製作報表需求 進而在短時間內詮釋目前擁有的資訊 以便做出適切的判斷 OLAP的基本多維度分析操作 有以下五種方式 上捲 Roll Up 下鑽 Drill Down 切片 Slice 切塊 Dice 旋轉 Pivot 30 從資料倉儲到資料探勘 31 本章摘要 線上交易處理系統可定義為 處理大量的例行性交易資料 並經過應用程式的特定處理將資訊存放於資料庫 支援的對象屬於最基層的一般事務性與作業性交易 資料倉儲是一個 主題導向的 整合的 隨時間變化的 非揮發性的 資料集合 主要被用來使用在組織的決策制定功能 32 本章摘要 c2 一個資料倉儲的資料是由事實資料 FactData 與維度資料 DimensionData 所組成的 事實資料是能夠反應過去事實的資料 而維度資料則是為了使查詢更加快速而立的索引參考資料 資料庫綱要可依事實資料表與維度資料表的關聯性與綱要形狀 區分成四種架構 包括星狀綱要 雪花式綱要以及事實群集綱要 33 本章摘要 c3 概念階層是定義一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论