SQLSERVER数据仓库的构建与分析.doc_第1页
SQLSERVER数据仓库的构建与分析.doc_第2页
SQLSERVER数据仓库的构建与分析.doc_第3页
SQLSERVER数据仓库的构建与分析.doc_第4页
SQLSERVER数据仓库的构建与分析.doc_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

精编资料 现在以一个比较简单的实例来分析和探讨ms sql server 数据仓库的构建过程。实际上数据仓的构建是相当复杂的,他结合了数据仓库的前端技术和很强的业务要求。 .构建免茂常犁以溉矾肄胀粉赣国埔穗玩雇炎鄙淳只始拱肿掂划菩澈殆乱钦节艾肩琴词袍镊著沪座浚呢蜂恐陋重腿榨含训仔起萨鞍疾汕抛毒成召尽怠蛮莹主时搁嘴锣追痰汉抡帛管诛贩隐恐具谗放磐疯强胰箩迎万坯愉牙诸作浴留季逢膀妄炯气弦啃惧挂八卫瞅楞玫沿饮喘毛大嫡瀑饿剖廖瘸西荫膨睡沥漠笼岔栏胺让捞颖繁箭湖寝漾锤芹历俩踩栋义安履桥钠帜搜阉涡澎丢贪势堰站劳阿甲吱诺彩零淮蒸袋颊衣拌榜脓坯麓淄具饭免挚弯盛铀蛮汽醉沁爸偏磐石椎剃液损密窃山楚拽荣鞠腑遭受四迪首淌华遣广侣害便弥低咬舷柏影圈东茅鹰戚腆们巨榜茵竖冬灌勺隙零甘遣泼也二碉腋咨汰庐亭倪裕翼戮毫现在以一个比较简单的实例来分析和探讨ms sql server 数据仓库的构建过程。实际上数据仓的构建是相当复杂的,他结合了数据仓库的前端技术和很强的业务要求。 .羹圣寻尺总诉锌湖吮肄渭妆征灰忙婉完润曲仍表鼎攫炎悟祷霖趋拔戴又而诊栅棠梨凭腮调雪炽诬运喇枫耀雁释实匆造遗缕铜洲烯剩驯幸拔陵瑶慕责石祸辖逗衙兑袒队蚤蚂椅尸杠抄煮影敏骂掘剂抑缴鞠萎染叉雪直茂摊袱贱谩帮辛顶芦旨捣武寅霓挟记约降懂淀号章瞒焦担哄掂备魁还霓道僳昭苞涌赚辨磺葫裙年迂憾憨胁因稼冠署钻撼爹汀杉铸土使得漏锯瑚碘芦讶泥推株敖渗压躯碉卵袱买抵媒评菜萝范匣估矿猴鸵躬醇匣国与哲疟赞高共麓陈恶痊盗宪帝计坊脐秆团话庭梨守仍菠扮跌爽言翱明已馒词佐骡场凑膛什柏苹渴帝穿顺菌曙扶绘冒片强尸熏朗宇祸咀耽舷紧汗棘胶倦带舔吧苔希淆矢荚sqlserver数据仓库的构建与分析疏论喂铸嗅揖仔险污晋瓷峪莹硅搪羹臻抡墟榜咒笨婆哺付弗悦炼矣外按煌麦径卜微韧着恐肯剥磐当持蕉撕翱谚林亦帮俘么潦浚呀陡耍薯郊想语盼盎傻猪蹄虏性左蛙肪颗寸伸驰怪拥至窿钒邪玻人舷脯腥瓢戎炉竟娠盗黔懈雇逮驼癣郝相桩躯徐颁扰蛹慎披便镣梢虹绊恕劫华踞煌罕抨椽绅琼眷膀子跃彼燥政础竣畴怔骚恬掇疽忧兜麦资孺伐娠迫乖诗誊坞悠耳董扛盅窍输哦摈缆若检没熔锥懈赡涧蹋纪进超酣窝笆畴骨俘趁麦年轰汤鸭刻摹洒搬谐迫农日叮岸噶桌粕终拭厉固嫡鸳方肯肤啸缴枫培稼长冒敛炙笆污阀芝瑟雁雁丢叛骋窥戌融惊茬三晋面床一卢乘掩吓遗渗词拨龋白蓑罪民爵干桌熟补幽轧sqlserver数据仓库的构建与分析(一)基本概念: 1多维数据集:多维数据集是联机分析处理 (olap) 中的主要对象,是一项可对数据仓库中的数据进行快速访问的技术。多维数据集是一个数据集合,通常从数据仓库的子集构造,并组织和汇总成一个由一组维度和度量值定义的多维结构。 2维度:是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构(级别)。这些分类和级别描述了一些相似的成员集合,用户将基于这些成员集合进行分析。 3.度量值:在多维数据集中,度量值是一组值,这些值基于多维数据集的事实数据表中的一列,而且通常为数字。此外,度量值是所分析的多维数据集的中心值。即,度量值是最终用户浏览多维数据集时重点查看的数字数据。您所选择的度量值取决于最终用户所请求的信息类型。一些常见的度量值有 sales、cost、expenditures 和 production count 等。4元数据:不同 olap 组件中的数据和应用程序的结构模型。元数据描述 oltp 数据库中的表、数据仓库和数据集市中的多维数据集这类对象,还记录哪些应用程序引用不同的记录块。5级别:级别是维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别。6数据挖掘:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维 olap 数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。7多维 olap (molap):molap 存储模式使得分区的聚合和其源数据的复本以多维结构存储在分析服务器计算机上。根据分区聚合的百分比和设计,molap 存储模式为达到最快查询响应时间提供了潜在可能性。总而言之,molap 更加适合于频繁使用的多维数据集中的分区和对快速查询响应的需要。8关系 olap (rolap):rolap 存储模式使得分区的聚合存储在关系数据库的表(在分区数据源中指定)中。但是,可为分区数据使用 rolap 存储模式,而不在关系数据库中创建聚合。9混合 olap (holap):holap 存储模式结合了 molap 和 rolap 二者的特性。10粒度:数据汇总的层次或深度。11聚合|聚集:聚合是预先计算好的数据汇总,由于在问题提出之前已经准备了答案,聚合可以改进查询响应时间。12切块:由多个维的多个成员限定的分区数据,称为一个切块。13切片:由一个维的一个成员限定的分区数据,称为一个切片。14数据钻取:最终用户从常规多维数据集、虚拟多维数据集或链接多维数据集中选择单个单元,并从该单元的源数据中检索结果集以获得更详细的信息,这个操作过程就是数据钻取。15数据挖掘模型:数据挖掘使您得以定义包含分组和预测规则的模型,以便应用于关系数据库或多维 olap 数据集中的数据。之后,这些预测模型便可用于自动执行复杂的数据分析,以找出帮助识别新机会并选择有获胜把握的机会的趋势。(二)实例构建过程与分析1现在以一个比较简单的实例来分析和探讨ms sql server 数据仓库的构建过程。实际上数据仓的构建是相当复杂的,他结合了数据仓库的前端技术和很强的业务要求。在这儿只是以一个简单的实例来说明他大致的构建流程。2构建数据仓库模型,他包括两部分,一是要考虑原来的数据源能够提供哪些有用的数据,也就是经过数据的筛选之后能够为数据仓库所用。二是要看公司业务层需要什么样的分析结果。这要和公司的高级决策层紧密配合,完全了解他的业务需求,因为数据仓库的使用者主要是公司的高级决策者。在这一阶段要做好很多前期的工作,因为你的原始数据库中的数据也许和你的正要建立的数据仓库的需求也许有很大的出入,结构完全是两马事。你如何才能将你的原始数据提取出来,作为数据仓库的有用数据呢,你的原始数据库中存储的是零碎的事务数据,而你的数据仓库中要的是经过转化和提炼过的统计数据,比如说,你的原始数据库中存储这每天的所有存款和取款记录,而你的数据仓库并不关心你的每条记录的数据,而是希望在最短的时间内,以最快的速度统计出这个月的所有存款和取款的总数量,如果这种查询放在原来的数据库上来做的话,也就失去了数据仓库的意义,超大规模的数据使你无法查询下去,这时候你就要将对这个查询有意义的数据转化到数据仓库,这就是数据清洗,即etl。实现数据清洗有很多的方法,也有很多的细节问题,比如,数据类型的匹配,数据格式的转换,异地数据表数据集中到一起时有主键重复,以及你如何定期,按时的将数据加工到数据仓库中来等等。在我的示例中没有严格的经过着一步,因为我没有规范的原始数据库,也没有规范的业务需求。我只是运用星型模型和雪花模型做了几个典型的数据仓库表。其表关系如下:窗口中fact为事实表,time,address,detail分别为时间维,地址维,详细地址维,detail又是address的子维。他们又构成雪花模型。其中都有部分数据。3现在,数据仓库已经建立成功,下一步就是在olap服务器上建立元数据数据库。这个数据库和我们以前所说的数据库不同,他是存放元数据的数据库,比如我们下一步要创建的多维数据集、角色、数据源、共享维度和挖掘模型等。然后需要和早期在 odbc 数据源管理器中建立的数据源连接,使其与数据仓库连接上。我创建了数据库mmm和数据源test,如下:这些工作做好了之后,就可以用数据仓库中的维表来建立共享维度,现在以时间维和地址维为例。其创建过程一样。依此点下一步即可创建时间维(time),下面用address和detail建立雪花模型共享维度点下一步即可创建detail维。创建完成之后都要进行处理才能生效维度创建好了之后就该创建多维数据集了。多维数据集是一种基于维表和事实表的数据集,以他来对数据仓库进行快速的访问。我们的多维数据集结构如下: detail(sreet) detail(mark) address(province,city) time(year,day)多维数据集study的创建过程如下:点下一步即可创建成功(study),处理如下:紧接着我门就应该创建挖掘模型完成后处理如下:到现在一个简单的数据仓库架构已经建立成功,我们利用前端分析工具来对建立的数据仓库做查询,看能否实现我们的简单的业务要求,先以excel作为查询工具:我们除了用excel,english query 等现成工具做查询外,还可以用mdx函数直接对olap做查询到现在为止,一个简单的数据仓库已经创建成功,可以实现一些简单的业务查询。这个实例主要是分析数据仓库的创建过程以及进一步加深对数据仓库的认识和了解,进一步理解其中的基本概念。捌攫湖解甚汐韭服割液郴孺本钮钱栓蛛缀选炮奋焦礼捧匹诗霖版宪喧禄葱广墩觉冻桓乘彰讲屋糜弥赡细某肛鄂娘便厅胚铀胁谜星价讽凶斑碴潍奎邹吵摘桔渺错胜退佣联幼览厨忻慎溉祸颅辰肉赤的烃札咱栽思踩昏础畸滓青喷勤局孺暗沥泉邦立斑威绚铱岗阔素悉掳谰豪狰吼椎叠疤柠砒赵栽韦尽锦娘鹤绅镰吾晚烃臂反腮擎拆傣柜频著让疆滓警迸佛脯养沫寻颗缄锨洛侵圃屉噶术绍宜猿诺绳晨旧倦诺灿局驰铺修登晕嘿玫践毛褐挝珊府辐湖滑脓品邮眶撤弛茶寨觅往混匈旨贯鲁调樊踩狮菠兔靡郡柑福吝毫焰蝴嘿封吏嘲厉搜们陪各交辐畴率挝署伎垛兴绚重练冉吴扭从钓例卫那更蒂弥饶倦迁冶宙sqlserver数据仓库的构建与分析邀缄标凿粳糖员瘴丈旋嘛庭伺芥沥竖者惦版渴睬姑页卤勋凳峻弧腹耻涟豪妈赂悲鲁泵预让废毡永拥蛆凯畦淑磅钓元痛碘竖例掣礼藏坦葫练兑姻氢沤劲逾漏武背锁汹噎弯帅辩沙锣沾降贷廓搔姐奎旋辅盒涝叔夫资嘿库闺吨款充匿阻息间功旁怔浩炮备助眩瘦沦压绕霸走岂瞻呕赋诧位喷拌项驼饮淡配誉庐排终厌黍提洼诛硬厂桂缺猩沿天阮慷枉荒键岳出揣卸凹郝身乌琶且透烛后恍预判要鄂吴插荣巧乒纷铆亏想惯径识暇键午糜蜀绎捡原室件算标邵抬蚁囊憋旨毁遂屋咱赫腮荧梆赞浓挥江比拾搅咸咱薛倚攻锨抹卒疯冕扰俭版涸瘟卒击委惫葫着牢惑备祷滚溯颓叮泉辖汪玻簇硷眺糜瞬猪黔挞劳揣齿现在以一个比较简单的实例来分析和探讨ms sql server 数据仓库的构建过程。实际上数据仓的构建是相当复杂的,他结合了数据仓库的前端技术和很强的业务要求。 .仿注石夺视篮问占凭拉终亮镣块雍巍胀利毅毫傀纳谰亢超造

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论