




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据仓库技术及其演变第一页,共十八页,2022年,8月28日原因精细化竞争精准用户精准定位资源分配、调度竞争对手、外部情报速度客户需求产品开发市场投放可用时间延长不可用时间减少强度加大数据增长来源的多样化人工操作PC、手机生成机器生成数据的多样化结构化、半结构、非结构化数据第二页,共十八页,2022年,8月28日原因数据量增长每两年翻番数据单位:G->T->P->E软硬件技术进步,价格降价需求带来供给供给带来新需求第三页,共十八页,2022年,8月28日总体与OLTP共用到分离硬件使用方式不同处理能力有限从多处OLTP系统获取数据未来会不会合?Hana等内存数据库云平台OracleExaData一体机dw->dw2.0原因历史数据管理企业精细化竞争需求变化增加了半结构化、非结构化数据分交互层、集成层、近线层、离线层dw3.0什么样?第四页,共十八页,2022年,8月28日总体-DW架构来自:第五页,共十八页,2022年,8月28日总体-DW2.0来自:DW2.0–TheArchitecturefortheNextGenerationofDataWarehouse
第六页,共十八页,2022年,8月28日总体集中式->分布式->云原因单机处理能力有限高可用应用复杂挑战多服务器协作跨服务器数据关联单机不可靠云服务的迁移反向于集中式?云是否合适大数据?结构化数据->半结构化、非结构化数据体量大(Volume)类型多样化(Variety)*处理速度快(Velocity)价值密度低(Value)如何高效利用半结构化、非结构化数据?第七页,共十八页,2022年,8月28日总体批处理->实时小时、天、周计算频率到现在的分钟、秒甚至毫秒主要用于决策到用于生产挑战获取数据与历史数据集成、一致性、完整性异常处理提供高并发实时服务批处理、实时可不可以用一套框架处理?第八页,共十八页,2022年,8月28日数据库SMP->MPPSMP代表:oracle、db2、sqlserverMPP代表:teradata、greenplum、netezzaMPP->NoSQL集群扩展能力有限对非结构化数据支持不好引擎较单一NoSQL和MPP会不会融合到一起?RDBMS->专有数据库图数据库、多维数据库Hadoop优点较早解决了利用PC服务器扩展到上千台服务器生态系统发展良好大量的使用第九页,共十八页,2022年,8月28日数据库缺点MR效率低复杂学习成本高稳定性较差Spark优点速度快高级API,开发效率高集成流式处理、数据挖掘、SQL缺点快速开发中复杂大数据框架的发展方向效率总体效率单机效率第十页,共十八页,2022年,8月28日数据库规范SQL事务JDBC、ODBC稳定、易用降低安装复杂度降低维护难度不可用时间减少大一统VS专业化大一统带来易使用、易维护、规范化,同时特定应用效率、成果会比较低专业化带来更专业的处理方式,效率更高,同时部署、维护难度更大数据库的发展方向大规模横向扩展半结构、非结构化数据支持与大数据架构的配合数据库配合使用第十一页,共十八页,2022年,8月28日数据库-其他技术列式存储只扫描相应的列混合使用多种存储介质磁带、光盘、HDD、SSD、内存压缩CPU换IO,大部分不是时间换空间分区LoadBitmap索引无主外键不记日志(弱日志)预统计(inforbrightknowledgegrid)部分信息统计后放入系统表,查询直接走系统表还有哪些技术可以引入?第十二页,共十八页,2022年,8月28日Spark是未来吗?第十三页,共十八页,2022年,8月28日ETL趋势分析->生产应用批处理->实时处理粗略->精准单一类型->多种类型数据同时使用同时使用文本文件、专有格式文件、多种数据库ETL工具专有工具,独立服务器代表IBMDataStage、InformaticaPowerCenter、PentahoKettle优点集成度高学习门槛低多种数据源协同工作缺点复杂问题灵活不够单独学习第十四页,共十八页,2022年,8月28日ETL演进同数据库路线类似SMP、MPPHA多种数据源混合使用ETL-数据仓库直接利用数据仓库的存储与计算能力优点学习成本低充分利用资源实现灵活缺点必须入库才可操作调度等需要单独开发与其他服务争抢资源基于工具或数据仓库,哪种方式在大数据处理方面占优势?第十五页,共十八页,2022年,8月28日BI第三方开发->自服务工具更容易使用用户要求响应时间更短PC->移动一切前端应用移动化BI工具MOLAP生成Cube文件,需要独立服务器代表IBMcognos、SAPBO、oracleBIEE、tableau优缺点同ETL工具自带数据集市专有格式->通用格式专有服务器->通用服务器我们需要什么样的BI?第十六页,共十八页,2022年,8月28日数据挖掘完整工具->类库工具:SAS、SPSS类库:ApacheMahour、ApacheSparkMllib\GraphX专有语言->通用语言专有语言:SAS、R通用:Python我们如何进行数据挖掘?第十七页,共十八页,2022年,8月28日硬件小机+盘阵->PCServer->云SMP结构是小型机+盘阵MPP也是多台小型机+盘阵Hadoop、Spark等使用PC服务器、云CPU摩尔定律绿色化
HDD->SSD->MemoryHDD存储在线;磁带存储离线数据HDD存储顺序访问、速度慢;随机访问且要求高的用SSD
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 标准化员工绩效考核模板
- 财务管理报表生成工具轻松掌握财务数据
- 企业文化建设与推广实施方案工具箱
- 2025海南省监狱管理局(海南省戒毒管理局)遴选人力资源服务公司协助开展招聘警务辅助人员工作模拟试卷及答案详解(各地真题)
- 2025广东佛山市商务局招考专业技术雇员1人考前自测高频考点模拟试题附答案详解
- 2025安徽庐江县乡村振兴投资有限公司招聘10人考前自测高频考点模拟试题及1套参考答案详解
- 2025年江西农商联合银行金融科技人才招聘25人考前自测高频考点模拟试题及完整答案详解1套
- 2025年临沂莒南县教体系统部分事业单位公开招聘教师(1名)模拟试卷及答案详解(有一套)
- 2025第十三届贵州人才博览会黔东南州企事业单位招聘模拟试卷及1套参考答案详解
- 2025广东清远市英德市招聘教师222人模拟试卷及答案详解(必刷)
- 个体诊所感染管理制度
- 建筑施工移动机械设备管理制度
- 《财务分析(第2版)》课件 项目六 现金流量表分析
- 滴灌通收入分成协议合同
- T/CECS 10043-2019绿色建材评价光伏组件
- DB32/T 4430-2022极端强降雨事件判定
- 美容院设计图
- 四川分行成都海椒市支行建设方案汇报
- 2025核辐射突发事件放射性污染人员洗消流程及技术要求
- 精神科护理安全管理与急危事件处理
- 《兔子灯》(教案)-苏科版劳动六年级上册
评论
0/150
提交评论