版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与绿色数据中心未来45分钟4组关键词2大数据特点(4个V)CAP理论业界三类数据库数据中心---PUE大数据在中国
大数据–新一轮“信息革命”DataGrowthStatements–MckinseyGlobalInstitute200PB/季度智慧城市数据中国某一线城市2090亿2021年RFID标签销售量
2011年是1200万1.8ZB
in20112天的数据量
>文明起始到2003年3.88亿/5.3亿移动/互联网用户中国2012年6月$8000亿10年个人位置信息服务创造的价值5PB/年健康档案数据中国某一线城市“数据日益成为商业的新源材料:一种与资本和劳动力并列的新经济元素.”—
TheEconomist,2010“信息将成为21世纪的石油”.—Gartner,20103速度Velocity数据量Volume多样化Variety传统数据大数据GB->TBTB->PB以上数据量稳定,增长不快持续实时产生数据,年增长率超过60%主要为结构化数据半结构化,非结构化,多维数据大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大数据量(volumes)、多类别(variety)的数据中提取价值(value),但是传统关系型数据库存在性能、存储、成本、IO瓶颈、等等的原因,无法支撑这4个V+1个E的要求,解决方法就是分布式技术、廉价的X86平台、本地存储,点出分布式技术是大数据处理的核心大数据在中国
大数据–四大区别于传统数据的特征统计和报表价值Value数据挖掘和预测性分析4CAP原理AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个——EricBrewerCConsistencyPPartitionToleranceConsistency一致性所有的用户都可以看到一致的系统状态Availability可用性无论何时,哪怕出现硬件故障,数据中心故障,系统也可提供服务,哪怕是降级的服务PartitionTolerance分区容忍性哪怕在网络出现分割的情况下,各个独立的子系统都可以继续提供服务6RDBMS与Hadoop架构对比 RDBMS
RDBMS
Connection
(e.g.,
FC,
InfiniBand)
Storage
(e.g.,
SAN,
NAS,
Storage
Cell,
etc)•多个独立的关系数据库服务器,访问共享的存储资源池•优势:
•采用多个关系数据库服务器,多个存储,与原有的架构相比,扩展了存储容量和计算能力;•劣势:
•计算与存储分离,数据访问存在竞争和带宽瓶颈;
•支持的关系数据库服务器数量有限;
•只能向上扩展(scale-up),不能横向扩展(not
scaleout)•适合复杂的需要事务处理的应用 NewSQL与NoSQL
Network
(e.g.,
GbE,
10GbE,
Infiniband)
E.g.,
MPP
Databases
(or
MapReduce
on
RDBMS),
Big
Data
framework
(e.g.,
Hadoop,
HBase)•由大量独立的服务器通过网络互连形成集群,每个服务器带存储。•优势:计算与存储融合,支持横向扩展,更好的扩展性•劣势:解决数据冲突时需要节点间协作•适用范围: •数据仓库和离线数据分析(MPP,Hadoop/HBase) •大规模在线实时应用(单行事务处理能满足的场景) (HBase)RDBMS:事物类处理行存储关系型小型机为主NoSQL海量全局数据处理Key-ValueMapReduceX86平台NewSQL:分析类处理列存储关系型X86平台
大数据激发技术创新7NewSQL:严格保证一致性、遵循关系模型,完整支持SQL92标准,一定程度上牺牲可用性和分区容错性。特点:列存、主要使用场景:主要用于结构化数据的统计分析Nosql数据库:侧重分区容错性,一定程度上牺牲一致性和可用性,突破了关系模型,不一定支持SQL。特点:主要使用场景:非结构化数据的统计分析、实时查询共性:采用廉价的X86平台、本地硬盘、分布式架构大数据推动产品创新8大数据推动了数据库行业的产品创新。OldSQL阵营在基本架构不变的基础上引入内存计算和一体机技术以提升处理性能。NewSQL阵营在过去五年里形成了近十个商用的产品,去年Google发表论文介绍了F1/Spanner关系型数据库(未开源)。NoSQL阵营的技术源于互联网公司Google,Yahoo,Amazon,Facebook等。现在又出现了noSQL阵营和newSQL阵营融合的趋势,例如hadoop通过hive的扩展实现了对结构化数据的支持,greenplum等产品也通过对和hadoop的融合实现了对非结构化数据的支持。RDBMS:OracleExadataDB2-DPFSQLServer
NewSQL:GreenplumVerticaGBase8aF1/Spaner
NoSQL:HadoopHbaseBigtableCassandra9什么应用适合NoSQL数据库方案支持PB级别数据Big
Data
支持非结构化数据
支持结构化数据
支持万级每秒查询
支持高可靠性系统
支持高效率统计分析大量的结构化和非结构化数据、要求可变的数据结构和高效的数据导入、查询、统计等大数据在中国
英特尔Hadoop发行版10交互式数据仓库Sqoop1.4.1关系型数据库同步工具Flume1.1.0日志收集工具IntelHadoopManager2.2安装、部署、配置、监控、告警和访问控制Zookeeper分布式协作服务数据流处理语言Mahout0.6机器学习英特尔Hadoop发行版组件稳定的企业级hadoop发行版利用硬件新技术进行优化HBase改进和创新,为Hadoop提供实时数据处理能力针对行业的功能增强,应对不同行业的大数据挑战分布式、高维数据库HbaseHBase0.94的改进和创新,提供即时数据处理稳定高效的分布式计算框架可靠的分布式文件系统R-statistics数据统计IntelligentSystemsArchitecture智慧城市电信零售终端设备HHNB/ULTCamerasPoSKioskDS大数据在中国国各行业大数据据最佳实践制造医疗物联网金融服务数据中心CPUSSD10GbEInfiniband……11TopFiveNomineesforthe2012USGovernmentBigDataSolutionsAwardVeteransHealthAdministration(退伍军人健康康管理):NewBigDataapproachesandframeworksprovidedataandtoolsfor20,000clinicianstotrackmedicaltrends,betteranticipateoutcomes.Thescopeofthedatasetisover80billiondatafiles.Focusedonserviceto25millionveterans.JudgesselectedVeteransHealthAdministrationbecauseoftheimpactandbestpracticesinBigDatasolutions.NASA(星图位置模模拟计算):Multipleandextensiveactivities.OneofmanyexemplarswastheNASACenterforClimateSimulation(NCCS).TheirworkincludesscalableHadoopclustersforlargescaleclimatesimulations.BureauofEngravingandPrinting(文档电子化化):Thisgovernmentagencyisthelargestproducerofsecuritydocumentsincountry.TheyhavefieldedanBigDatasolutionenhancedqualityandmissionsupport,reducedwaste.Judgescharacterizedthisasagoodmatchofrightbusinessprocessestoandamoderntechnicalapproach.AMSAA(军用物资活活动分析):ArmyMaterialSystemsAnalysisActivity.Vehicledataanalysisprograminstrumentsvehiclesintheatertocollectoperationalandenvironmentalparameterhistoricaldata.Massivedatapatternscreeningandanalysistoolsetsputinplace.Result:rapididentificationofissuesbeforemissionimpact.NationalCancerInstitute(全国癌症机机构):ExtensiveresearchandworkingprototypesofcuttingedgesystemsbasedonHadoopandtheBigData.Judgesnotedthesignificantpotentialimpactofthissolutionaswellasthestrengthofthetechnicalapproach.移动用户上网网记录集中查查询与分析支支撑系统智能交通的软软件架构14
HBase
MapReduce
Hive即时查询(例如:路况信信息)应用程序视频流处理(例如:实时路路况)数据挖掘(例如:车辆跟跟踪)面临挑战数据源结构化、半结构化(病历),非结构化(PACS影像)数据格式标准难制定,或不断变化数据量中型城市(1000万人口)存放50年会达到10PB
医疗信息区域内准实时共享,医生可快速调阅病人信息信息共享提升效率基于病史的自动医疗、饮食等建议;针对病史和病症的OTC药物参考等个性化医疗疾病自动分类和诊断计算机辅助诊断趋势分析:例如,流行病扩展情况分析、癌症的历年趋势、药物效果分析决策辅助系统区域医疗健康档案系统解决问题居民电子病历存储、查询解决方案HBase分布式数据库存放健康档案和PACS影像数据特点优势高速数据导入;实时数据查询;关键字搜索;分布式统计智慧医疗与大大数据24数据中心基础础设施建设绿绿色技术概述述数据中心绿色色指标:数据据中心能源效效率系数PUEPUE=[数据中心总用用电消耗]/[IT设备能源消耗耗]理想的企业数数据中心PUE:1.35以下理想的互联网网数据中心PUE:1.25以下常见的PUE:甚至更高Chiller33%Humidifier3%CRAC9%ITEquipment30%PDU5%UPS18%Lighting1%Mainswitchgear/Generator1%25WasteHeatOUTINDOORDATACENTERHEATElectricalPowerIN验收建设策划运维10-20年运作寿命正在施工项目目情况场地评估数据中心的策策略业务战略和任任务建设策划:数据中心建设设的工作范围围,制定项目里程程碑设计:土建和工程设设计30%-60%-90%设计审核,项目有关的各各种招标施工:根据设计规格格进行施工验收:制定未来运维维的模式,负责基础设施施的验收运维:保证和维持基基础设施的运运作29采用Intel数据中心标准准设计施工30/60/90方案设计/系系统设计/施施工图设计数据中心退役处理大型数据中心心基础设施建建设全生命周周期方法论隐含的挑战::在设计阶段段能否预见到到运维阶段IT系统架构的发发展、变化!!IssueforConstruction需求预测针对数据中心心建设标准定定义了四个级级别:19T1数据中心:基基本型T1数据中心可以以接受数据业业务的计划性性和非计划性性中断。要求求提供计算机机配电和冷却却系统,但不不一定要求高高架地板、UPS、或者发电机机组。如果没没有UPS或发电机系统统,那么这将将是一个单回回路系统并将将产生多处单单点故障。在在年度检修和和维护时,这这类系统将完完全宕机,遇遇紧急状态时时宕机的频率率会更高,同同时操作故障障或设备自身身故障也会导导致系统中断断。T2数据中心:组组件冗余T2数据中心的设设备具有组件件冗余功能,,以减少计划划性和非计划划性的系统中中断。这类数数据中心要求求提供高架地地板,UPS和发电机组,,同时设备容容量设计应满满足N+1备用要求,单单路由配送。。当重要的电电力设备或其其他组件需要要维护时,可可以通过设备备切换来实现现系统不中断断或短时中断断。T3数据中心:在在线维护(全全冗余系统))T3级别的数据中中心允许支撑撑系统设备任任何计划性的的动作而不会会导致机房设设备的任何服服务中断。计计划性的动作作包括规划好好的定期的维维护、保养、、元器件更换换、设备扩容容或减容、系系统或设备测测试等等。大大型数据中心心会安装冷冻冻水系统,要要求双路或环环路供水。当当其他路由执执行维护或测测试动作时,,必须保证工工作路由具有有足够的容量量和能力支撑撑系统的正常常运行。非计计划性动作诸诸如操作错误误,设备自身身故障等导致致数据中心中中断是可以接接受的。当业业主有商业需需求或有充足足的预算追加加,T3机房应可以方方便升级为T4机房。T4数据中心:容容错系统T4级别的数据中中心要求支撑撑系统有足够够的容量和能能力规避任何何计划性动作作导致的重要要负荷停机风风险。同时容容错功能要求求支撑系统有有能力避免至至少1次非计划性的的故障或事件件导致的重要要负荷停机风风险,这要求求至少两个实实时有效地配配送路由,N+N是典型的系统统架构。对于于电气系统,,两个独立的的(N+1)UPS是一定要设置置的。但根据据消防电气规规范的规定,,火灾时允许许消防电力系系统强切。T4机房要求所有有的机房设备备双路容错供供电。同时应应注意T4机房支撑设备备必须与机房房IT设备的特性相相匹配。3118.3C26.7C数据中心基础础设施建设绿绿色技术2::运行温度的的提高美国采暖、制制冷和空调工工程师
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 晨鸣集团2026届春季校园招聘笔试备考题库及答案解析
- 2026年河南艺术职业学院单招综合素质考试题库附答案详细解析
- 申万宏源集团及证券2026届春季校园招聘笔试备考试题及答案解析
- 2026上海复旦大学附属肿瘤医院大内科(肿瘤内科)招聘科研护士1人笔试模拟试题及答案解析
- 2026四川科瑞软件有限责任公司招聘项目经理等岗位2人考试备考题库及答案解析
- 2026年江西机电职业技术学院单招职业技能考试题库附答案详细解析
- 甘孜州能源发展集团有限公司2026年度公开招聘工作人员(29人)笔试模拟试题及答案解析
- 成都交易集团有限公司2026年第一批社会集中公开招聘笔试备考题库及答案解析
- 自贡市重点中学2026年9校联考初三英语试题含解析
- 浙江省台州玉环2026届中考考前质量检测试题(三)语文试题含解析
- 深圳市失业人员停止领取失业保险待遇申请表样表
- 机关财务报销培训
- 第3课+发现自我+完善自我教案【中职专用】中职思想政治《心理健康与职业生涯》(高教版2023基础模块)
- GB/T 19023-2025质量管理体系成文信息指南
- T/CECS 10378-2024建筑用辐射致冷涂料
- DB62T 2421.3-2018 主要草种子质量 第3部分 豆科草种子
- 《简介统计软件概述》课件
- 员工号归属合同协议
- ISOSAE 21434标准培训考试试题
- 《固态硬盘存储技术》课件
- 【9英一模】2025年安徽省合肥市包河区中考一模英语试卷(含答案)
评论
0/150
提交评论