




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
无锡所大数据与云交流童景文架构师tongjONFIDENTIAL2智能交通业务领域(交警)方面的主要业务应用路面交通状态感知系统交通状态监测系统执法管理系统(行车规范检测采集)路面交通诱导服务系统路面移动指挥系统制高点监控线圈交通流检测系统微波交通流检测系统地磁检测处理系统视频事件检测视频监控系统路面行车诱导系统停车诱导服务系统CONFIDENTIAL3智能交通业务领域(交警)方面的主要业务应用集成指挥平台智能交通管控平台交通信息服务平台运维管理平台交通控制系统CONFIDENTIAL4挑战数据类型多和数据量特别大:
在相应的路面交通状态感知系统的各个子系统中,需要采集各种类型的数据,例如结构化数据:关系型和非关系型;非结构化数据:图片、视频等。
并且量特别大,如下简要所示:
非结构化数据:例如一个普通地市的三个月的高清卡口图片量为300多TB,1周视频的量为1000多TB(PB级别)等。
结构化数据:3个月高清卡口索引数据量:200多G;3个月RFID的数据量:1.6TB;3个月GPS的数据量:1.9TB等。
如果我们需要保存周期增长以及进行复杂的数据挖掘的话,这将使数据量更大。压力大和性能要求高:
各个终端设备产生的数据需要很快地能够把数据存储进入系统和处理,并且有时候需要进行近实时的流计算处理从而提升业务水平,例如“对管辖的道路交通车辆运行状况实时检测,出现异常情况,第一时间反应并自动报警。提示交通监控中心等其他有关部门进行有效的组织、调度、管理,提高管辖区内的行车安全,减少交通事故及事故所造成的损失。”这个场景。
并且终端设备数量多,以及用户数多(特别是有些功能模块,例如广大社会大众使用我们提供的移动App以得到相应的交通信息服务的话);这将会导致对我们的后台系统的并发/同时在线用户数将会很大。
CONFIDENTIAL5针对大数据和高并发的设计准则大数据、大并发技术点:1、ShareNothing架构的数据处理系统,以支撑线性扩展来面对海量数据和较高并发;即以小变大。2、内存计算:用内存来换处理时间,从而提高实时处理效率。3、分布式并行计算:对于海量的数据进行相应的数据分析,必然需要利用分布式并行计算框架来加速处理。4、均衡负载:多台机器形成一个逻辑上统一的集群,从而提高处理性能和提高可靠性5、高速缓存:利用内存存储经常被访问的数据,从而没有必要进行I/O。这样将大幅提高性能6、应用架构需要调整和改造:SEDA/BASE/异步引入新技术对相应的业务应用进行优化改造而不是重构以面对大数据、大并发所带来的挑战。CONFIDENTIAL6设计思路软件定义的数据中心带来敏捷性、亲近性、灵活性以支撑不同应用和数据所需要的虚拟资源环境通过大数据技术、移动技术、Social技术开发出各种不同的应用系统物联网技术实现了物物相连、人物相连等控制从而促进应用和数据进一步扩展。新一代互联网(移动互联网和固定互联网)应用系统数据和应用平台系统物联网关系数据库集群Hadoop云应用平台NoSQL&NewSQL优异的用户体验(Mobile&SNS)大数据和快数据软件定义的数据中心关键词:开放、互联、用户价值、快速、自动化运营、BigData、Social、Mobile、CloudCONFIDENTIAL7计算物理硬件基础设施基础策略的管理和自动化云自动化云运营云业务软件定义数据中心PrivateCloudsPublicCloudsHybridCloud虚拟基础设施抽象
&资源池计算抽象=服务器虚拟化(vSphere)网络网络抽象=网络虚拟化/软件定义网络(NSX)存储存储抽象=软件定义存储(vSAN)应用体系终端用户计算桌面移动虚拟工作空间经过优化改造后的应用SQLFire软件基础平台J2EEESB/消息中间件WebServer设计思路:整体架构概览CONFIDENTIAL8ApacheHadoop1.x简要架构-核心组件HDFS(分布式文件系统)HBase(分布式非关系型数据库)MapReduce(分布式定时批量并行处理框架)其它项目1、Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群2、Zookeeper:分布式锁机制3:OoZie:Hadoop流程调度引擎用得最多的Hadoop的版本为CloudEraHadoop即CDH,大量的公司使用它,大量的开发人员学习它CONFIDENTIAL9ApacheHadoop2.x简要架构-核心组件HDFS(分布式文件系统)HBase(分布式非关系型数据库)MapReduce(分布式定时批量并行处理框架)其它项目1、Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群2、Zookeeper:分布式锁机制3:OoZie:Hadoop流程调度引擎4:Sqoop:数据采集Yarn(分布式资源调度和协商管理)Spark(分布式实时计算)其它基于Yarn的计算框架用得最多的Hadoop的版本为CloudEraHadoop即CDH,大量的公司使用它,大量的开发人员学习它CONFIDENTIAL10设计思路-软件组件交互关系总体概览图GemFire分布式内存集群OracleDatabase集群1.2异步更新到OracleDB应用模块1.1实时采集到的结构化数据写入GemFire内存集群HDFS集群2.实时采集到的非结构化数据(视频/图片)写入到HDFS集群:最好采用异步批量写机制SparkStreaming3.1采集需要进行实时流计算处理的数据异步地送入消息队列3.2数据送入Spark进行流式计算Kafka集群3.4.1处理结果以文件的方式存入HDFS;以便相应的前端展现和请求3.4.2处理结果存入Oracle数据库,以便相应的前端展现和请求使用频率比较高的业务数据全部同步缓存到GemFire中3.3.1获取支撑流计算所需要的数据3.3.2获取支撑流计算所需要的数据CONFIDENTIAL11设计思路-软件组件交互关系图-加速客户信息查询GemFire分布式内存集群OracleDatabase集群应用模块高频率、高用户数的数据查询(OQL查询语言)HDFS集群其它一些请求处理使用频率比较高的业务数据全部同步缓存到GemFire中非结构化(图片/视频)内容的提取CONFIDENTIAL12设计思路-软件组件交互关系图-结构化数据归档及其相关快速查询OracleDatabase集群应用模块HDFS集群把相应的前端时间的数据归档到Hadoop集群中(例如Hbase集群)非结构化(图片/视频)内容的提取一般情况下我们尽量需要让数据保存周期更长,但是这会带来的一个问题就是Oracle数据库将太大大大影响性能,所以我们需要把相应前一段(例如三个月/半年前)的结构化数据给归档到HDFS集群中,然后通过相应的其它技术来进行相应的归档数据查询。当然我们必须启用Oracle的表分区(用时间来进行分区)能力,从而可以方便地把数据进行归档;即Oracle数据库中只保留最近时间段的数据HBase集群ClouderaImpala/SparkSQL用SQL快速地进行查询CONFIDENTIAL13设计思路-软件组件交互关系图-数据挖掘和分析业务系统数据源数据采集1.采集2.装载Hbase集群/HDFS集群数据加工MapReduce计算集群(ETL)3.1ETL3.2中间结果数据挖掘MapReduce计算集群(DataMing)/HadoopR4.1数据挖掘4.2中间结果数据可视化应用体系集群(数据可视化工具等)应用模块大数据平台OracleDatabase集群其它ClouderaImpala/SparkSQLSQLSQLCONFIDENTIAL14设计思路-对系统如何进行部署整个应用体系牵涉到了以下的软件平台集群:1、J2EE应用服务器集群(WAS):主要部署相关的应用代码。2、Web服务器集群3、关系数据库集群(Oracle)4、流计算(Spark)集群5、消息队列中间件集群6、分布式内存缓存(数据库)集群(GemFire)7、HDFS存储集群8、Hbase集群9、ClouderaImpala/SparkSQL集群10、数据可视化工具集群从这些来看,我们必须需要有一个平台能够根据这些集群的需要按需提供相应的计算、存储、网络等资源能力来支撑这些软件平台高性能、高可靠性的运行;并且还需要能够对此进行相应的部署、管理、监控等。如果采用传统的物理部署方式太过复杂以及在可靠性、性能、运维方面的保障代价太高。CONFIDENTIAL15设计思路-整体软件组件部署拓扑简图ApacheHadoop2.x资源池应用中间件资源池CONFIDENTIAL16vSphereBigDataExtensions–为Hadoop提供无与伦比的灵活性vSphere加强了对大数据工作负载的支持,包括所有主要Hadoop发行版在通用vSphere基础架构上虚拟化Hadoop以实现无与伦比的灵活性通过集成到vCenter的管理工具帮助用户在vSphere上部署、运行及管理Hadoop集群隔离存储和计算以实现弹性扩展和真正的
多租户存储计算当前的Hadoop:组合式
存储/计算存储T1T2VMVMVMVMVM弹性扩展:隔离存储和计算Hadoop堆栈:vSphere加强了对
大数据工作负载的支持物理主机概述优势弹性扩展支持多租用户更高的集群利用率易于使用的界面通过硬件整合实现更低的总体拥有成本利用vSphere增强HA/FTHadoop提倡计算移动而不是数据移动,从而可以大幅提高数据计算性能CONFIDENTIAL17vSphereBigDataExtensions–为Hadoop提供无与伦比的灵活性整合系统资源,提高资源使用效率,灵活资源调度;从而在一个池化、抽象化、自动化的虚拟数据中心中根据用户的需要多租户形态的Hadoop集群,以支撑不同用户的需要。例如形成支撑分布式批量离线计算的Hadoop集群(MapReduce)、支撑分布式内存流计算的Hadoop集群(Spark)、以支撑不同运营、科研、管理的需要。资源弹性伸缩数据计算的能力得到提高应用自动部署CONFIDENTIAL18云应用自动部署:加快应用部署速度和标准化软件体系优化部署和更新流程利用预构建的组件跨环境和云重用应用模型应用蓝本组件组件组件组件避免手动配置以消除不一致、错误和返工通过为应用团队提供标准化应用/中间件/数据库快速获得效益提供复杂、集成的多层应用采用应用策略利用共享服务在云中会存在采用不同软件平台和相应架构开发的不同应用系统(原有的应用和将来新开发的应用),并且甚至是要部署运行其它单位(例如医院/卫生局)的应用,这样的话我们需要快速自动的部署,实现一定的devopsCONFIDENTIAL19应用自动部署实现应用发布流程的自动化跨云快速调配一致的环境,并且促进各环境间的更改开发生产测试重用应用蓝本以确保
一致性更改重用更新配置文件
以确保一致性在云中会存在采用不同软件平台和相应架构开发的不同应用系统(原有的应用和将来新开发的应用),并且甚至是要部署运行其它单位(例如医院/卫生局)
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 南阳蜂鸟网络科技有限公司劳动合同3篇
- 物业公司聘用合同6篇
- 沿街房屋租赁合同精简2篇
- 2025襄阳汽车职业技术学院辅导员考试试题及答案
- 2025辽宁经济职业技术学院辅导员考试试题及答案
- 2025烟台职业学院辅导员考试试题及答案
- 2025焦作师范高等专科学校辅导员考试试题及答案
- 2025福建商学院辅导员考试试题及答案
- 工业设计方案
- 小学美术标志设计
- 颌下感染的护理查房
- 高考英语考纲重点短语词组(英汉版)
- 糖尿病膳食指南2024
- 主斜井皮带安装技术措施
- 打造近零能耗建筑示范实施方案
- 光伏并网前单位工程验收报告-2023
- 创新创业教育的课程设计与实施研究
- JGT368-2012钢筋桁架楼承板规范
- 燃气行业的数字化转型
- 新整理校园话剧!纪念伟大爱国诗人的话剧剧本《屈原》
- 马克思主义基本原理介绍课件
评论
0/150
提交评论