南航SVC大数据支撑案例_第1页
南航SVC大数据支撑案例_第2页
南航SVC大数据支撑案例_第3页
南航SVC大数据支撑案例_第4页
南航SVC大数据支撑案例_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

南航SVC大数据支撑案例,提纲,进一步的工作,系统架构,技术选型考虑,案例说明,数据分散,形成数据孤岛;无法统一共享。,1,3,4,5,6,2,7,8,高端系统旅客资料,大客户旅客资料,呼叫旅客资料,客舱旅客资料,电子客票旅客资料,离港旅客资料,销售旅客资料,客户统一视图系统(SVC),通过SVC系统统一客户数据,集中访问效率不高,系统稳定性不足,投资大。,SVC初期探索,SVC架构优化思考及技术选型,RMDB主要技术难题,扩展困难并发读写慢成本高(小型机+存储)无法支撑海量数据,NoSQL的优点,NoSQL的不足,大数据量高性能、高可用弹性扩展能力灵活的数据模型低成本,不完全支持SQL不支持事务不支持多表关联不支持聚合查询无法保证数据一致性,优点,迁移成本底方案成熟稳定能很好的支撑事务能保证数据的完整性能提供较高的TPS满足业务性能要求开发成本低,技术风险低有较好的扩展性,我们的选择,并发访问量高,速度快,稳定高效,系统投资小。,系统部署架构,数据库,小型机C档,光纤交换机,光纤交换机B档,磁盘阵列,磁盘阵列B档,数据库软件,SVC主备两套CBD主备两套,小型机方案,汇总600万,数据库PCserver,数据库软件,SVC主备两套,CBD主备两套,汇总35万,分布式方案,并发访问量高,速度快,稳定高效,系统投资小。,投资比较,结果比较,选择hadoop+hive做分析平台,高效率:通过分发数据,hadoop可以在数据所在的节点上并行地处理,处理非常的快速。高扩容能力:服务器群总计可达数千个节点,能可靠地存储和处理PB级数据。成本低:使用普通机器组成的服务器群来分发以及处理数据。可靠性:hadoop能自动地维护数据的多份复制,并且在任务失败后能自动地重新部署计算任务。跨平台:JAVA实现支持各种平台并支持多种语言的MapReduce.,A表(30亿)+B(2亿)表A表做聚合统计查询,时间5分12秒;A表做数据清洗,时间12分07秒A表与B表join后做聚合统计查询,时间14分36秒,测试结果,数据分析平台架构,业务数据库,业务系统,大数据处理集群,交易数据,文件/邮件数据,客户数据,设备/运行数据,大数据处理平台,Datanode,Datanode,Datanode,Datanode,Namenode,HDFS,ETL,数据,A1,A2,A1,A2,A1,A2,MapReduce,任务管理,导入,导入,数据清洗,Hadoop可以存贮PB级别的数据,并且每个文件在不同的机器上有2份或3份备份,这样即使一台机子故障,将不会影响系统的可用性。,大数据处理平台,大数据存储问题的解决,MySql,Hadoop集群,ETL工具,平台数据转换服务,3、转换任务调用,4、数据转换,1、数据导入,BI分析,BI系统,报表查询,数据源,SVC,CBD,FFP,2、数据导入,Hive,mapred,5.1、报表生成,5.2、特殊报表生成,6、报表导出,BI分析效率的解决,构建开源数据服务平台,分布式数据库中间件,数据库节点,数据库节点,数据库节点,数据库节点,可扩容至1024个节点,界面化配置,按需扩容,灵活缓存机制:注解式、配置式、编程式、AOP拦截,在应用和底层数据源之间,构建一层代理,统一数据层;垂直切分:数据按业务划分存储在不同的数据库,表间关联密切的表划分在一起,例如同一模块的表。水平切分:将同一个表中的不同数据拆分到不同的数据库中;统一数据访问API:隐藏后端复杂数据分布细节,数据库操作看起来就像是在同一数据库中;,统一数据服务平台中间层,数据服务平台架构,容易引起:重复研究法律问题包版本冲突系统不稳定技术无法积累对人员要求高研发成本高后续维护成本高,分享:开源技术统一管理的必要性,平台层,视图层,框架层,中间件层,js:query、dwr、swato、GWT、prototypeUI控件:Dhtml、jqueryUI、ExtJs、easyuiJSP:velocity、tag、JFS,MVC:struts1、struts2、spring、webworkORM:hibernate、ibatis、persist组件:日志类、工作流类、XML解释类、安全类、缓存池类、接口服务类、数据传输类,容器:tomcat、jboss、jetty、apach、nginx消息:activeMq、mule、openESB.集群管理:zookeeper、heartbeat、lvs、ganglia、Nagios,DB:mysql、PostgreSQLNoSQL:hadoop、mongoDB、hive、pig工具:Kettle、sqoop、datax、cobar、Myfox.,分享:开源技术管理策略,分享:开源技术管理方法,公用开源包用maven进行统一管理,形成企业开源库,占领开源技术前沿节约成本、满足业务需求,开源技术统一选型,开发框架统一封装,通用组件统一研发,实现工具化、模块化、规范化,逐步积累实现重用降低成本提高质量,分享:开源技术的推进策略,开源实验室,分享:组织机构设计,技术小组(虚拟团队),开源实验室,研发团队,公司领导,项目经理团队,需求提出技术发展规划规范制订技术评审开源项目验收,开源产品研究、测试、封装、开发,技术评估技术选型技术目标制订架构设计开源管理,技术文档编写技术培训技术网站维护项目技术支持,技术战略调配资源,南航推进软件开源化成果,1,建立以五大数据核心为基础的开源化SOA平台通过开源化,已经完成旅客信息、旅客行为、运行控制信息三大核心数据库及面向SOA核心服务平台。,2,移动化、整合业务应用端在企业核心服务平台基础上,利用开源技术,重新整合呼叫中心、地面服务等应用,面向岗位需求实施移动化策略。,3,建立统一WEB技术架构使用开源技术,开发可伸缩性的统一平台架构,统一移动应用架构,统一WEB应用架构。,4,初步形成JBOSS/Linux/LVS统一开源基础性架构大部分新系统采用

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论