




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、中国电信大规模数据处理需求中国电信大规模数据处理需求及应用实践及应用实践中国电信广州研究院中国电信广州研究院201020106 62目录v电信面临的海量数据处理问题v云计算大规模分布式处理平台v云计算分布式技术应用实践3背景全面数据时代海量电信海量电信运营数据运营数据海量互联海量互联网数据网数据计费数据计费数据网页网页用户账户数据用户账户数据网络流量数据网络流量数据安全数据安全数据音频音频图片图片每用户每年产生150kB计费信息,1000万用户每年10TB,实际上往往50TB以上,在100TB100TB左右视频视频p 一个地市运营商,每天产生24亿条话单记录,约1TB,一年约350TBp 用户
2、数据p ChinaNet骨干网,每天产生10TBnetflow流量p 截至2009年互联网有336亿个网页,每个网页28.6KB,约1PBp 海量数据时代,我们疲于收集的是蕴含信息的海量数据时代,我们疲于收集的是蕴含信息的“财富财富”还是占据存储空间和处理还是占据存储空间和处理能力的能力的“垃圾垃圾”?4背景电信系统vs互联网系统计费计费系系统统客客户关户关系管理系系管理系统统经经分系分系统统搜索引擎搜索引擎社交社交网络网络门户网门户网站站5互联网公司互联网公司应对措施应对措施推出基于mapreduce的云计算技术架构,30万台服务器,为搜索等互联网应用提供海量存储和处理能力领导Hadoop开
3、源云计算架构,部署生产集群/科研集群,提供个性化、反垃圾邮件等服务每天80-90TB,部署Hadoop集群,2250台机器,贡献HIVE等数据分析工具每天500TB,部署Hadop集群,1100台机器,海量数据存储和分布式计算基于mapreduce开发分布式处理平台,启动阿拉丁计划,搜索“暗网”信息背景业界主要应对措施中国移动大云中国移动大云(BigCloud)(BigCloud)p 基于X86架构的大规模服务器集群+MapReduce云计算分布式技术逐渐成为业界趋势p 基于并行计算的数据挖掘、机器学习方法逐渐成为主流的数据分析方法p 开源Hadoop云计算架构被广泛用于构建企业大规模服务器机
4、群,提供大规模存储和计算能力p 云计算分布式技术与数据仓库技术相结合,主要用于数据分析工作,不适合于实时事务操作 构建中国电信大规模分布式处理平台,为电信应用和互联网应用提供海量数据存储和并行计算能力6目录v电信面临的海量数据处理问题v云计算大规模分布式处理平台v云计算分布式技术应用实践7分布式服务引擎(DSE)vDSE定义:中国电信PaaS云计算平台,利用云计算分布式技术解决海量数据分析处理问题,并将一系列基于数据分析和信息处理的基础服务抽象成公共模块提供给用户,简化用户应用的开发周期。v能力定位:面向亿兆级数据规模的系统v功能定位:电信应用的核,互联网应用的组件v设计定位:抽象公共基础服务
5、,简化应用开发SOAPSOAPRESTRESTHTTPHTTPCLCLI I海量存海量存储储及分布式及分布式计计算服算服务务基基础础能力能力(数数据分析、信息据分析、信息处处理)理)服服务务能力能力(搜索、位置、分(搜索、位置、分类类)基基础础平台服平台服务务DSEDSE运营运营管理系管理系统统互互联网应联网应用用开发开发者者电电信信应应用用开发开发者者OSS/BSSOSS/BSS互互联网应联网应用用移移动动互互联网联网应应用用物物联网应联网应用用科科学计学计算算8DSE-技术架构分布式数据库分布式文件系统任务分解及调度缓存服务硬件平台硬件平台分布式平台分布式平台基础能力层基础能力层(数据分析
6、、(数据分析、信息处理)信息处理)内容分类及过滤搜索服务位置服务服务能力层服务能力层(信息服务)(信息服务)ONS系统EPC查询流量分析可视检索餐饮搜索行为分析应用层应用层热点播报行业资讯配置调度监控接入邮件服务单点登录账号服务平台平台服务服务运营运营管理管理关系型/分布式数据库查询引擎统计分析聚类关联分析图表服务分类预测数据获取特征提取快速索引文本处理可视处理内容分发9DSE-能力定义10DSE应用科学计算v 科学计算任务特点:个案性质,对计算、存储、网络等基础资源具有临时、大量、突发需求v 使用平台的基础能力:通过DSE开放的存储接口和计算接口,将科研计算任务部署运行到DSE平台上,分享平
7、台的大规模处理能力,按需获取所需的计算资源。DSE存储接口图表服务MapReduce计算接口自服务站点编写编写MapRMapReduceeduce计计算任务算任务上传上传数据数据定制资定制资源,启源,启动任务动任务层现结层现结果,释果,释放资源放资源11DSE应用-互联网信息应用v互联网信息类应用:产生或使用大量信息,如垂直搜索、新闻资讯、社交网络、音/视频应用v特点:海量数据处理需求、大规模用户请求v基于DSE的功能模块组建互联网应用,调用DSE信息服务简化应用开发基础数据分析模块、基础信息处理模块v把应用运行在DSE平台DSE提供Web服务集群,满足大规模用户请求信息检索信息检索信息层现信
8、息层现数据抓取数据抓取信息处理信息处理数数据分析据分析数数据整理据整理互联网信息应用互联网信息应用互互联网数联网数据据电电信信运营数运营数据据IPIP地址地址库库用用户数户数据据流量流量数数据据网页数网页数据据评论数评论数据据图图像像数数据据音音视频数视频数据据12DSE应用-移动互联网应用v 移动互联网应用特点: 受终端处理性能限制,计算任务在服务器端运行,适合“云+端”形式v DSE能力 海量存储能力,满足移动终端数据的接续性 大规模分布式处理能力,满足计算需求 高速的互联网和3G网络带宽,满足应用的网络需求v 应用模式: Web+Widget模式,开发个性化互联网服务DSEDSE平台平台
9、移移动动互互联网联网应应用用开发开发者者上上网网本本PCPCMIDMID手机手机开发开发/ /部署部署应应用用访问应访问应用用Browse/WidBrowse/Widgetget13DSE应用-电信应用系统v电信数据分级事务型/操作型数据系统:动态实时数据,关系数据库,一致性、实时性要求分析型数据系统:静态历史数据,数据仓库,离线分析、深度挖掘,决策vDSE提供大规模并行计算能力,适合对历史数据作离线分析v应用模式:提供分布式数据仓库存储历史数据提供基于MapReduce的数据总结方法、统计分析方法、数据挖掘方法数据抓取数据抓取/数据推送数据推送数据分析(统计分析、数据挖掘)数据分析(统计分析
10、、数据挖掘)电信运营数据(网管数据、流量数据、用户数据电信运营数据(网管数据、流量数据、用户数据)Hbase数据库数据库MySQL数据库数据库HDFS文件系统文件系统开发开发者者14DSE应用-物联网v 物联网:通过电子标签(RFID)、传感器、二维码等技术和设备,将物体与互联网等各类网络相连,实现物与物、物与人之间的信息交互v 互联网支撑系统:ONS、EPC查询超大规模的存储和计算能力,高速的网络带宽海量数据分析能力v 互联网应用系统:大规模的数据查询请求物物联网联网网络网络物物联网应联网应用系用系统统( (数数据采集、交互、据采集、交互、传传送送) )物物联网联网信息支撑系信息支撑系统统(
11、数数据分析、据分析、查询响应查询响应)DSEDSE平台平台HDFSHDFSMapReduceMapReduceMySQLMySQLHBaseHBase用用户户15DSE应用-IPv4/IPv6应用迁移v IPv6网络内容匮乏,CP/SP缺乏迁移动力v 构建具有双栈能力的应用迁移和内容分发平台,同时为IPv4和IPv6用户提供服务v DSE提供海量存储和分布式计算能力16目录v电信面临的海量数据处理问题v云计算大规模分布式处理平台v云计算分布式技术应用实践17分布式处理平台工作进展1718应用实践之一:NetFlow流量分析19应用实践之一:Netflow流量分析19Cluster sizeRe
12、cords processed in 5 minutes11355970058322984010164147740Map reduceMap reduce天然适合大型网络的天然适合大型网络的NetflowNetflow流量分析和挖掘流量分析和挖掘20应用实践之二:可视搜索21应用实践之三:美食搜索v 系统目标 利用互联网大量点评信息为用户提供快速的消费决策v 核心技术 海量信息抓取,过滤 情感分类,点评摘要2122应用实践之三:美食搜索2222226.6.关注趋势图关注趋势图7.7.关注情感趋势图关注情感趋势图2.2.按关注重点自动分类按关注重点自动分类1.1.评论摘要评论摘要3.3.评论摘要
13、:按正面情感评论摘要:按正面情感4.4.评论摘要:按负面情感评论摘要:按负面情感5.5.评论摘要:按中立情感评论摘要:按中立情感23应用实践之四:行业资讯v 系统目标 从互联网实施抓取最新的行业资讯,为企业内部人员提供IPv6、移动网、云计算等专题的最新技术信息和新闻v 核心技术 定向抓取、自动去重、话题分类智能抽取规则定向抓取智能信息抽取关键词分类去重处理去噪处理定制关键字推送数据互联网Cinlab平台24应用实践之四:行业资讯25应用实践之五:热点播报系统2626评论详情评论详情新闻详情新闻详情应用实践之五:热点播报系统数据通信研究部数据通信研究部访问门户访问门户PCPC用户用户访问门户访问门户手机终端手机终端新闻详情新闻详情评论详情评论详情地头社地头社27应用实践之六:IPv4/I
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新生儿采足底血知识考核试题
- 中职班主任管理能力提升培训
- 车险续保培训流程
- 《联想网络营销》课件
- 气象协理员培训实务
- 车资金过桥合同协议
- 特约分销协议书
- 通州学位租赁合同协议
- 《培养自信自爱》课件
- 《神奇数学》课件
- 洁净室空调净化系统验证方案(通过BSI和华光审核)
- 上市公司执行企业会计准则案例解析
- 财务岗位招聘笔试题及解答(某大型国企)2025年
- 第六次全国幽门螺杆菌感染处理共识报告-
- 盖房四邻签字协议书范文
- 电影与幸福感学习通超星期末考试答案章节答案2024年
- 《飞向太空的航程》名师课件
- 《飞越疯人院》电影赏析
- 屋顶分布式光伏项目可行性研究报告
- 《建筑结构抗震设计》全套课件
- 农业综合执法大比武测试题
评论
0/150
提交评论