




已阅读5页,还剩35页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
电信运营商大数据应用和架构实践 萝卜课堂电商数据培训之 主讲:何鸿凌 2 业务趋势与数据特征 大数据应用案例 典型的大数据平台架构 一些思考和观点 电信运营商大数据 应用和架构实践 3 移动数据流量的增长 Source: 爱立信 中国移动的数据量的增长 每分钟800万次通话 每天净增用户16.6万 每秒发送短信2.4万条 每分钟应用下载1142人次 每分钟销售终端251部 每天话单数据10TB 每天信令数据100TB 基站总数104 万35%35%140 万 无线数据流量1 ZB100%100%2 ZB 移动数据流量290 PB82%82%527 PB 3G客户数0.88 亿118%118%1.9 亿 3G手机销量0.5 亿180%180%1.5 亿 物联网终端数2245 万43%43%3200 万 Source: 中国移动集团2012年、2013年业绩年报 2012201220132013 VS Source: 内部统计,2013年底 5 中国移动大数据平台数据量 时间 数据量 传统数据 信令数据 网络日志 当前每日新增结构化数据 8T,每日新增日志类数据 400T。 每日处理的数据10倍于此, 每日查询的数据100倍于 此。 未来考虑4G日志、信令等 数据纳入大数据平台。 中国移动数据特征 数据特征处理特征使用特征 1. 数据单位存储价 值不同 高价值:CRMBOSS的 各类资料数据、账单、 清单 低价值:日志、网页 中价值:高价值中长期 数据和低价值收敛数据 2. 实时要求不同 分钟、小时、日、周、 月 3. 数据类型不同 结构化、半结构化、非 结构化 1. 调度模式不同 批量任务 小批量任务 流式处理 2. 加工特征不同 关联整合处理 汇总,抛弃输入 汇总,不抛弃输入 关联+汇总 更新,不保留历史 1. 使用角色不同 业务人员:低操作能力 IT分析师:中操作能力 数据科学家:高技术能力 2.使用方式不同 消息型:向一线推送 浏览型:决策层 简单处理型:业务人员 复杂处理探索型:分析师 高级编程型: 不直接使用型:机器处理 Ad-hoc类使用成为趋势 “云-管-端”各数据采集点分析 云 网站、应用的后台服务 器 管 物理管道:无线、宽带、 WIFI 逻辑管道:应用平台 (微信、百度轻应用) 端 智能终端OS(苹果、 小米) 浏览器插码、APP SDK 深度 广度 质量 难度 业务趋势与数据特征 大数据应用案例 典型的大数据平台架构 一些思考和观点 电信运营商大数据 应用和架构实践 9 运营商大数据应用历程 T-Mobile: 基于社交网络的精确营销和客户维系 T-Mobile USA 美国的无线网络运营商 挑战 美国各大运营商对用户争夺的竞争非常激烈,用户获取成本 上升,T-Mobile营销团队希望利用大数据技术对其庞大的 用户数据进行洞察,寻找新方法来维系客户 解决方案 T-Mobile利用SAS的Customer Link Analytics技术对用户 社交网络进行分析,通过挖掘用户的社交关系、所在群体来 提高用户的保有率,实现交叉销售和向上销售,基于社会影 响和社交变化对目标用户进行细分 取得的收益 T-Mobile USA的营销人员可识别社交网络中的头羊、跟随 者以及其他成员,通过定义基于角色的变量,识别目标客户 群中最有影响力的用户 头羊 头羊 头羊 注:头羊,即通过社交网络分析,发现的高影响力用户 11 AT&T:网络规划和动态优化 NTT Docomo:与Omron合作健康大数据 13 Orange:智慧城市交通优化 阿比让公共交通 西非国家科迪瓦特的首都 有539辆大型公交车,5000辆小型公交车,11000辆出租车 挑战 数据量大: Orange提供了阿比让500万手机用户2011年12月到2012年4月的 2.5亿条通话记录,以及地图应用程序获取的拥有GPS功能智能手机用户的位 置数据 解决方案 IBM建立AllAboard模型,基于orange提供的数据,查询出与乘公交车上下 班有关的50多万条电话记录,并对此进行研究 用大数据来进行 利用orange提供的手机数据来优化阿比让的城市交通网络 取得的收益 做出了优化城市交通系统的科学决策,新增两条线路,延长现有的一条线路 为乘客节省了10%的出行时间 当呼叫所在基站发生变化时, 即可被定位于新的位置,用 户的移动轨迹以及相应的时 间信息即可描绘出来。 当用户使用手机 通话或发短信时, 即可被定位于某 个基站覆盖范围 内的确定位置; 2 1 Telefonica:Smart Step 数据源:基于完全匿名和聚合的O2移动 网络数据。 处理平台:Smart Step本身就是 Telefonica的大数据平台,整合VoIP、 社交网络等业务。 合作方:GFK的专业性确保其作为西班牙 电信进入市场的合作伙伴。在建立智慧足 迹的过程中,GFK保障为西班牙电信提供 独特的价值主张,使其客户更好地做重大 决策。 目标客户:政企客户。 如何使用:可对某个时段、地点人流量的 关键影响因素进行分析,将结果提供给政 企客户。 业务名称:智慧足迹(Smart Step) 业务简介 智慧足迹为TDI推出的首款产品,洞察结 果可为零售商新店设计和选址、设计促 销方式、与客户反馈等提供决策支撑帮 助零售商更好地理解和满足客户需求、 降低成本也可帮助市政委员会统计、预 测各种场景下的人流量。 智慧足迹现有产品与服务: - Smart Step & Retail Week Christmas Shopper Trends . - Smart Step & Retail Week Christmas Shopper Trends . 商务模式 Sprint:利用大数据参与市场调研和分析行业 Sprint 美国第三大运营商 挑战 传统通信业务价值收窄,行业内外竞争加剧,需要探索更多新兴业务 解决方案 利用现有技术,快速采集跨域及外部数据 为行业客户提供消费者和市场洞察(人口、行为等分析)、季节性分析(时间、 地域变化等) 用大数据来进行 结构化数据与非结构化相互作用:通话、账单、位置、数据等记录;SMS、SNS、 Web浏览、媒体下载、APP 估计的收益 参与数十亿美元市场调查和分析行业,拓展新业务机会,发展非通信市场 交通 零售 医疗保健 娱乐 金融 市场调研 服务 Verizon:Precision Marketing Division 规划产品 户外广告测量 帮助企业评估户外广告的效果 场所观众测量 提供在某场所参加活动的观众人口统计学信息及行 为习惯 零售点分析 提供零售点消费者人口统计学信息、行为习惯及购 买兴趣 媒体商产品 提供消费者消费偏好、行为规律、及接触到户外媒 体的消费者数量和频率 赞助商产品 进行事件分析,评估赞助效果 现有产品 Precision Marketing Division部门致力于提 供基于用户数据的精准营销解决方案 目标在于实现“电信行业大数据货币化”,变 现客户数据,开辟新的收入来源 用户数据 地理位置信息应用下载数据网络接入情况 人口统计学 信息 中国电信:移动广告 互联网广告实时交易平台(RTB) 事件:2013年12月,中国电信与集奥聚合共同打造服务中国互联网行业的优 势DMP平台,致力于推动三屏融合,大数据分析与RTB广告业务 合作方式:中国电信集团拥有优势网络与数据资源,北京集奥聚合科技有限公 司拥有大数据领域先进的技术储备和丰富的广告运营经验 目标:提升运营商主营业务营销及精准广告投放效果 实例:2013年12月,国内首个电信运营商自主研发的RTB在浙江电信上线 整合电信内部各数据资源,以固网宽带数据为主,形 成统一的大数据平台,和众多DSP 1对N合作,由 DSP加载各自标签算法,电信对标签定价,DSP按每 月10万保底+分成合作,但据说分成部分几乎没兑现 过。 构建统一的DMP进行数据标签开放与管理。两级架构, 集团+(广东、上海、江苏)三个省份。 DMP数据开放两种形式:a)报表;b)基于用户级 的标签(面向DSP)。 初期聚焦传统家庭宽带互联网,同时规划移动互联网。 18 艾瑞咨询:数据咨询与服务 艾瑞公司作为知名咨询公司,建立了大数据部门,基于运营商等数 据开发了大数据魔方产品,面向行业客户售卖BI报告。 魔方能够为企业提供自行查询了解市场动态,进行品牌分析,产品 分析,消费者分析以及营销效果分析的数据查询平台。为企业在商 业活动和决策时提供充分的依据和市场洞察。 目前在与几个省电信公司合作,采用按报告售价进行对半分成。 小结 规划、设计/计算、分析 平台建设运营 分析即服务云计算 数据规划 数字化产品服务/新商业模式 数字化产品服务新商业模式 Apps外部合作 以数据分析能力与数据思维为核心, 对外提供数据咨询、规划、建设、 分析等服务, 以开放共享数据价值链为核心,推进数 字化转型, 连接社会化的生活与工作, 深入挖掘数据价值,开发新的数据化产 品与服务,创新商业模式,实现数字化、 社会化运营 大数据分析服务数字化社会洞察 对外 核 心 应 用 网络规划、优化用户体验/细分/营服降本增效/风险控制 网络规划覆盖优化 容量优化网络控制 质量监控可视化 用户细分用户属性 营销推荐精准广告 产品优化服务优化 供应链信用管理 欺诈风险收入保障 科学决策流程优化 以网络数据为核心,结 合用户身份、位置等用 户数据进行分析,关注 网络动态调整 以用户数据为核心,连 接部分外部数据,识别 用户及其行为特征,深 入洞察用户,动态针对 用户与业务优化 以内部运营数据为中心, 深入挖掘数据规律,降 本增效、防控风险,实 现高效运营。 网络洞察用户洞察运营洞察 对内 数 据 来 源 20 大数据创新对运营商的意义 外部数据源 大数据影响的领域 缩减成本创新商务模式提高工作效率增加收入 企业内部面向市场 服务 网络 HR财务客户服务 产品 客户可见度 低 高 运营商个人/企业对外合作 界面 O域M域B域 21 业务趋势与数据特征 大数据应用案例 典型的大数据平台架构 一些思考和观点 电信运营商大数据 应用和架构实践 22 大数据技术分类图 计算 框架 Spark 存取 框架 Hadoop的 MapReduce 流处理 数据 组织 形式 RDBMS 中的MPP NoSQL 数据 存储 形式 内存磁盘 对象文件 Hadoop 优点 处理各种结构的数据 灵活的处理方式,通过Java编写MR框架 易于扩展、伸缩,达到3000节点以上 (因其非对等节点模型设计) 缺点(对原生解决方案而言) 对灵活的查询的支持和响应速度 流水线操作优化 Map和Reduce大量数据交换问题 Hadoop,包括HDFS和其上的MR,被认为是解决大数据中 必不可少的一项技术和产品。它能轻易实现各种批量数据处理, 而且因为其设计的简化,能轻易分布到海量的X86服务器上, 2000、3000节点的Hadoop场景是较为常见的。 Spark SPARK是UC 伯克利大学AMP Labs开发的新的分布式计 算协议栈(BDAS)的计算系统,它充分利用内存,因此 运行快;它释放了更多的API,因此编写简单(Scala语 言)。它很可能在将来替代Hadoop中的MapReduce。 优点 软定义的灵活计算架构,支持Map、 Reduce以及诸多的算子,足够替换 MapReduce 充分使用内存而不是磁盘(摩尔定律) 延迟执行以对DAG全局优化,流水线优化 Scala语言简洁,开发简单 缺点 软件成熟度 学习曲线 流处理(Stream) 优点 基本内存处理,速度快 可并行,可扩展 编程方式灵活,可以处理复杂结构数据 缺点 不保证事务完整 难以处理某些大数据类型,比如需要查表之 类的 其他技术在处理时效性方面都无法达到实时或准实时的地步, 但是在某些场景,比如算法交易、欺诈检测、实时营销等方 面,需要从大量的信息中及时发现潜在模式,这种情况下, 就要使用流处理的技术Stream。 Lambda架构提供了一个流处理和批处理联合的最佳实践。 26 MPP DB 优点 接口友好,支持度高,兼容性强 可以处理复杂的查询 查询响应时间快 缺点(对原生解决方案而言) 只能处理结构化数据 高并发查询和操作困难 由于其Hash数据分布方式、对数据的保存、 并发等精妙的设计方式限定了可扩展性。 通常没有经过专门优化的话限定在100节点 之下。 2004年以后出现了一些新型的MPP DB,例如Green Plum、 Vertica、Aster Data等。它们借鉴云计算的成功,设计为部署在 低成本的X86通用硬件上,通过副本的方式保证高可用。由于其 share nothing架构以及SQL接口均为成熟技术,轻易获得了大量 厂商和工具的支持。 节点1节点2节点3 本节点存储 备份节点存储 本节点存储 备份节点存储 本节点存储 备份节点存储 本节点存储 备份节点存储 以太网交换机 CPU MEM CPU MEM CPU MEM CPU MEM 27 NoSQL 优点 有多种类型:键值、文档、列式和图,适 应不同的应用环境。 为少量大并发数据写入和读出优化 数据模式可以灵活变更 可扩展性强 缺点(对原生解决方案而言) 与应用深度耦合,高度定制化,对应用要 求较高 接口一般为私有 随着互联网web2.0网站的兴起,传统的关系数据库在应付web2.0网 站,特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显 得力不从心,而非关系型的数据库则由于其本身的特点得到了非常迅 速的发展。从总体上来说,它们都是关系数据库的裁剪,不保证ACID 特性,不提供复杂的数据查询,都支持动态的表设计、高可扩展性和 高吞吐率。 28 内存数据库 偏重于事务处理 优点 低延时数据读写 高吞吐率 缺点 成本 数据持久化 学习曲线 内存数据库将所有数据都存于内存,提供极快的存储速度和极强的 并发访问能力,可以满足流处理快速访问数据的需求,用于状态和 规则的存储。 内存数据库有两种类型,一种是DBMS,代表有TT、Solid DB、 HANA、MEMSQL、VoltDB;一种是NoSQL,代表有 MemCached、Redis。 节点1节点2节点3 读 表1 分区1 写 表1 分区1 读 表1 分区2 写 表1 分区2 读 表2 分区1 写 表1 分区1 读 表2 分区2 写 表2 分区2 数据路由 CPU Disk CPU Disk CPU Disk CPU Disk 29 大数据技术小结 各种技术在迅速发展,没有必要僵化架构。 无论是在计算还是在存取领域,混合采用多种技术 是最能实现高效低成本的方式,但是为了降低应用 使用的难度、缩短部署时间、提升运维效率,有必 要将这些大数据技术资源以云计算的方式提供。 构建大数据开放平台 数据平台(资源线) 平台维护和能力开 放 基础数据获取和共 性加工 统一数据采集和共 性加工 大数据应用(应用线) 内部各业务线 外部数据产品业务 线 管理应用和管理资源具有不同的成本结构 和绩效导向,宜进行分工。 大数据开放平台将大数据资源(数据和技 术)像云一样对外提供。 大数据开放平台的逻辑架构 1.通过“虚拟化”使得各大数据平台具备 多租户能力 Hadoop的虚拟化Yarn、Mesos资源管理框架 流处理的虚拟化Storm on Yarn NoSQL的虚拟化H
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年滁州市机械工业学校公开引进教育紧缺人才8人模拟试卷及答案详解(新)
- 2025广东广州中山大学孙逸仙纪念医院博士后招聘考前自测高频考点模拟试题及答案详解(易错题)
- 2025黑龙江省设计集团有限公司面向社会及校园招聘财务人员2人笔试历年参考题库附带答案详解
- 2025陕西西安市建筑设计研究院有限公司3月招聘笔试历年参考题库附带答案详解
- 2025陕西延长石油物流集团有限公司包装制品分公司人员招聘32人笔试历年参考题库附带答案详解
- 2025重庆对外贸易进口有限公司招聘2人笔试历年参考题库附带答案详解
- 2025贵州民航产业集团有限公司社会招聘笔试历年参考题库附带答案详解
- 2025贵州六盘水鑫贵仁产业投资服务有限公司面向社会招聘3人笔试历年参考题库附带答案详解
- 2025福建省青山纸业股份有限公司招聘43人笔试历年参考题库附带答案详解
- 2025福建省人力资源发展集团有限公司邵武分公司招聘212人笔试历年参考题库附带答案详解
- 2025至2030中国大宗物资供应链行业发展趋势分析与未来投资战略咨询研究报告
- 胰岛素储存知识培训课件
- 福建省2025-2026学年福州市高三年级第一次质量检测英语
- 道字的演变课件
- GB 46039-2025混凝土外加剂安全技术规范
- 2025至2030年中国卡丁车俱乐部行业市场调研分析及投资战略咨询报告
- 加油站职业健康危害因素分析
- 辽宁省沈阳市2025届高考语文模拟试卷(含答案)
- 公路统计管理办法
- 危重症患者的疼痛管理
- 电力建设安全规程2025新版
评论
0/150
提交评论