




已阅读5页,还剩59页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与云计算 信息技术发展的新纪元 12 31 2019 1 大纲 大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例 12 31 2019 2 什么是大数据 对数据的使用者来讲 如果数据集超出了使用者所拥有的信息处理和分析的能力 就给使用者带来了大数据问题 12 31 2019 3 大数据V特征 Volume数据规模大 Velocity数据变化数据快 Variety数据属性复杂 Value价值 大数据的特点并不只是数据规模大 12 31 2019 4 数据的量呈现指数增长2009年至2020年将增加44倍数据的体量从0 8zettabytes增加到35ZB 生成和采集的数据将按指数增长 根据麦肯锡预计美国超过1000雇员的公司 平均每个公司存有200TB的数据 很多行业的公司 如银行 电讯 互联网 政府部门等 平均存储的数据超过1个PB 12 31 2019 5 大数据的多样性Variety 不同的数据格式 数据类型和数据结构文本 数字 图像 音频 视频 时间序列 社会媒体数据 高维矩阵数据等静态数据vs 流数据同一个应用可以生成和采集不同类型的数据 为了提取知识 尽可能多地综合不同类型的相关数据 12 31 2019 6 大数据的速度Velocity 数据的采集速度的加快导致处理时间都需要有相应的提高在线数据分析 OnlineDataAnalytics 决策的延误 商机的消失实例网上营销 E Promotions 基于用户当前的位置和过往的交易数据预测用户的喜好 在合适的时间和地点发送用户感兴趣的产品和店铺健康监控 Healthcaremonitoring 利用穿戴式的传感器监控用户的生理和活动数据 及时提供需要的医疗服务 12 31 2019 7 大数据的价值 Value 未来大数据的产业规模将会至少以万亿美元来进行衡量 大数据将会给信息技术领域带来一个新的增长点 美国医疗保健每年产值达3000亿美金每年生产率增长约0 7 制造业最多可节省50 的产品研发 组装成本最多可节约7 的营运资金 美国零售业净利率增长可能高达60 每年生产率增长0 5 1 0 欧洲公共部门管理每年2500亿欧元每年生产率增长约0 7 全球个人定位数据1000亿 的服务供应商收入为终端用户带来高达7000亿美的价值 12 31 2019 8 大数据的产生 数据的发展和创新将不再是如何生成和采集数据具备对采集的数据进行管理 分析 总结 可视化展示和知识发现的能力已经成为新的挑战 社会媒体网络 每个人都在产生数据 科学仪器 采集不同类型的数据 移动终端 个人地理信息数据 传感器网络 测量不同类型的数据 12 31 2019 9 大数据的技术挑战 存储 分布式 低成本传输 能力 成本处理 集成 融合 处理分析 能力 效率挖掘 方法 能力 技术 平台应用能耗 12 31 2019 10 互联网与电讯行业需求 某互联网公司100多在线游戏 4亿在线游戏用户在线系统记录每个游戏用户在线玩游戏的详细数据 包括游戏 时间 动作 结果等 TB级数据分析需求 用户行分类与预测 用户行为客户群划分用户挽留 用户奖励和级别提升某电信公司深度包检测 DPI 大数据分析 研究客户互联网行为模型 流量分析 数据套餐设计百万人口城市 每天数据量TB级 12 31 2019 11 云计算 云计算是一种新的大规模分布式计算模式通过网络和资源虚拟技术 实现计算及存储资源集中管理 面向用户提供服务云计算可以解决目前计算机使用的诸多问题 是计算技术发展的一个新的里程碑 2019 12 31 12 云计算的五个基本特征 按需自助服务 On demandself service 广泛的网络接入 Broadnetworkaccess 资源池 Resourcepooling 快速弹性化 Rapidelasticity 可度量的服务 MeasuredService 2019 12 31 13 云环境 ACloud 云指的是一个遥远的计算环境 这个环境是用来为计算环境外的用户提供可扩展和可度量的计算资源 用户可能不知道具体的云环境在哪里 如用户在深圳 云环境可能在内蒙古 2019 12 31 14 云环境的计算资源 物理服务器 CPU 内存 外存 磁盘 磁带 虚拟服务器 CPU 内存 外存软件服务 应用 2019 12 31 15 物理服务器 虚拟服务器 软件 服务 虚拟化是云计算的核心技术 虚拟化技术可以将一个物理服务器当作多个虚拟服务器使用 多个用户共享物理服务器的资源 但用户对虚拟服务器的体验是独立的计算机 用户不需要了解物理服务器虚拟服务器的运行由物理服务器统一管理和维护 虚拟机用户不需要维护 当某虚拟机用户需求变化时 物理服务器的资源可以自动扩展 2019 12 31 16 弹性化和可扩展性 弹性化是云计算的重要特征 计算资源弹性化可以使云环境的计算能力随着用户需求变化而增加或减少 水平扩展向外扩展Scaleout 增加资源向内收缩Scalein 减少资源垂直扩展向上扩展Scaleup 提升CPU和内存向下收缩Scaledown 降低CPU和内存 2019 12 31 17 云服务器 面向服务ServiceOrientation 云计算的独特特征是服务导向或面向服务 就是将计算和存储资源作为服务供用户使用服务的收费方式是谁使用谁付钱 例如 付使用存储服务的费用付使用CPU的费用付使用数据库软件的费用用户不拥有这些资源 因此不需维护它们 2019 12 31 18 云计算的三种基本服务模式 云设施服务CloudInfrastructureasaService IaaS 云平台服务CloudPlatformasaService PaaS 软件作为服务CloudSoftwareasaService SaaS 2019 12 31 19 云计算架构CloudArchitecture 2019 12 31 20 虚拟化 计算服务ComputingService 存储服务StorageService DBMS MapReduce GoogleAppEngine CRM ERP CAD CAM POS WindowsAzure InfrastructureasaService IaaS PlatformasaService PaaS SoftwareasaService SaaS 物理资源 云服务应用的部署模型 公有云Publiccloud私有云Privatecloud社区云Communitycloud混合云Hybridcloud 2019 12 31 21 大纲 大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例 12 31 2019 22 挑战性的技术问题 数据融合 fusion 数据集成 integration 挑战 病人健康医疗数据 没有有效的数据集成就不能进行有效的综合数据分析 12 31 2019 23 挑战性的科学问题 成千上万个属性超高维问题 百万以上甚至超亿个记录 混合数据类型缺省值 噪声相关性问题UnbalanceSubspacepropertyUninformativeness 1 2 n n 1 n 2 n 3 n 4 f1 f2 f3 f4 f5 大数据集的挑战 BigDataMatrix 12 31 2019 24 超高维数据聚类算法研究 对属性变量做分组归并 产生组变量对组变量和属性变量分层加权重扩展软子空间聚类算法EWKM 在聚类过程中自动计算组变量权重值和属性变量权重值最后得到以组变量为主的子空间聚类结果 组变量相当于在高空看数据 大轮廓清晰属性变量相当于在低空看数据 细节清晰 组变量 属性变量 12 31 2019 25 SRF 基于MapReduce大数据随机森林算法 Layer 宽度优先 大规模分层建树策略 12 31 2019 26 大数据随机森林算法研究成果 属性加权抽样随机森林算法 用于超高维数据分类 平均精度提高20 与澳大利亚联邦税务总局数据挖掘首席科学家GrahamWilliams合作 将随机森林算法用于ATO缴税分类建模 分布式高可扩展随机森林分类算法 实现了对千万个客户记录 千个变量 100GB规模数据的建模能力 将分布式随机森林算法发布到国际著名的统计分析平台R系统上 扩大国际影响力 研究成果国际化推广 研究成果国际化应用 随机森林模型并行化实现 属性加权抽样随机森林模型 12 31 2019 27 云计算与大数据分析 数据挖掘是从数据中发现知识的方法和过程 是解决各种科学和应用问题的重要手段由于数据的快速增长 传统的数据挖掘技术和软件正面临极大的瓶颈银行 人民银行征信系统收录了自然人6 4亿人的信贷记录金融 南方基金公司有近1000万客户资料需要分析电讯 广东中国移动每天产生2TB通话记录数据零售 Wal Mart每天产生2 6亿个交易记录 其数据中心存储4PB的交易数据互联网 Amazon有5900万活跃客户 超过42TB的客户数据 2019 12 31 28 云计算的优点是处理海量数据的能力 为大数据挖掘提供了新的计算平台 云计算海量数据处理的核心技术 2019 12 31 29 MapReduce编程模型 主节点 节点 节点 节点 节点 节点 用户编程 文件 文件 文件 文件 文件 输出 输出 文件划分 Map运算 Reduce运算 结果输出 程序写成Map和Reduce两步运算1 Map统计单个文本词频2 Reduce综合所有文本的词频 Map Reduce 12 31 2019 30 MapReduce管道式运算 2019 12 31 31 基于云计算的大数据分析平台 区域智能数据中心 区域智能数据中心 支持多种终端访问 以区域性智能数据中心及高速互联网为基础设施以互联网服务体系为架构以大数据存储 处理 挖掘和交互式可视化分析等关键技术为支撑通过多样化移动智能终端及移动互联网为用户提供数据存储 管理及分析服务 12 31 2019 32 关键技术 云计算引擎 高性能海量数据挖掘算法库 工作流引擎 支撑海量数据处理 挖掘与分析运算 提供海量复杂数据处理 分析与挖掘高可扩展算法 数据处理分析流程图形化设计数据处理分析流程自动执行资源调度及优化 OpenAPI 提供数据挖掘平台与第三方应用系统的扩展接口 支撑海量数据存储与管理 云存储 大数据分析平台 12 31 2019 34 云计算大数据挖掘平台 110台服务器 840CPU核 550TB存储容量 构建云计算大数据挖掘平台 具备TB级数据存储 处理与分析能力 为大数据挖掘技术与系统开发和测试提供实验支撑环境 数据库 MySQL5 0商用版云存储 Hadoop Casendral数据挖掘软件 Alphaminer R 平台规模 软件环境 平台功能 大数据云存储与管理分布式并行数据挖掘任务执行可视化数据分析执行引擎 12 31 2019 35 云计算数据挖掘算法库 基于MapReduce模型 实现了11个常用数据挖掘算法分布式并行化 部分算法的测试性能已达到TB级数据的处理能力 K Means算法性能数据规模 1TB 1千万条数据 1万维执行效率 初始10个聚类中心 一次迭代时间约30分钟 RandomForests算法性能数据规模 110GB 1千万条数据 1千维执行效率 建立20棵树约36分钟 针对传统数据挖掘算法不能处理大数据的挑战 开发基于云计算的高可扩展并行数据挖掘算法库 突破TB级数据处理瓶颈 12 31 2019 36 大数据处理流程 医保数据案例 1型糖尿病性神经炎 原始记录 糖尿病性神经炎 ICD国际疾病分类标准 内分泌 营养和代谢疾病 ICD国际疾病分类标准 疾病匹配 疾病分类 疾病分类 12 31 2019 37 在线数据分析 通过仪表盘图形化的KPI指标支持全局的运营表现和局部细节的钻取分析快速了解业务运营的各项指标实施获取告警信息定制化的应用开发 12 31 2019 38 移动终端上的商务智能 分析平台系统框架 基于浏览器的BI分析平台 基于智能移动终端的BI分析平台 12 31 2019 39 海量数据可视化 12 31 2019 40 大数据分析与挖掘平台 智能数据中心 基于WEB的数据分析流程设计工具 基于WEBD数据管理工具 12 31 2019 41 创新点 与搜索引擎区别 大数据分析平台 搜索引擎 12 31 2019 42 创新点 与云服务区别 云服务平台 大数据分析平台 12 31 2019 43 创新点 与传统BI区别 传统BI 大数据分析平台 12 31 2019 44 大纲 大数据与云计算云计算大数据平台与技术创新大数据平台产业化与应用案例 12 31 2019 45 大数据信息服务产业链 金融 传统应用领域 新型应用领域 互联网 制造 零售 通信 12 31 2019 46 大数据信息服务业的机遇 大数据是新兴技术和战略性产业 各国都处在同一起跑线 原始创新机遇大 我国数据资源丰富 应用需求巨大 有条件实现跨越性发展 走在世界前列 12 31 2019 47 大数据分析平台产业化 技术及产业化优势 降低企业应用成本 技术积累和专业化服务 培育新的大数据分析和信息服务产业 孵化面向不同行业的专业咨询公司 大数据分析公司和信息服务公司 12 31 2019 48 电信大数据分析案例 12 31 2019 49 MBB数据及预处理 MBB MobileBroadband 数据通过移动互联网访问网络的日志数据 该数据为运行商的原始数据 2进制编码 有标准的协议 需要根据协议进行解码 规模大 一个中等规模的城市每天产生数TB的MBB数据MBB数据预处理根据MBB数据协议进行解码 一般由设备供应商提供 解码后得到的数据payload字段是二进制编码 其他字段都是文本 Payload是应用程序在互联网上的传输协议 每个协议都有具体的格式 对该部分内容的解析叫做DPI DeepPacketInspection 12 31 2019 50 MBB数据格式 小部分属性 12 31 2019 51 MBB数据重要字段解释 12 31 2019 52 用户上网位置和行为分析 抽象数据模型 U L A U IMEI和IMSI共同标示一个用户L 通过小区编号cell id标识A 通过详情detail id作为用户的行为标识 12 31 2019 53 用户上网位置和行为分析 续1 Locationgroups Actiongroups 12 31 2019 54
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 法治思想面试题及答案
- 护士交班考试题及答案
- 乡镇副职面试题及答案
- 预防感冒面试题及答案
- 恐惧死亡测试题及答案
- 家电公司法律事务管理办法
- 家电公司声誉风险管理规定
- 2.4圆周角(第1课时圆周角定理)(教学课件)数学苏科版九年级上册
- 保安执勤装备使用课件
- 保安岗位知识培训课件
- GB/T 13477.17-2017建筑密封材料试验方法第17部分:弹性恢复率的测定
- 送达地址确认书(完整版)
- 四川滑雪场商业综合体设计方案文本含个方案 知名设计院
- 日立电梯常用零配件价格清单
- 单位人事证明(共7篇)
- 水泵设备单机试运转记录
- 保密管理-公司涉密人员保密自查表
- 日常安全检查记录
- 速成意大利语(上)
- 压型钢板组合楼板设计计算表格
- Q∕SY 1535-2012 海底管道混凝土配重层技术规范
评论
0/150
提交评论