




已阅读5页,还剩54页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
量变到质变大数据与大数据技术 虞强2016 10 议程 公司简介大数据与大数据技术大数据技术应用大数据案例分享问题讨论 2 2020 3 20 公司简介 公司概况 发展历史主要客户 大数据产品 3 2020 3 20 新加坡 上海 北京 公司概况 青岛 雅加达 专注于分析预测与行业应用的的大数据公司 深圳 业务1 业务2 业务3 提供基于大数据技术的预测性分析及商务智能解决方案 大数据平台 数据集成与准备工具 开源开发技术自助式分析工具 数据可视化工具 提供全球顶尖的大数据软件产品 300 技术服务人员端到端的大数据平台数据集成 数据挖掘与预测性分析 高级分析企业级大数据仓库 企业绩效管理 商务智能 大数据SaaS应用和DaaS服务 基于云平台的软件即服务大数据应用为企业提供全面的数据服务 4 2020 3 20 发展历史 2005 2007 2011 2002 14年来 我们与数俱进 5 2020 3 20 汽车制造 电子产品及家电 快消零售 医药与生命科学 航空与物流 高科技制造业 金融及其他 主要客户 6 2020 3 20 云 以Hadoop为核心的大数据产品系列 数据集成与准备 SQLonHadoop Texthere 流计算 机器学习 开源开发技术 数据挖掘 以Hadoop为核心的大数据产品 大数据软件产品 Statistica 数据可视化 Vortex 7 2020 3 20 数据 创新 经验 融合 拥有多元化的数据科学家团队和十余年的数据分析经验 经十余年自主开发的IP打造数据行业领先的技术优势 追踪吸收和引进行业内最先进的技术 产品和应用经验 世界顶尖数据技术公司在中国地区的首选合作伙伴 在一大批竞争行业 汽车 制药 快消 家电 物流等 内拥有深厚的客户基础和众多行业成功案例 追求行业业务能力和技术能力的融合以及企业系统架构与解决业务问题间的平衡 具有扎实的项目实施能力 HEADLINE 竞争优势 8 2020 3 20 大数据与大数据技术 9 2020 3 20 Hadoop技术的发展 物联网应用需要将Hadoop变为一个高性能的分析平台需要Hadoop不光能存储数据 更要能够处理计算数据 10 2020 3 20 SQL分析 挖掘预测 图形化数据分析 智能搜索 时间 用户 地理位置 事件等标签 辅助技术 Kafka HBase Cassandra Accumulo 基于大数据技术的数据分析处理 Hadoop核心层 数据准备 11 2020 3 20 技术更迭过快开源产品成熟度开发效率与现有架构的关系运维与安全 大数据技术的顾虑 大数据平台计算框架 传统数仓功能 非结构化流式挖掘分析 软件架构 举例 DATAPLATFORM HDFS 灵活数据准备 SQLinHadoop 数据挖掘与预测 前端应用 报表 外部应用 下游系统 管理控制台 CloudEra Talend KNIME 数据安全以及认证 Portal集成 用工具取代代码作坊 同时处理实时与批次 流式处理 批次处理 转换 清洗 治理 转换 清洗 治理 推荐引擎SparkStreaming Kafka Spark 数据库 文件 批次数据 实时 流数据 HDFS文件 数据流输出 基于用户数据理解地模型预测 图形化数据准备挖掘运用SparkMlib等进行计算结果回写入Impala或者HIVE 非结构化数据为存储的新型SQL 基于落地HDFS的文件或HBASE进行SQL建表解析提供工业MPP级别查询性能线性可扩展标准JDBCSQL界面 直连BO Tableau Qlikview MSTR等报表工具 技术方案 特点小结 基于开源系统的成熟商用插件方案部署简便提高开发效率降低实施风险基于内存的计算性能优异全部基于唯一Hadoop集群内 统一存储统一计算减少数据传输迁移的同步问题维护便捷 一套集群 维护简单扩展性 无限扩展线性提升便捷的开发及报表展现工具图形化ETL 数据挖掘开发便捷报表展现分析工具建模过程100 用户参与IT基础架构与用户数据准备 探查 分析 预测分离 19 2020 3 20 大数据团队组织建设 数据与业务的结合 大数据开发团队 技术平台支持 业务人员 咨询团队 内部团队与专业伙伴紧密合作 Evan 数据科学家 20 2020 3 20 大数据技术应用 21 2020 3 20 InternetofCustomersandInternetofThings 22 2020 3 20 BigDataonIoT IoT解决方案 本质是基于 信息物理系统 实现 智能化 二 工业4 0时代的智能制造 IoT的本质 25 2020 3 20 二 工业4 0时代的智能制造 IoT 智能工厂 26 2020 3 20 BigDataonIoC 360CustomerProfileMicro SegmentationCustomerLifetimeValueNextBestActionCustomerSentimentCampaignOptimizationChurnMarketBasketAnalysis CRM账户信息及客户特征 EDW交易历史 社交媒体关键字 SalesLift 20 60 100 n 购买周期趋势 购买家庭信息 购买人口特征 第一阶段 客户画像 数据流引擎 人口分布 客户倾向 HADOOP集群 YARN 数据库分析 查询可视化报表分析工具及应用 集成服务器 BI服务器 数据库集群 服务器 消费心理 第一阶段 数据混合与浓缩 集成引擎 ACTIAN分析平台 CRM账户信息及客户特征 EDW交易历史 社交媒体关键字 购买周期趋势 购买家庭信息 购买人口特征 客户画像参考架构 360度客户视图 30 2020 3 20 案例分享 车联网大数据应用 31 2020 3 20 项目背景 围绕车辆全生命周期 数据驱动的车联网与跨行业融合 可衍生出多样的商业模式与创新服务 基于丰富的车联数据 多样的服务平台 可对行业 社会热点展开洞见分析 同时挖掘更多的商业价值 拓展新的业务 安吉星大数据项目目标与当前的问题 目标 主数据 数据质量 的升级主题模型落地 保持数据一致性提高运维的灵活性应用数据缓存的改造用空间换时间的方法保护后台核心应用的正常运行企业经营分析的改造提高运营速度和质量 降低数据开发成本新业务的支持驾驶行为分析燃油分析二手车评估车况鉴定报告 问题 缺少数据主题重复开发和浪费成本数据质量不可控数据缺少管控BI开发成本高 周期长缺少业务分析平台车辆数据采集能力有限业务数据无法有效支持 大数据平台逻辑架构 报表 可视化 数据集成区 批量数据处理 实时消息队列 数据湖泊区 机器学习区 NoSQL区 流计算区 数据暂存区 数据仓库区 主题分析区 Mobile DAAP Vehicle LVDS TrafficProbe HA HB OVD ACR 其它数据源 其它数据源 系统管理 数据管理 搜索引擎区 数据交换区 数据源 车辆行驶日志 车辆行驶日志 急加速 加速日志 车载系统日志 实时数据计算 36 驾驶行为评分 37 驾驶行为评分 阈值计算 通过机器学习算法 实时的将所有用户数据代入驾驶风险概率模型 动态计算相关阈值Setresponsevariable uncomfortablemaneuverSetpredictorvariable acceleration speed turnsCalculatethescore 38 驾驶行为评分 用车轨迹 用户画像 When何时Where何地Who是谁What做什么 上班族Commuter 商务人士BizMan 家庭主妇Housewife 夜晚活动族NightOwls 40 用车轨迹 交叉销售 售后维修保养机会点OpportunitiesforA SMaintenance 新车销售机会点OpportunitiesforNewCarSales MaintenanceOpportunities 41 车况报告 车况报告 案例分享 智能生产预测 44 2020 3 20 项目背景 项目背景随着业务的不断发展 生产线不断扩张 不同生产线 不同机台 不同工序所产生的玻璃面板坏点数量参差不起 良品率总体呈现下降趋势 为了提高玻璃面板的良品率 不断优化工艺流程 提升产品质量 决定建立数据分析平台 来预测坏点产生跟生产流程上的哪些因素有关 来做有正对性的改进 项目实施收集生产Glass过程当中所有相关的因子信息 通过Dataflow工具对品质异常的玻璃数据进行regression correlation挖掘算法分析 计算各因子与产品异常之间的影响关系 同时针对正常品质玻璃也做因子分析 计算得出正常品质下各因子的正常范围值 从而可以快速判定超出范围的为异常值 品质异常因子分析 抽取源系统数据并通过数据的业务逻辑进行数据关联进行数据准备 然后通过数据挖掘算法进行correlation regression两类数据挖掘 并将挖掘结果写到HDFS文件系统中 46 2020 3 20 通过针对defect count recipe TC C1 EV因子 经过regression算法 从测试数据中挖掘出defect count预测数据 数据分析过程 通过针对不同Product ID下 defect count因子和TC PRESSS TC IP1 PRESS TC IP2 PRESS 车台温度等因子 经过correlation算法 从测试数据中挖掘出相关性数据 注 挖掘数据位于测试中转机I To Andy correlation txt I To Andy regression txt 47 2020 3 20 关联预测准确度 越靠近中线 预测偏差越小 48 2020 3 20 线性回归分析 异常点部分需要进一步分析 49 2020 3 20 分析结果 50 2020 3 20 案例分享 传统数仓转大数据 51 2020 3 20 项目背景 使用传统的标准数仓建模 分ODS DW DM及DMAETL主要通过存储过程实现存储过程数据加工较多的使用临时表 中间表使用传统交易型DBMSORACLE作为数据仓库平台前端通过刷CUBE提升报表查询速度支撑报表数量 目前150左右每日增量更新时长 1 00 12 50 52 2020 3 20 存在的问题 数据冗余比较严重 临时表 中间表使用过多 对内存及磁盘IO压力较大 层与层之间调度依赖严格 数据加工性能不足 数据查询性能不足 高并发查询性能下降严重 53 2020 3 20 并发的计算架构 54 SQL JDBC ODBC Net JAVA C API 加载入分布式存储 SQLonHadoop 加载入SQLinHadoop Source CDHCluster HadoopETL 分布式内存数据整合 CDHNodes Cloudera sdistributiongincludingApacheHadoop HadoopETLrunsnativelyoneverynode SQLonHadoop SQLonHadoop 基于标准SQL或者API界面输出 54 2020 3 20 新架构解决的问题 数据冗余比较严重 临时表 中间表使用过多 对内存及磁盘IO压力较大 层与层之间调度依赖严格 数据加工性能不足 数据查询性能不足 高并发查询性能下降严重 Dataflow流式加工数据 只将结果集回写数据库 大大避免减少数据冗余 Dataflow中流式加工数据 可以不用临时表 节约大
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 定安工程潜水铺设方案(3篇)
- 牵牛花的种植课件
- 临床不需要编码手术操作定义及编码规则
- 安全教育平台使用培训会课件
- 山东省济南市2025年中考物理真题附真题答案
- 农业可持续发展与现代种业创新基地建设项目可行性研究报告
- 职工劳动合同样板范本
- 上托管协议的法律要素
- 新能源产业绿色升级:2025年技术创新与环保责任路径报告
- 汽车行业供应链风险管理案例解析与韧性保障报告
- 体格检查(心肺)
- 《品质稽核技巧培训》课件
- 《鸿蒙智能互联设备开发(微课版)》全套教学课件
- 企业员工健康管理实施方案
- 小学科学大象版四年级上册全册教案(共27课)(2022秋季)
- 2024-2030年中国集成智能功率模块(IPM)行业深度调查与发展趋势研究研究报告
- 职业技术学校《药物分析检测技术》课程标准
- 苏教版(2024年新教材)七年级上册生物全册教案
- 自动售货机投放合作合同2024版
- 医院院感检查表格全套汇总
- 动漫手办制作课
评论
0/150
提交评论