




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据分析平台的应用,柯莱特大数据业务能力,2,大数据开发及运行环境 大数据日志分析系统 零售行业商业运营指标分析(BI) 智能供应链分析 个性化推荐系统 互联网金融征信,大数据平台架构图,HBase 列族数据库,HDFS 分布式文件系统,Hive 数据仓库,Pig分析工具,数据层,Storm内存流式计算框架,Hadoop MapReduce计算框架,Spark 并行计算框架,计算层,运营分析,日志分析,引擎层,Oracle,点击流,日志,其他 数据接口,MySQL,SQL Server,抽取层,分布式数据库,数据推送,数据库,Flume & Sqoop,序列化,配置管理,文件系统,分布式缓存
2、,ETL清洗,外部数据接口,结构化业务数据、机器数据,半结构化数据、机器数据,NoSQL数据库(图数据库),权限管理,任务管理,监控管理,数据管理,运维管理,运维管理,接口管理,可视化数据展现,个性化推荐,供应链分析,算法库,机器学习,互联网金融征信,第一步,数据抽取并存储,4,Oracle,点击流,日志,其他数据接口,MySQL,SQL Server,分布式数据库,Flume & Sqoop,序列化,ETL清洗,HDFS 分布式文件系统,结构化数据,半结构化 / 非结构化数据,结构化数据,通过两种途径抽取并存放到HDFS分布式文件系统中: 能够序列化的数据,直接存放到HDFS中; 不能够序列
3、化的数据,通过数据整理后统一存放在分布式数据库环境中,再经过序列化后再存放到HDFS中,经整理后还不能序列化的数据也直接存放到HDFS中;,半结构化和非结构化数据: 各种日志数据(通常序列化半结构化数据)直接存放到HDFS中; 点击流和数据接口中的数据(通常序列化半结构化数据)直接存放到HDFS中; 非结构化的数据直接存放到HDFS中;,NoSQL,数据处理,5,Oracle,MySQL,SQL Server,分布式数据库,Flume & Sqoop,ETL数据处理,结构化数据,数据处理要解决的问题: 重复的数据处理 缺失的数据处理 格式不统一的数据处理 检查数据逻辑错误 需要进行计算的数据处
4、理,数据处理包括数据清洗、数据转化、数据提取、数据计算等处理方法。 数据处理最基本的目的是从大量杂乱无章、难以理解的数据中,抽取并推导出对解决问题有价值、有意义的数据。,数据处理对收集到的数据进行加工整理,形成适合数据分析的样式,是数据分析前必须经历的过程。,数据清洗,数据转换,数据提取,数据计算,第二步,数据规划,6,HBase 列族数据库,HDFS 分布式文件系统,Pig分析工具,Hive数据仓库,数据层,NoSQL数据库,数据集市,Hadoop HDFS分布式文件系统中存放海量的结构化和半结构化数据,需要合理化组织数据的存储: 相关业务结构化数据和有一定格式关系的半结构化的数据存放在Ha
5、doop Hive数据仓库中,并根据业务需求,根据特定的业务主题进行数据集市的构建; 相关业务中半结构化的数据直接存放在HDFS分布式文件系统中,一定格式关系的半结构化数据存放在Hadoop HBase列族数据库中和其他NoSQL数据库中;,Hadoop Hive 数据仓库,电商业务运行指标 业务主题,数据集市,物品相关性分析 业务主题,第三步,大数据计算框架,7,Storm实时大数据分析:一个分布式的、容错的、实时的内存流式计算系统; Hadoop离线大数据分析:大数据离线批处理系统,大量离线数据计算MapReduce; Spark并行大数据计算:Hadoop MapReduce的通用的并行
6、计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。,适用于离线的大数据统计分析,适用于大数据并行计算、实时分析,针对查询分析的实时性和延时需求,可选择不同的大数据计算框架构建查询分析业务:,Storm内存流式计算框架,Hadoop MapReduce计算框架,Spark 并行计算框架,计算层,算法库,机器学习,第四步,大数据分析引擎,8,行业业务属性决定计算的逻辑,计算数学是实现计算逻辑的方法(利用数学领域的算法
7、和理论) 数据分析不仅仅指运算数据,还包括全面了解数据分析所处的背景和环境 数据分析结果可以保存在多种结构中 数据也可以在不同的分布式集群之间进行传输、复制、同步 数据分析结果可以通过多种展现形式(表格、各种展现图)进行数据展现,行业属性 + 算法 = 业务数据分析引擎(帮助用户自动化分析大数据) 基础设施数据引擎(机器数据引擎、日志数据引擎),运营分析,引擎层,数据推送,数据库,文件系统,分布式缓存,外部数据接口,可视化 数据展现,个性化推荐,供应链分析,互联网金融征信,日志分析,大数据产品,商城业务常见的分析方法,统计商城常规业务各个运营性指标。 商城BI分析,KPI制订和监控,通过商品、
8、用户信息、用户行为信息进行推荐算法建模,分析出用户潜在的购物需求。 商城的个性化推荐系统,提升转化率,收集各应用系统的运行日志,提供日志信息的实时告警、查询和统计分析。 应用系统及相关基础软件环境的智能监控,进行商品的销量预测和库存分析,进行商品的补货或内配调拨。 商城智能供应链分析,提高商城运营效率,采集个人或企业在互联网交易或各类服务数据,并结合线下渠道数据,进行信用评估的活动。 互联网金融信用评估系统,业务运营分析系统,数据支持商务决策,10,商城业务常见的分析方法,统计商城常规业务各个运营性指标,商城BI分析,KPI制订和监控。地方第三,业务运营分析的指标与价值,11,平均订单金额 =
9、 下单金额/下单单量 客单价 = 下单金额/下单客户数 客单量 = 下单单量/下单客户数 客户转化率 = 下单客户数/访客数 下单转化率 = 下单单量/访问次数 提交单量,统计时间内(按天、周、月统计)用户成功提交的总订单量,包括先款订单量(在线支付、公司转账、邮件汇款等)和先货订单量(货到付款、各类自提等)和未付款的订单。,销售额 = 访客数 * 转化率 * 客单价,提升商城的总收入主要考核的KPI公式。 当电子商务网站的老客户的比例比较高的时候,转化率比较高,所以提升老客户的活跃度是提升转化率从而增加整体收入的一个有效手段。,电商个性化推荐系统,比客户自己更了解客户,12,通过商品、用户信
10、息、用户行为信息进行推荐算法建模,分析出用户潜在的购物需求。商城的个性化推荐系统,提升转化率。,推荐系统,从推荐的形式来看,亚马逊把推荐服务应用到了网站的每一个角落,从首页到产品内页无所不至;而在推荐方法技术上,亚马逊也综合了多种类型的推荐服务,有的基于项目相似性和相关性,有的基于客户浏览和购买历史记录,也有的基于协同过滤等技术。亚马逊能够根据客户当前所查看页面的类型和内容、当前和之前关注的产品信息等内容动态地组合这些推荐服务。,推荐系统,根据不同客户的兴趣特点和消费行为,预测客户对某种产品感兴趣的程度,向客户推荐产品信息或提供个性化产品方案,引导客户购买。 帮助客户找到感兴趣的、愿意购买某样
11、产品的兴奋点,形成购买行为; 推荐系统的作用可以帮助建立客户忠诚度(可以更愿意买到最能满足需求的产品),为什么需要使用推荐系统?,因为需要提高转化率,需要消除长尾效应,推荐系统应用场景,电子商务的系统里,QQ、人人网的好友推荐; 金融领域 客户理财产品、保险产品推荐 公安里面的人口分析等等; 新浪微博的你可能感兴趣的人; 优酷电影推荐; 豆瓣的图书推荐; 大众点评的餐饮推荐; 世纪佳缘的相亲推荐; 天极网的职业推荐;,实体,实体,案例. 电商大数据精准营销,16,案例. 电商大数据精准营销,17,用户分群,案例. 电商大数据精准营销,18,性别:男 年龄:26-35 购买力:高 收入:8000
12、,需要:商务机 价位:4000 颜色:黑/红,用户画像,个性化搜索体系,个性化推荐体系,千人千面,情感分析,推荐系统的架构图,用户 行为日志,评分数据,电商UI,基于物品的协同过滤,Slope One过滤算法,用户冷启动,物品冷启动,缓存,最终推荐结果,TopN,推荐算法模型,用户 注册信息,物品 描述数据,订单数据,特征相关表,初始推荐结果,过滤,排名,推荐理由解释,大数据平台,智能供应链分析系统,信息时代的智慧供应链,20,进行商品的销量预测和库存分析,进行商品的补货或内配调拨。商城智能供应链分析,提高商城运营效率。,内配调拨,内配调拨,内配调拨(优选),内配调拨,补货,补货,补货,智能供
13、应链管理库存模型,21,一级库 RDC,供应商,供应商,一级库 RDC,二级库 RDC,二级库 RDC,二级库 RDC,前置库 FDC,二级库 RDC,二级库 RDC,二级库 RDC,前置库 FDC,前置库 FDC,补货和内配调拨 采购补货只能发生在一级库、二级库直接向供应商采购补库存: 供应商 - 一级库 供应商 - 二级库 内配调拨,一级库、二级库和前置库之间可以相互进行内配/调拨补货: 一级库 - 二级库 -前置库 一级库 - 前置库 注:前置库优先于主线上级二级库进行内配调拨,次选上级邻近二级库;,智能供应链管理,22,销量 预测,供应商,消费者,自动 补货,健康 库存,预知未来的营销
14、,保证现货率,直销商品处理,库存管理,买,卖,向谁买? 买什么? 怎么买?,定价? 做促销? 如何履约?,大数据驱动供应链,销量预测 建立模型,23,零星销量 汇总历史上层,持续增长 稳定线性回归,指数平滑,平稳季节性 季节性周期,短历史 移动加权平均,影响销量的因素: 影响因子:价格、流量、温度 各个模型的权重系数,同品类的商品可以用多种模型计算,再根据每种模型的权重进行加权均方差的计算,计算出最终销量预测,销量预测业务算法模型: 新品模型 保守模型 季节性模型 不动销模型 决策树模型 月均价格模型 市场需求回归模型 趋势跟随的价格模型 神经网络、机器学习、聚类模型 纳入促销计划的价格模型,
15、智能监控系统(统一日志),IT系统健康保障,24,收集各应用系统的运行日志,提供日志信息的实时告警、查询和统计分析。应用系统及相关基础软件环境的智能监控。,统一日志平台,25,统一日志平台Eon-LOG,是一款基于分布式架构及大数据分析技术的日志处理平台,实时收集和管理、转发、监控、分析各种海量机器日志数据。,Eon-LOG统一日志平台可收集、管理并分析IT基础设施、应用系统及服务产生的IT数据,利用统一日志平台与IT数据,可显著提高IT和公司的可视性和智能化。 为所有IT数据提供结构化和非结构化的大数据存储集群,提供大数据查询和统计分析算法,提供运维、商业决策支持服务。 采用分布式集群架构设
16、计,具有良好的横向扩展能力。转发中心、搜索统计、存储集群都使用分布式的集群架构,根据用户的需求增删集群节点,提供弹性可扩展、安全可靠的日志处理能力。 帮助用户提高IT服务管理水平,缩减运营成本,规避安全风险,为企业挖掘IT数据中最宝贵的信息,获得最有价值的商业前瞻性,是企业实现大数据平台并获得数据支撑的决策分析能力的第一步。 数据转发中心作为系统的海量数据高性能转发枢纽,支持PB级别数据存储和转发,可以将数据变为多份转发到多个平台。,统一日志平台,Eon-LOG,转发器,管理平台,统计,搜索引擎,HBase 集群,Hadoop集群,应用业务系统,日志采集器,日志采集器,日志采集器,业务系统 W
17、indows服务器,虚拟机,业务系统 Linux服务器,日志接收器,日志接收器,管理员,用户,订阅转发,订阅转发,MySQL 配置库,安全审计,Eon-LOG功能模块,日志采集器:日志采集器(支持Windows和Linux两个平台)直接安装在业务日志服务器,不依赖中间件处理,日志采集器记录日志文件已经采集的位置,失败了会重新发送失败的日志; 转发器:日志数据通过系统收集到达转发中心,转发中心会给每一个数据类型分配一个转发线程,对每个数据类型有最大流量限制,能够做到各个数据类型与转发独立,互不影响。转发中心支持多种转发策略,满足了不同应用接收和消费日志数据的需求,保证了数据的可靠性,防止了单独故
18、障; 日志接收器:日志数据在经过转发中心到达各个接收器,例如到达原始日志Hadoop集群、Hbase集群或云存储,用户拿到数据后根据自己的业务需要处理数据。日志数据通过Indexer模块,进行关键字匹配并且进行批量索引建立; 搜索集群:搜索集群是实时的对日志数据进行索引,支持海量数据的快速检索,能够通过管理配置中心的搜索页面搜索。对实时日志进行关键字告警(始终告警和实时告警),日志中设定的统计规则达到特定条件时进行告警; 统计模块:支持字段自动识别手工添加,支持业务应用自定义统计分析、跨业务应用的统计分析及日志系统自身统计分析。统计算法支持对数据类型(count、distinct、sum、av
19、erage)及字符类型(count、distinct)操作并以柱状图、饼状图、折线图方式展现; 安全审计:通过安全审计模块结合丰富的日志统计汇总及关联分析功能,实现企业内控对信息系统日志的全面审计; 管理平台:设置Eon-LOG统一日志平台基础属性参数,定义角色和权限,设置日志采集器、接收器的配置,定义俺去审计的关联规则,平台元数据配置信息存储在MySQL数据库中;,27,功能特点,28,业务方面: 可以随时动态添加任务,从管理中心添加日志收集任务、转发业务、或转发到其它平台,停止已有业务转发,或停止某个平台的转发。 对日志格式没有要求(有时间标签即可),可以从文件系统、数据库、数据接口等多种方式中收集数据; 能够处理不同平台下(Windows 、Linux、虚拟机)不同格式日志;,转发和存储: 数据转发中心作为系统的海量数据高性能转发枢纽,支持PB级别数据转发,可以将数据变为多份转发到多个平台。 采用分布式存储架构和大数据分析技术,可以横向扩展,保证数据不丢失; 可实现在Hadoop集群、HBase集群和云存储之间交互,实现超大数据量的数据分析和数据备份。,查询和统计功能: 海量日志查询,通过的关键字、应用、主机、文件以及时间范围进行日志筛选,快速定位日志信息; 检索和统计功能,部署在分布式集群架构上,日均处理能力已达数十
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 16.1生命的诞生说课稿-2024-2025学年苏教版生物八年级上册
- 2024-2025学年高中语文 第五课 第4节 说“一”不“二”-避免歧义说课稿2 新人教版选修《语言文字应用》
- 2025年中考数学试题分类汇编:一次函数(12大考点43题) (第1期)原卷版
- 2025年初中生物学教师招聘考试测试题及答案
- 2025年中考地理试题分类汇编:居民与文化、发展与合作(第1期)原卷版
- 江苏省江阴市成化高级中学高中地理 5.2 产业转移 以东亚为例说课稿1 新人教版必修3
- 沟通的艺术-好好说话(说课稿)2025-2026学年初三下学期教育主题班会
- 劳动项目三 发绿豆芽教学设计-2025-2026学年小学劳动六年级下册人教版《劳动教育》
- 2025年美发师技师职业技能考试题库(含答案)
- 叉车科目一模拟考试题及答案
- DB32/T 4322-2022家政职业经理人培训规范
- 零时工合同协议书
- 脊髓电刺激护理
- 护理共情沟通技能提升
- 脱离母子关系协议书
- 高级保洁考试试题及答案
- 人教版七年级上册数学教案(表格版)
- 2025-2030中国水利信息系统行业市场发展现状及发展趋势与投资前景研究报告
- 外包合同补充协议
- 药学知识与技能课件
- 全景回顾2024年系统规划与管理师考试试题及答案
评论
0/150
提交评论