大数据数据分析方法数据处理流程实战案例_第1页
大数据数据分析方法数据处理流程实战案例_第2页
大数据数据分析方法数据处理流程实战案例_第3页
大数据数据分析方法数据处理流程实战案例_第4页
大数据数据分析方法数据处理流程实战案例_第5页
已阅读5页,还剩41页未读 继续免费阅读

付费下载

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

在2011年、2012年大数据概念火了之后,案例1:输入法到了2002年,2003年出了一种新的输出法——紫光拼音,感大数据思维Vs.Vs.案例2:地图路当前是不是堵的?或者者说能告诉你半个小时之后它是不是堵的?此外,你去一个地方它能够给你规划另一条路线,这些就是由于它采集到许多数据。比如:大家在用百度地图的时候,有GPS地位信息,基于你这个位置的移动信息,就能够明白路的拥堵情况。另外,他能够收集到很多用户使用的情况,能够跟交管局或者者其他部门来采集一些其他摄像头、地面的传感器采集的车辆的数量的数据,就能够做这样的推断了。工程师老王负责处理所有跑数据的需求工程师老王负责处理所有跑数据的需求竟说看不懂!1!个过程事实上就是说效率是非常低的,并不是说拿不到这个数据,而是说效率低的情况下我们错过了很多机会。关于还有一些公司来说,之前可能连个数都没有,现在有了一个仪表盘,有了仪表盘能够看到公司上个季度、昨天总体的这些数据,还是很不错的。公司终于有了数据仪表盘...明明昨天一个机房挂了,但是流量还在张……用户量下跌了,但是根本看不出来问题这些泛泛的指标很难指导决策,不看也罢……对老板来说确信还是比较高兴,但是,关于市场、运营这些同学来说可能就还不够。比如,我们发现某一天的用户量跌了20%,这个时候确信不能放着不管,需要查一查这个问题出在哪。这个时候,只看一个宏观的数那是远远不够的,我们通常要对这个数据进行切分,按地域、按渠道,按不一致的方式去追查,看到底是哪少了,是整体少了,还是某一个特殊的渠道特殊的地方它这个数据少了,这个时候单单靠一个仪表盘是不够的。理想状态的数据驱动应该是怎么样的?就是一个自助式的数据分析,让业务人员每一个人都能自己去进行数据分析,掌握这个数据。前面我讲到一个模式,我们源头是一堆杂乱的数据,中间有一个工程师用来跑这个数据,然后右边是接各类业务同学提了需求,然后排队等待被处理,这种方式效率是非常低的。理想状态来说,我们现象大数据源本身整好,整全整细了,中间提供强大的分析工具,让每一个业务员都能直接进行操作,大家并发的去做一些业务上的数据需求,这个效率就要高非常多。三、数据处理的流程数据金字塔33大数据分析这件事用一种非技术的角度来看的话,就能够分成金字塔,自底向上的是三个部分,第一个部分是数据采集,第二个部分是数据建模,第三个部分是数据分析,我们来分别看一下。数据采集11数据采集首先来说一下数据采集,我在百度干了有七年是数据有关的情况。我最大的心得——数据这个情况假如想要更好,最重要的就是数据源,数据源这个整好了之后,后面的情况都很轻松。就是说我们要拿多种数据源,不能说只拿一个客户端的数据源,属性、字段都给它采集过来。比如:像where、who、how这些东我们现实是一个个的人,家谱里面的人,通过一个树型的结构,2015-11-17.04:12:30.7752015-11-17.03.5652.7752015-11-1722:39-40.1032015-11-17.17:34:02.491这里,最好要针对分析的需求对数据重新进行解码,它内容可能是一致的,但是我们的组织方式改变了一下。就拿用户行为这块数据来说,就能够对它进行一个抽象,然后重新把它作为一个推断表。用户在产品上进行的一系列的操作,比如浏览一个商品,然后谁浏览的,什么时间浏览的,他用的什么操作系统,用的什么浏览器版本,还有他这个操作看了什么商品,这个商品的一些属性是什么,这个东西都给它进行了一个很好的抽象。这种抽样的很大的好处很容易懂得,看过去一眼就明白这表是什么,对分析来说也更加方便。方法1:多维事件分析法取消订单取消订单的商品详情售后服务提交订单搜素商品支付订单收到商品份年总次数触发用户数人均次数订单总价运费+总和均值最大值 人均值·事件就是说任何一个互联网产品,都能够把它抽象成一系列事件,比如针对电商产品来说,可抽象到提交、订单、注册、收到商品一系列事件用户行为。·每一个事件里面都包含一系列属性。比如,他用操作系统版本是否连wifi;比如,订单有关的运费,订单总价这些东西,或者者用户的一些职能属性,这些就是一系列维度。基于这些维度看一些指标的情况。比如,关于提交订单来说,可能是他总提交订单的次数做成一个指标,提交订单的人数是一个指标,平均的人均次数这也是一个指标;订单的总与、总价这些也是一个指标,运费这也是一个指标,统计一个数后就能把它抽样成一个指标。2.多维分析的价值来看一个例子,看看多维分析它的价值。3数据分析-多维事件分析致了它量下降下去了?方法2:漏斗分析漏斗分析会看,由于数据,一个用户从做第一步操作到后面每一步操作,可能是一个杂的过程。比如,一批用户先浏览了你的首页,浏览首页之后可能一部分人就直接跑了,还有一部分人可能去点击到一个商品里面去,点击到商品可能又有很多人跑了,接下来可能有一部分人就确实购买了,这事实上就是一个漏斗。33数据分析-漏斗分析现来自百度的用户漏斗转化效果好,就可能在广告投放上就在百度上方法3:留存分析键操作,第N天有多少操作,这就是看它留下来这个情况。方法4:回访分析33数据分析-回访分析回访就是看进行某个行为的一些中度特征,如关于购买黄金这个行为来说,在一周之内至少有一天购买黄金的人有多少人,至少有两天的有多少人,至少有7天的有多少人,或者者说购买多少次数这么一个分布,就是回访回购这方面的分析。上面说的四种分析结合起来去使用,对一个产品的数据支撑、数据驱动的这种深度就要比只是看一个宏观的访问量或者者活跃用户数就要深入很多。下面结合个人在运营与分析方面的实践,给大家分享一下。首先,来看UGC产品的数据分析的例子。可能会分析它的访问量是多少,新增用户数是多少,获得用户数多少,发帖量、减少量。诸如贴吧、百度明白,还有知乎都属于这一类的产品。关于这样一个产品,会有很多数据指标,能够从某一个角度去观察这个产品的情况。那么,问题就来了——这么多的指标,到底要关注什么?不一致的阶段应该关注什么指标?这里,就牵扯到一个本身指标的处理,还有关键指标的问题。案例2:百度明白百度知道案例分析百度知道案例分析百度知道案例分析·检索量设置最佳答案他就说了一点,事实上提问量不是一个关键的问题,为什么?我提升回答量提升回答量·核心用户问题推荐:根据历史回答记录,给核心用户推荐待解决问题35万核心用户模型训练这里面把百度明白这个产品抽样成了最关键的一个提升——那就是如何提升回答量,在这个问题上当时做了一个情况就是进行问题百度明白有一批活跃用户,这些用户就喜欢回答问题。因此,我们思考:能不能把一些他们能够回答问题推荐给他们,让他们回答各类各样的问题——这个怎么去做呢?这个思路也很简单,现在个性化推荐都是比较正常的,大家默认明白这么一回事。但是,2008年做推荐这个情况事实上还是比较领先的,从我熟悉的情况来看,国内的是2010年个性化推荐引擎这块技术火了,但后来有些公司做这方面后来都倒掉了。提升回答量提升回答量实现策略是非常简单的,我们就看一个用户历史的回答记录,看他回答的这些问题开头是什么、内容是什么。由于百度很擅长做自然语言的处理,基于这些,通过这里面的抽取用户的兴趣词,感兴趣的话题,然后把待解的问题,与该问题有关等特您来回答这个功能上了之后效果还是很不错的,让整体的回答量提升了7.5%。要明白,百度明白产品从2005年开始做,做到2007年、2008非常有挑战的,这种情况下我们通过这种方式提升了7.5%的回答量,案例3:流失用户召回这种形式可能对其他产品就很有效,但是对我们这个产品来说,由于我们这是一个相对来说目标比较明确同时比较小众一点的差别,年给大家拜拜年,然后去汇报一下进展看能不能把他

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论