数据分析方法、数据处理流程实战案例_第1页
数据分析方法、数据处理流程实战案例_第2页
数据分析方法、数据处理流程实战案例_第3页
数据分析方法、数据处理流程实战案例_第4页
数据分析方法、数据处理流程实战案例_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据分析方法、数据处理流程实战案例

大数据时代,我们人人都逐渐开场用数据的眼光来对待每一个事

情、事物。确实,数据的直观明了传达出来的信息让人一下子就能领

略且毫无疑点,不过前提是数据本身的真实性和准确度要有保证。今

天就来和大家分享一下关于数超分析方法、数据处理流程的实战案

例,让大家对于数超液匝这个岗位的工作内容有更多的理解和认

识,让可以趁机了解了解咱们平时看似轻松便捷的数据可视化的背后

都是有多专业的流程在支撑着。

一、大数据思维

在2021年、2021年大数据概念火了之后,可以说这几年许多传

统企业也好,互联网企业也好,都把自己的业务给大数据靠一靠,并

且提的比拟多的大数据思维。

那么大数据思维是怎么回事?我们来看两个例子:

案例1:输入法

首先,我们来看一下输入法的例子。

我2001年上大学,那时用的输入法比拟多的是智能ABC,还有

微软拼音,还有五笔。那时候的输入法比现在来说要慢的很多,许多

时候输一个词都要选好几次,去选词还是调整才能把这个字打出来,

效率是非常低的。

到了2002年,2003年出了一种新的输出法——紫光拼音,感

觉真的很快,键盘没有按下去字就已经跳出来了。但是,后来很快发

现紫光拼音输入法也有它的问题,比方当时互联网开展已经比拟快

了,会经常出现一些新的词汇,这些词汇在它的词库里没有的话,就

很难敲出来这个词。

在2006年左右,搜狗输入法出现了。搜狗输入法基于搜狗本身

是一个搜索,它积累了一些用户输入的检索词这些数据,用户用输入

法时候产生的这些词的信息,将它们进展统计分析,把一些新的词汇

逐步添加到词库里去,通过云的方式进展管理。

比方,去年流行一个词叫"然并卵〃,这样的一个词如果用传统

的方式,因为它是一个重新构造的词,在输入法是没方法通过拼音

"ranbingluan,z直接把它找出来的。然而,在大数据思维下那就

不一样了,换句话说,我们先不知道有这么一个词汇,但是我们发现

有许多人在输入了这个词汇,于是,我们可以通过统计发现最近新出

现的一个高频词汇,把它加到司库里面并更新给所有人,大家在使用

的时候可以直接找到这个词了。

案例2:地图

再来看一个地图的案例,在这种电脑地图、手机地图出现之前,

我们都是用纸质的地图。这种地图差不多就是一年要换一版,因为许

多地址可能变了,并且在纸质地图上肯定是看不出来,从一个地方到

另外一个地方怎么走是最好的?中间是不是堵车?这些都是有需要

有经历的各种司机才能判断出来。

在有了百度地图这样的产品就要好很多,比方:它能告诉你这条

路当前是不是堵的?或者说能告诉你半个小时之后它是不是堵的?

它是不是可以预测路况情况?

此外,你去一个地方它可以给你规划另一条路线,这些就是因为

它采集到许多数据。比方:大家在用百度地图的时候,有GPS地位

信息,基于你这个位置的移动信息,就可以知道路的拥堵情况。另外,

他可以收集到很多用户使用的情况,可以跟交管局或者其他部门来采

集一些其他摄像头、地面的传感器采集的车辆的数量的数据,就可以

做这样的判断了。

这里,我们来看一看纸质的地图跟新的手机地图之间,智能ABC

输入法跟搜狗输入法都有什么区别?

这里面最大的差异就是有没有用上新的数据。这里就引来了一个

概念——数据驱动。有了这些数据,基于数据上统计也好,做其他挖

掘也好,把一个产品做的更加智能,变得更加好,这个跟它对应的就

是之前可能没有数据的情况,可能是拍脑袋的方式,或者说我们用过

去的,我们想清楚为什么然后再去做这个事情。这些相比之下数据驱

动这种方式效率就要高很多,并且有许多以前解决不了的问题它就能

解决的非常好。

二、数据驱动

对于数据驱动这一点,可能有些人从没有看数的习惯到了看数的

习惯那是一大进步,是不是能看几个数这就叫数据驱动了呢?这还远

远不够,这里来说一下什么是数据驱动?或者现有的创业公司在进展

数据驱动这件事情上存在的一些问题。

一种情况大家在公司里面有一个数据工程师,他的工作职责就是

跑数据。

不管是市场也好,产品也好,运营也好,老板也好,大家都会有

各种各样的数据需求,但都会提给他。然而,这个资源也是有限的,

他的工作时间也是有限的,只能一个一个需求去处理,他本身工作很

忙,大家提的需求之后可能并不会马上就处理,可能需要等待一段时

间。即使处理了这个需求,一方面他可能数据准备的不全,他需要去

采集一些数据,或做一些升级,他要把数据拿过来。拿过来之后又在

这个数据上进展一些分析,这个过程本身可能两三天时间就过去了,

如果加上等待的时间更长。

对于有些人来说,这个等待周期太长,整个时机可能就错过了。

比方,你重要的就是考察一个节日或者一个开学这样一个时间点,然

后想搞一些运营相关的事情,这个时机可能就错过去了,许多人等不

到了,有些同学可能就干脆还是拍脑袋,就不等待这个数据了。这个

过程其实就是说效率是非常低的,并不是说拿不到这个数据,而是说

效率低的情况下我们错过了很多时机。

对于还有一些公司来说,之前可能连个数都没有,现在有了一个

仪表盘,有了仪表盘可以看到公司上个季度、昨天总体的这些数据,

还是很不错的。

对老板来说肯定还是比拟快乐,但是,对于市场、运营这些同学

来说可能就还不够。

比方,我们发现某一天的用户量跌了20%,这个时候肯定不能放

着不管,需要查一查这个问题出在哪。这个时候,只看一个宏观的数

那是远远不够的,我们一般要对这个数据进展切分,按地域、按渠道,

按不同的方式去追查,看到底是哪少了,是整体少了,还是某一个特

殊的渠道独特的地方它这个数据少了,这个时候单单靠一个仪表盘是

不够的。

理想状态的数据驱动应该是怎么样的?就是一个自助式的数据

分析,让业务人员每一个人都能自己去进展数据分析,掌握这个数据。

前面我讲到一个模式,我们源头是一堆杂乱的数据,中间有一个

工程师用来跑这个数据,然后右边是接各种业务同学提了需求,然后

排队等待被处理,这种方式效率是非常低的。理想状态来说,我们现

象大数据源本身整好,整全整细了,中间提供强大的分析工具,让每

一个业务员都能直接进展操作,大家并发的去做一些业务上的数据需

求,这个效率就要高非常多。

三、数据处理的流程

大数据分析这件事用一种非技术的角度来看的话,就可以分成金

字塔,自底向上的是三个局部,第一个局部是数据采集,第二个局部

是数据建模,第三个局部是数据分析,我们来分别看一下。

数据采集

首先来说一下数据采集,我在百度干了有七年是数据相关的事

情。我最大的心得——数据这个事情如果想要更好,最重要的就是数

据源,数据源这个整好了之后,后面的事情都很轻松。

用一个好的查询引擎、一个慢的查询引擎无非是时间上可能消耗

不大一样,但是数据源如果是差的话,后面用再复杂的算法可能都解

决不了这个问题,可能都是很难得到正确的结论。

我觉得好的数据处理流程有两个根本的原那么,一个是全,一个

是细。

全:

就是说我们要拿多种数据源,不能说只拿一个客户端的数据源,

效劳端的数据源没有拿,数据库的数据源没有拿,做分析的时候没有

这些数据你可能是搞歪了。另外,大数据里面讲的是全量,而不是抽

样。不能说只抽了某些省的数据,然后就开场说全国是怎么样。可能

有些省非常特殊,比方新疆、西藏这些地方客户端跟内地可能有很大

差异的。

细:

其实就是强调多维度,在采集数据的时候尽量把每一个的维度、

属性、字段都给它采集过来。比方:像where,who、how这些东

西给它替补下来,后面分析的时候就跳不出这些能够所选的这个维

度,而不是说开场的时候也围着需求。根据这个需求确定了产生某些

数据,到了后面真正有一个新的需求来的时候,又要采集新的数据,

这个时候整个迭代周期就会慢很多,效率就会差很多,尽量从源头抓

的数据去做好采集。

数据建模

有了数据之后,就要对数据进展加工,不能把原始的数据直接报

告给上面的业务分析人员,它可能本身是杂乱的,没有经过很好的逻

辑的。

这里就牵扯到数据建框,首先,提一个概念就是数据模型。许多

人可能对数据模型这个词产生一种畏惧感,觉得模型这个东西是什么

高深的东西,很复杂,但其实这个事情非常简单。

我春节期间在家干过一件事情,我自己家里面家谱在文革的时候

被烧了,后来家里的长辈说一定要把家谱这些东西给存档一下,因为

我会电脑,就帮着用电脑去理了一下这些家族的数据这些关系,整个

族谱这个信息。

我们现实是一个个的人,家谱里面的人,通过一个树型的构造,

还有它们之间数据关系,就能把现实实体的东西用几个简单图给表示

出来,这里就是一个数据模型。

数据模型就是对现实世界的一个抽象化的数据的表示。我们这些

创业公司经常是这么一个情况,我们现在这种业务,一般前端做一个

请求,然后对请求经过处理,再更新到数据库里面去,数据库里面建

了一系列的数据表,数据表之间都是很多的依赖关系。

比方,就像我图片里面展示的这样,这些表一个业务项开展差不

多一年以上它可能就牵扯到几十张甚至上百张数据表,然后把这个表

直接提供应业务分析人员去使用,理解起来难度是非常大的。

这个数据模型是用于满足你正常的业务运转,为产品正常的运行

而建的一个数据模型。但是,它并不是一个针对分析人员使用的模型。

如果,非要把它用于数据分析那就带来了很多问题。比方:它理解起

来非常麻烦。

另外,数据分析很依赖表之间的这种格子,比方:某一天我们为

了提升性能,对某一表进展了拆分,或者加了字段、删了某个字短,

这个调整都会影响到你分析的逻辑。

这里,最好要针对分析的需求对数据重新进展解码,它内容可能

是一致的,但是我们的组织方式改变了一下。就拿用户行为这块数据

来说,就可以对它进展一个抽象,然后重新把它作为一个判断表。

用户在产品上进展的一系列的操作,比方浏览一个商品,然后谁

浏览的,什么时间浏览的,他用的什么操作系统,用的什么浏览器版

本,还有他这个操作看了什么商品,这个商品的一些属性是什么,这

个东西都给它进展了一个很好的抽象。这种抽样的很大的好处很容易

理解,看过去一眼就知道这表是什么,对分析来说也更加方便。

在数据分析方,特别是针对用户行为分析方面,目前比拟有效的

一个模型就是多维数据模型,在线分析处理这个模型,它里面有这个

关键的概念,一个是维度,一个是指标。

维度比方城市,然后北京、上海这些一个维度,维度西面一些属

性,然后操作系统,还有IOS,安卓这些就是一些维度,然后维度里

面的属性。

通过维度穿插,就可以看一些指标问题,比方用户量、销售额,

这些就是指标。比方,通过这个模型就可以看来自北京,使用IOS

的,他们的整体销售额是怎么样的。

这里只是举了两个维度,可能还有很多个维度。总之,通过维度

组合就可以看一些指标的数,大家可以回忆一下,大家常用的这些业

务的数据分析需求是不是许多都能通过这种简单的模式给抽样出来。

四、数据分析方法

接下来看一下互联网产品采用的数据分析方法。

对于互联网产品常用的用户消费分析来说,有四种:

・第一种是多维事件的分析,分析维度之间的组合、关系。

・第二种是漏斗分析,对于电商、订单相关的这种行为的产品来

说非常重要,要看不同的渠道转化这些东西。

・第三种留存分析,用户来了之后我们希望他不断的来,不断的

进展购置,这就是留存。

・第四种回访,回访是留存的一种特别的形式,可以看他一段时

间内访问的频次,或者访问的时间段的情况

方法1:多维事件分析法

首先来看多维事件的分析,这块常见的运营、产品改良这种效果

分析。其实,大局部情况都是能用多维事件分析,然后对它进展一个

数据上的统计。

1.三个关键概念

这里面其实就是由三个关键的概念,一个就是事件,一个是维度,

一个是指标组成。

・事件就是说任何一个互联网产品,都可以把它抽象成一系列事

件,比方针对电商产品来说,可抽象到提交、订单、注册、收

到商品一系列事件用户行为。

・每一个事件里面都包括一系列属性。比方,他用操作系统版本

是否连wifi;比方,订单相关的运费,订单总价这些东西,或

者用户的一些职能属性,这些就是一系列维度。

・基于这些维度看一些指标的情况。比方,对于提交订单来说,

可能是他总提交订单的次数做成一个指标,提交订单的人数是

一个指标,平均的人均次数这也是一个指标;订单的总和、总

价这些也是一个指标,运费这也是一个指标,统计一个数后就

能把它抽样成一个指标。

2.多维分析的价值

来看一个例子,看看多维分析它的价值。

比方,对于订单支付这个事件来说,针对整个总的成交额这条曲

线,按照时间的曲线会发现它一路在下跌。但下跌的时候,不能眼睁

睁的看着它,一定要分析原因。

怎么分析这个原因呢?常用的方式就是对维度进展一个拆解,可

以按照某些维度进展拆分,比方我们按照地域,或者按照渠道,或者

按照其他一些方式去拆开,按照年龄段、按照性别去拆开,看这些数

据到底是不是整体在下跌,还是说某一类数据在下跌。

这是一个假想的例子——按照支付方式进展拆开之后,支付方式

有三种,有用支付宝、阿里PAY,或者用微信支付,或者用银行看

内的支付这三种方式。

通过数据可以看到支付宝、银行支付根本上是一个沉稳的一个状

态。但是,如果看微信支付,会发现从最开场最多,一路下跌到非常

少,通过这个分析就知道微信这种支付方式,肯定存在某些问题。

比方:是不是升级了这个接口或者微信本身出了什么问题,导致

了它量下降下去了?

方法2:漏斗分析

漏斗分析会看,因为数据,一个用户从做第一步操作到后面每一

步操作,可能是一个杂的过程。

比方,一批用户先浏览了你的首页,浏览首页之后可能一局部人

就直接跑了,还有一局部人可能去点击到一个商品里面去,点击到商

品可能又有很多人跑了,接下来可能有一局部人就真的购置了,这其

实就是一个漏斗。

通过这个漏斗,就能分析一步步的转化情况,然后每一步都有流

失,可以分析不同的渠道其转化情况如何。比方,打广告的时候发现

来自百度的用户漏斗转化效果好,就可能在广告投放上就在百度上多

投一些。

方法3:留存分析

比方,搞一个地推活动,然后来了一批注册用户,接下来看它的

关键行为上面操作的特征,比方当天它有操作,第二天有多少人会关

键操作,第N天有多少操作,这就是看它留下来这个情况。

方法4:回访分析

回访就是看进展某个行为的一些中度特征,如对于购置黄金这个

行为来说,在一周之内至少有一天购置黄金的人有多少人,至少有两

天的有多少人,至少有7天的有多少人,或者说购置多少次数这么一

个分布,就是回访回购这方面的分析。

上面说的四种分析结合起来去使用,对一个产品的数据支撑、数

据驱动的这种深度就要比只是看一个宏观的访问量或者活泼用户数

就要深入很多。

五、运营分析实践

下面结合个人在运营和分析方面的实践,给大家分享一下。

案例1:UGC产品

首先,来看UGC产品的数据分析的例子。可能会分析它的访问

量是多少,新增用户数是多少,获得用户数多少,发帖量、减少量。

诸如贴吧、百度知道,还有知乎都属于这一类的产品。对于这样

一个产品,会有很多数据指标,可以从某一个角度去观察这个产品的

情况。那么,问题就来了一一这么多的指标,到底要关注什么?不同

的阶段应该关注什么指标?这里,就牵扯到一个本身指标的处理,还

有关键指标的问题。

案例2:百度知道

2007年我参加百度知道之后,开场刚进去就写东西了。作为RB,

我每天也收到一系列报表邮件,这些报表里面有很多统计的一些数

据。比方,百度知道的访问量、减少量、IP数、申请数、提问量、答

复量,设置追加答案,答案的数量,这一系列指标。当时,看的其实

感觉很反感。

我在思考:这么多的指标,不能说这也提高,那也提高吧?每个

阶段肯定要思考哪个事最关键的,重点要提高哪些指标。开场的时候

其实是没有任何区分的,不知道什么是重要、什么是不重要。

后来,慢慢有一些感触和认识,就发现其实对于访问量、减少量

这些相关的。因为百度知道需要流量都是来自于大搜索,把它展现做

一下调整或者引导,对量的影响非常大。虽然,跟百度知道本身做的

好坏也有直接关系,但是它很受渠道的影响——大搜索这个渠道的影

响。

提问量开场的时候,我认为非常重要,怎么提升提问量,那么整

个百度知道平台的这个问题就多了。提升答复量,让这些问题得到答

复高质量的内容就非常多了,又提升提问量而后再提升答复量一一

其实等于是两类人了。而怎么把它做上去,我当时有一些困惑,有一

些矛盾,到底什么东西是最关键的。

有一次产品会,每一个季度都有一个产品会。那个时候,整个部

门的产品负责人是孙云丰,可能在百度待过的或者说对百度产品体系

有了解的都会知道这么一个人,非常厉害的一个产品经理。我当时就

问了他这个问题,我对提问量、答复量都要提升这个困惑。

他就说了一点,其实提问量不是一个关键的问题,为什么?我们

可以通过大搜索去找,如果一个用户在大搜索里面进展搜索,发现这

个搜索没有一个好的答案,那就可以引导他进展一个提问,这样其实

这个提问量就可以迅速提升上去。

我一听一下就解决了这个困惑,最关键的就是一个答复量,我所

做的事情其实怎么去提升答复量就可以了。

这里面把百度知道这个产品抽样成了最关键的一个提升——那

就是如何提升答复量,在这个问题上当时做了一个事情就是进展问题

推荐。

百度知道有一批活泼用户,这些用户就喜欢答复下列问题。于是,

我们思考:能不能把一些他们可以答复下列问题推荐给他们,让他们

答复各种各样的问题——这个怎么去做呢?

这个思路也很简单,现在个性化推荐都是比拟正常的,大家默认

知道这么一回事。但是,2021年做推荐这个事情其实还是比拟领先

的,从我了解的情况来看,国内的是2021年个性化推荐引擎这块技

术火了,但后来有些公司做这方面后来都倒掉了。

实现策略是非常简单的,我们就看一个用户历史的答复记录,看

他答复的这些问题开头是什么、内容是什么。

由于百度很擅长做自然语言的处理,基于这些,通过这里面的抽

取用户的兴趣词,感兴趣的话题,然后把待解的问题,与该问题相关

话题的相关用户进展一个匹配,匹配上了就把这个问题推荐给这个用

户。

当时,我们做的一个事情就是:把推荐几个月有过答复量比拟高

的用户进展一个抽取为t他们训练一个模式——就是对每个用户有一

系列的话题兴趣点,然后每个点都有一个程度,这就是一个用户的模

型项量,就是一个兴趣项量,当时抽了35万个用户。

这个效果是这样的,现在我已经找了我们当年做的图片,整个样

式其实这是我前一段时间截的图,大体类似。比方,我对数据分析相

关的问题答复了不少,它就会给我推荐数据分析相关的问题。

我们这个功能差不多做了有三个月,把它推上线我们其实是满怀

期待的,结果效果如何呢?

上线之后很悲剧,我们发现总的答复量没有变化。于是,我们又

进一步分析了一下原因。当时,最开场这些核心用户在答复下列问题

的时候都是找分类页。比方:电脑这个分类,然后看电脑相关的问题,

有兴趣的就答复。

后来,我们做了一个体验:在个人中心里面加了一个猜他喜欢的

那个问题,然后推给他,结果用户从分类页答复这个问题转到了个人

中心。但是,平均一个人答复量并没有变化,当时做的这些统计,这

些核心用户就答复六个问题,超过六个他就没动力答复了。

我们事后分析原因,有一个原因他可能本身的答复量就是这么一

条线,谁能天天在哪里源源不断的回复问题。还有一个同事就分析当

时让他一个痛苦的地方,因为我们是源源不断地推荐,然后他就发现

答复几个之后还有几个,答复了几次就感觉要崩溃了,就不想再这么

答复下去了。

其实,年前时知乎在问题推荐上也做了不少功夫,做了许多测试。

年前有一段时间,它天天给我推一些新的问题,然后我去答复。后来,

发现推的太多了,就没答复的动力了。

针对这些核心用户会发现从他们上面榨取不了新的价值了。于

是,我们调转了矛头,从另一个角度——能不能去广撒网,吸引更多

的用户来答复下列问题,这个做的就是一个库里推荐。

访问百度的时候,百度不管用户是否登录,会在用户的库里面去

设置一个用户标识。通过这个标识能够对这个用户进展一个跟踪,虽

然不知道用户是谁,但是,起码能把同一个用户这个行为给它检起来。

这样,就可以基于他历史的检索,各种搜索词,还有他流量的各种页

面的记录,然后去提取一些证据,然后给这些库题建一个模型。

这样有一个好处,能够覆盖的用户量非常大,前面讲的核心用户

推荐只覆盖了只有35万的核心用户,但是通过这种方式可以覆盖几

亿百度用户,每一次用户登录之后或者访问百度知道之后我们就基于

他本身兴趣然后走一次检索,在解决问题里面检索一下跟他匹配的就

给他推荐出来。

比方前一段,我自己在没有登录的时候,其实我是会看马尔克斯。

我比拟喜欢马尔克斯的作品,我当时搜了马尔克斯的一些相关的内

容。它就抽取出来我对马尔克斯什么感兴趣,就给我推荐了马尔克斯

相关的问题,可能我知道我不可能就会点进去答复。

这个功能上了之后效果还是很不错的,让整体的答复量提升了

7.5%。要知道,百度知道产品从2005年开场做,做到2007年、2021

年的时间这个产品已经很成熟了。在一些关键指标进展大的提升还是

非常有挑战的,这种情况下我们通过这种方式提升了7.5%的答复量,

感觉还是比拟有成就

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论