产品经理产品设计必不可少的A/B测试,真相在这里_第1页
产品经理产品设计必不可少的A/B测试,真相在这里_第2页
产品经理产品设计必不可少的A/B测试,真相在这里_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、A/B 测试在产品优化中的应用方法是:在产品正式迭代发版之前,为同一个目标制定两个(或以上)方案,将用户流量对应分成几组,在保证每组用户特征相同的前提下,让用户分别看到不同的方案设计,根据几组用户的真实数据反馈,科学的帮助产品进行决策。生物学以及其他学科中,总是会出现控制变量法来验证某种假设。通常有一组对照组、一组试验组,比如:证明:酶在加热到一定温度后会失活。第一次向反应体系中加入加热后的酶;第二次加入没加热的,看反应现象。其中,第一次为实验组,第二次为对照组。证明:吸烟会增大得肺癌的几率。我们可以选两群位于同一地区、职业类似人,一群人吸烟,一群人不吸烟,进行跟踪调查,样本容量要足够大。其中

2、吸烟的那组为实验组,不吸烟的为对照组。以上算是 A/B 实验的引子和简单案例。到了真正的科研领域中,会有更严谨的应用方法。而A/B 测试被应用到产品设计上,最早可查的是在2000年开始, Google 的工程师才开始使用 A/B 测试进行产品设计。在产品设计中如何应用,直接引用一段:A/B 测试在产品优化中的应用方法是:在产品正式迭代发版之前,为同一个目标制定两个(或以上)方案,将用户流量对应分成几组,在保证每组用户特征相同的前提下,让用户分别看到不同的方案设计,根据几组用户的真实数据反馈,科学的帮助产品进行决策。将用户随机均质分组后,应用不同的方案,观察各组的数据反馈,以指标的高低衡量方案的

3、好坏。听起来没什么问题,对吗?说实话,对于A/B 测试是什么,大部分人对它的理解就停留在这个层面上,误以为这就是A/B 测试的全部了。这就跟梅超风仅偷了九阴真经的下册一样,真本是真本,就是不知道怎么打基础结果路子全歪了。我们可以用 Excel 来模拟试试,用随机生成1000个样本,再随机分成对照组和试验组2 组,然后去比较这2 组的平均值 你会发现 2组之间一定会有差异,不信你可以亲自试试。但这能说明其中一组比另一组要好吗?当然不能。如果你把用户分成两组,用不同的方案监测转化率差别,并且试验组正巧比对照组效果好一点,那你如何能证明,试验组更好不是因为这种随机波动产生的呢?我曾经不只一次听到过类

4、似指标一会儿高一会儿低,测不出来效果或者跑了很久汇总比较,指标变高了效果不错这样的说法,甚至还是出自专业人士之口,实在让人目瞪口呆,感叹原来A/B 居然还能这么做。我们什么都没干、什么方案都没有实施,只是随机分了一下组,试验组就比对照组更好或者更坏了。所以很显然我们不能直接以结果指标的高低衡量方案的好坏。因为无论怎么随机分组,都会因为分组产生一定的选择偏差,导致数据出现波动,那我们应该如何验证不同方案的好坏呢?这时候,就轮到统计学的假设检验出场了,这才是九阴真经的上册,是练就绝世武功的基础。我们从最简单的抛硬币的实验说起。不过这次不是一个硬币,是有两枚硬币。有人宣称他有特殊的抛硬币技巧,应用了

5、他的技巧,可以让硬币更容易出现正面。那我们要如何才能证明他说的是真的呢?人家又没有说次次都是正面,就算 10 次抛出来都是反面也可以说是状态不好发挥失常。怎么办?我们可以用逆向思维反过来想,如果他说的是真的,那么用他的技巧抛硬币就不太可能经常抛出反面,更不可能抛100 次都是反面。也就是说,不可能发生的事件发生了,那他就在说假话。用统计学语言来描述,就是:对于一个假设,在这个假设成立时,一个极小概率的事件发生了,就可以推翻这个这假设,并选择这个假设的反面。一般把待证伪的假设称为零假设H? ,把想要证明的假设叫做对立假设H?。这就是反证法,一条假设永远不可能被证明,只可能被证伪。我们想证明他的技

6、巧抛硬币更容易出现正面(对立假设),可以先假设他的技巧不能让抛硬币更容易出现正面(零假设),然后寻找在零假设成立时的极小概率事件(比如用他的技巧抛100 次硬币比正常抛硬币,正面出现的频次高30%),当这个极小概率事件被我们观测到的时候,就推翻了零假设,从而证明对立假设。这里对于多小的概率是极小概率,完全是人为规定的,一般常用的是5%和1%。这个值就是所谓的显著性水平do假定我们抛10次,我们这一批 10 次观测到的结果发生的概率就是p 值,比如抛 10 次结果都是正面,这种情况发生的概率是:当我们观测到这样一个p 时,就可以推翻零假设,从而证明他的技巧 抛硬币更容易出现正面(对立假设)。现在

7、,重点来了:我们可以把新的产品设计方案当作他的特殊技巧,把每有一个用户当作每一次抛硬币,把用户被转化当作硬币为正面,把用户未被转化当作硬币为反面,瞬间就会理解如何在产品设计中进行科学的 A/B 测试。不同的是,我们已经根据日常经验建立了对抛硬币转化率和波动水平的大致预期。简单来讲,就是如果特殊技巧抛硬币的转化率只是51%、 52%的水平,我们显然会怀疑特殊技巧的有效性,而如果能到60%,我们几乎可以认定特殊技巧确实有效。而对于产品转化率和波动水平很难建立同样的预期。转化率从 10%到 12%,究竟是日常波动,还是巨大提升,在不进行统计分析时是根本无法判断的。统计理论展开讲就太复杂了,所以我只介

8、绍如何应用现成的理论和公式。我们在产品设计时设计的 A/B 测试属于双独立样本t 假设检验,独立的意思是A 方案下样本和 B 方案下的样本表现是各自独立互不影响的。比如抛硬币案例里普通人抛硬币和他用特殊技巧抛硬币,结果互不影响。 t 没有什么特殊含义,如果是周树人用笔名发表了这套检验理论,那t 检验就会被叫做鲁迅检验了。按照双独立样本t 假设检验的方法,需要计算以下几个统计量:1)每组样本均值x2)每组样本方差S3)计算自由度(基于双样本异方差假设)4)查表取得a/2(双尾检验)下的t-value,我们当然不会真去查表,直 接使用 Excel 函数=T.INV.2T( a /2,df)然后就可

9、以套公式计算置信区间了:之所以用双尾检验的t-value,是因为习惯做的零假设是A和B之间没有 变化,对立假设是 A 和 B 之间有变化,通过实验判断是否能推翻零假 设,再根据结果的正负判断是变高还是变低。看完上面的公式是不是感觉好复杂?没关系,有简单的方法。如果只想知道 p-value 以验证实验结果是否统计显著,而不需要计算置信区间,可以用 Excel 函数=T.TEXT(array1, array2, 2, 3)如果一定要计算置信区间,可以用 RStudio:t.test(array1, array2, conf.level=0.95)一步出结果,够方便了吧。应用的前提条件:应用上述公式

10、,是有前提条件的。简单来讲就是样本独立,且要服从正态分布,并且两总体方差不等(异方差)。如果样本不独立,比如同一批病人用药前和用药后的效果检验,就要使用配对t 检验。如果样本独立但总体方差相等,就要用另外的一套公式。那岂不是应用之前还要做很多分析判断该用哪个公式?其实不然。根据统计学的中心极限定理,在大样本下,样本均值的抽样分布呈正态分布。而我们做的 A/B 测试,几乎都是独立的十几万、几十万的样本,并且可以假定A/B 总体异方差。一点提示:关于假设检验的计算,能很容易地找到很多资料。不过质量参差不齐,可以用一个粗暴的办法识别质量过得去的:一定会有老板喜欢这样发问。对于这样的老板,我们可以把俞军大神请出来猛烈地拍回去。受俞军产品方法论的启发,我的理解是:每一款产品,都有独特的、与其

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论