做A/B实验相关工作中遇到一些问题,其中之一就是如何判断新版本对用户影响,以前的做法:
1所有新功能都预埋开关(默认关),对新版本用户随机分桶后对实验组开启,用标准A/B实验方法评估。但是这在需要很高开发成本,而且容易出错;
2同时构建两个新版本,a版本不包含任何新功能,b版本包含全部新功能,对用户随机分桶后,分别开放不同版本的升级,之后对a版本用户、b版本用户用随机实验法进行评估。这也需要较高成本,而且对第三方渠道不能自由控制用户是否可以,仅能用在灰度发布阶段,样本量较小;
3随机分桶后,仅对实验组开放升级,之后与对照组对比,并可对实验组中升级用户作为训练集,通过机器学习方法判断对照组中愿意升级的用户,对他们进行评估。本方法同样存在2中的问题,只是免去了打a版本发布的过程。
上述问题都有实现难度、成本方面、样本量的问题,那么有没有办法不改变发布流程,科学的评估效果呢?有,LinkedIn用准实验方法做过相同的事情: Evaluating Mobile Apps with A/B and Quasi A/B tests 。下面记录下我的个人理解。
众所周知,相关不一定等于因果,判断因果效应的黄金工具是随机实验。准实验是在没有办法进行随机实验时,对观测数据因果推断的方法。一个详细的介绍可以参考: https://wwwscribbrcom/methodology/quasi-experimental-design/ 。
LinkedIn发布了一个大的更新版本,没有办法把所有的功能做成开关,而且他们不能自己灰度升级发布。因此需要用准实验方法来进行评估。目的是研究版本效果差异,对比的是新版本用户与旧版本用户数据,但是用户是否会升级与个人意愿、是否有wifi、渠道策略等因素有关,直接做diff是有偏的,需要采用因果推断中的准实验法。
由于当时苹果市场只支持全量发布,是否升级对是用户自身影响因素决定的,所以是一个经典的准实验问题,可以用上述方法解决。关于方案效果测试,可以对之前没有附带新功能的版本进行" A/A ",看能否有效消除偏差。
测试结果:
从上图可看到,bias大幅降低,endogenous OLS模型效果最好。
图中A1、B1代表愿意升级的用户,其它为不愿意升级用户,而A1、A2代表有资格升级的用户(在分阶段发布里命中),也就是仅有A1群体成功升级。在用户意愿和分阶段发布共同作用下,上述iOS的方案会表现很差。
这种机制带来了另一种好处,比如在20%放量阶段,对每个升级者来说,期望有4个与他相似的用户。如果我们识别出其它相似用户,那就可以近似为随机实验。所以需要一种低假阳性的识别方法,哪怕假阴性较高(因为有4个相似用户,召回率没有那么重要)。
由于A1与B1是可比较的,S(A1)与S(B1)也是可以比较的,下面介绍两种基于此的策略。
思路是将愿意升级用户B1从未升级用户中识别出,不同于iOS那边将升级用户参与模型训练,这里仅使用历史数据来训练,对识别出的用户再按是否升级,判断是否属于B1。
由于随着时间推进,用户升级的概率越来越高,我们需要建模获取 ,代表i个用户t日升级概率。假设每日概率恒定为 ,则:
,其中 代表活跃天数。
基于历史数据,可以计算 的最大似然估计:
代表用户i在可以升级版本j到升级版本j前的活跃天数, 代表用户i是否升级了版本j。
最后,在发布新版本后,每个用户每天计算累计概率 。选择超过阈值的用户认为是会升级用户。
由于非升级组有更多的用户与升级用户相似,直接通过协变量将他们与升级用户匹配变得更容易。最基础的两种匹配方法:
两种策略都不容易通过GPU运算,尤其在有大量协变量时,带来性能上的问题。
因此,LinkedIn采取了“Doubly Robust” 方法,先进行匹配算法,在其基础之上进行线性回归。第一阶段仅适用10个重要的连续变量进行匹配分桶,线性回归阶段有大量的协变量,对偏斜进行补偿。此方法可以从第一天起就有不错的表现,是LinkedIn的最终方案。
结果看起来很棒,在第一天也只有很小的偏差。
大的变更会有强的新奇效应,用户开始阶段会进行很多探索。
需要判断两个问题:1是否有新奇效应;2新奇效应持续多久?
标准ab实验中,可以观测随着效果随着时间的推移是否变弱,以此来判断。在准实验方法中,结合上文相关方法,也可以进行类似的判断。
对因果推断来说,随机实验总是第一选择,但有时随机成本过高或者根本不可能。准实验方式是流行病学、经济学等领域常常用到的方法,它不失为不能A/B实验时的一种很好补充。
欢迎分享,转载请注明来源:浪漫分享网
评论列表(0条)