AB测试
AB测试是为Web或APP界面或流程制作两个(A/B)或多个(A/B/n)版本,在同一时间段内,分别让组成成分相同(相似)的房客群组随机访问这些版本,收集各群组的用户体验数据和业务数据,最后分析评估出最好版本正式采用。
关键词组成成分相同的房客;同一时间;用户体验数据和业务数据。
也就是说:用户群要一样;一定要是同一时间段对比,否则没意义;A/B测试指标体系(提前搭建)。
AB测试流程
1、根据数据分析得到某建议项;
2、根据建议项,产品经理得到某落地项;
3、根据某落地项,研发设计人员进行开发设计(往往是先设计,再丢给测试平台里面跑数据);
4、研发人员数据采集:自动采集数据
5、分析师跟进AB效果:显著性在95%以上并维持一段时间,实验可结束。
整体节奏:灰度、5%、10%、20%、50%、100%(测试量)
业界都有一套AB测试平台(字眼或者购买),能够每天进行大量的AB
常见的两种AB测试类型——UI界面
以这个小人为例(墨迹天气):
实际上在产品设计之初,要不要增加一个小人只是一个想法,而这个必须要经过A/B测试才能说要不要实现,因此A版本没有小人,B版本有小人,结果是B版本的数据比A版本摇号,所以最终都有小人
拓展:所有的设计师都要有A/B测试的思想才能更棒。
往往,你认为的好看好用是不靠谱的。
常见的两种AB测试类型——算法策略型
针对新用户的内容推荐(小红书)
A策略:100%兴趣预选
B策略:80%兴趣预选+20%随机内容
当前对于任何一款个性化内容APP,给用户的推荐都涉及到大量的算法策略型AB测试
一般而言:AB两个组样本都要在10万以上才可以初步看数据。
实际工作中的问题
在严格模式下,所有的专题报告落地项(除了明显的bug修复和明显的用户体验),都要考AB测试展开,然而,分析师经常会遇到这种问题:
2个月前产品上线了短视频功能,两个月后,大盘略涨(之前是略跌趋势),短视频和非短视频的数据增加也明显,现在短视频业务方希望分析师能量化出:大盘的上涨主要是因为短视频带来的。
有些分析师的思路:同一批用户,在试用短视频前后的数据对比
针对这种问题:只能靠AB去解决,在上线短视频功能前就应该AB,否则后面怎么都说不清。
数据分析师在AB测试中需要注意什么:
A、AB两个组是否真的相同——研发负责搭建,但分析师要直到大概原理;
B、策略是否生效——研发说进行了AB测试,但分析师要去抽样看;
C、AB测试评估指标体系——要在AB测试之前,就与研发沟通好要看哪些综合性指标
D、多观察几天数据——往往前几天数据可能有点问题,一般3天后数据才可能正式使用;
E、AB测试的存档规划——所有AB都要文档化,方便后续找增长点。
策略是否生效
常见现象:
产品经理根据分析师的专题报告落地项X,进行某个AB,最后发现效果不明显,此时所有人都觉得X这个优化项没用,也就没有多去做更多尝试;
分析师:痛仰要去对AB组进行抽样,看B组(实验组)的用户是否真的上线了X优化
多说一句:AB测试系统本身就很复杂,出问题是很正常的,我们不一定要很了解内部详细原理,但是要知道有没有明显问题。
评估指标体系:在AB测试前,就要考虑好最终要用哪些指标来评估效果,最好是能设计出一套综合性指标体系,后续做实验直接看报表数据即可,不用每次单独建表。
格式举例:实验策略、用户数、实验时段、次留、时长、点击率
AB测试存档
分析师要定期复盘做了哪些AB,与其效果和实际效果,这个也是落地项的闭环
建议采用5W1H方法来管理AB测试
AB测试项、具体内容、为何测试、测试时间、测试负责人、预期效果、实际效果
思考:
对于设计师:设计思维+AB测试,无论是效率上还效果上,都是极大地提升
对于产品:直觉是不靠谱的,AB测试的闭环能够让我们更好的去理解用户;同时要通过AB测试去总结出,我们的用户到底喜欢什么样的策略和界面,让AB测试本身自我迭代;
对于分析师:
对大多数改动都不会带来大幅效果提升,AB测试旺旺效果都是略好,所以要持续迭代,如果某个实验效果非常好,这个时候就要非常小心了。
所以专题分析也是一个持续的过程,越来越深入,越来越了解用户和产品。