A/B 测试中的趋势预测

欢迎阅读 Adapty A/B 测试功能的预测分析文档。该工具将为您正在运行的 A/B 测试提供未来结果洞察,并帮助您借助 Adapty 的机器学习驱动趋势预测,更快速地做出数据驱动决策 🚀。

A/B 测试趋势预测是什么?

Adapty 的 A/B 测试趋势预测采用先进的机器学习技术(特别是梯度提升模型),对 A/B 测试中所比较付费墙的长期收入潜力进行预测。

该预测模型使您能够根据一年后的预计收入来选择最有效的付费墙,而不仅仅依赖于测试运行期间观察到的数据图表。这样一来,您可以更可靠、更快速地确定获胜者,无需等待数周时间积累数据。

模型如何运作?

该模型基于来自不同类别各类应用的大量历史 A/B 测试数据进行训练。它融合了多种特征来预测付费墙在实验开始后一年内可能产生的收入,这些特征包括:

  • 不同时间段的用户交易量和转化率
  • 用户的地理分布
  • 平台使用情况(iOS 或 Android)
  • 退出率和退款率
  • 订阅产品及其周期长度(每日、每月、每年等)
  • 其他与交易相关的数据

该模型还会考虑付费墙中的试用期,利用历史转化率来预测收入,如同用户已经完成转化一样。这确保了有试用优惠和无试用优惠的付费墙之间的公平比较,因为我们也会将仍处于活跃试用期且未来可能带来收入的用户纳入考量。

预测 P2BB 与普通 P2BB 有何不同?

我们的 A/B 测试采用贝叶斯方法:基本上,我们对每位用户的收入分布(具体为”每 1K 用户收入”)进行建模,然后计算一种分布”真正”优于另一种分布而非由随机因素造成的概率——这就是我们所说的最优概率(P2BB)。您可以在此处了解更多关于我们方法的信息。

需要注意的是,在此过程中,我们仅依赖测试运行期间累积的收入。因此,如果您要运行一个比较年度订阅与周订阅的测试,则需要等待很长时间才能真正了解哪种表现更好。类似地,当您在 A/B 测试中比较试用订阅与非试用订阅时,同样会遇到这个问题——因为那些可能改变获胜者格局的活跃试用用户始终未被纳入收入统计。

这正是我们预测模型发挥作用的地方。在掌握 A/B 测试当前收入分布的基础上,结合大量数据集的训练,模型能够预测未来的收入分布(即一年后的状态)。完成预测后,它会给出预测 P2BB——即如果您将测试运行整整一年后所能得到的 P2BB 值。

请注意,有时预测 P2BB 可能与当前 P2BB 相矛盾。在这种情况下,我们会以黄色高亮显示对应的实验变体行,如下所示:

74577c6-CleanShot_2024-02-15_at_13.08.452x.webp

我们认为这是一个信号,提示您应积累更多数据以确认获胜者,或深入分析 A/B 测试以找出背后的原因。通常情况下,我们建议信任预测 P2BB 而非当前 P2BB,因为它考虑了更多的数据,但最终决定当然取决于您自己。

模型精度与可信度

该模型达到了较高的精度水平,平均绝对百分比误差(MAPE)略低于 10%。这一精度水平使企业在做出数据驱动决策时,能够自信地依赖模型的预测结果。

为进一步确保稳定性,模型采用基于以下三个因素的”可信度”标准:

  • 较窄的预测区间——模型对其结果具有较高置信度
  • 测试中具有足够数量的订阅和收入
  • 距测试开始至少已过去 2 周

为确保预测质量达到尽可能高的标准,只有在至少满足其中两个标准且第三个标准未完全失败的情况下,预测才被认为是可靠的。

当新的 A/B 测试开始时,模型会为每个付费墙提供一年后的每千用户收入(我们的主要 A/B 测试数据图表)预测。只有满足可信度标准的预测才会显示。如果数据不足,模型将提示”数据不足,无法进行预测”。

局限性与注意事项

虽然我们的预测模型是一个强大的工具,但考虑其局限性同样重要。

模型的性能取决于可用数据的质量和代表性。异常的同期群行为或训练集中未包含的新应用可能会影响预测精度。

尽管如此,趋势预测每天都会更新,以反映最新数据和用户行为,确保您获得的洞察始终基于最新信息。

🚧 注意:该工具是对您专业判断和对应用独特动态理解的补充,而非替代品。请将这些预测作为参考,结合其他数据图表和市场知识,做出明智的决策。