A/B 测试背后的数学原理

A/B 测试是一种强大的技术,用于比较付费墙或用户引导的两个不同版本的表现。其最终目标是根据 12 个月内的平均每用户收入来确定哪个版本更有效。然而,等待整整一年来收集数据并做出决策是不切实际的。因此,采用 2 周的每用户收入作为代理指标,该指标基于历史数据分析,以近似目标指标。为了获得准确可靠的结果,使用能够处理多种数据类型的稳健统计方法至关重要。贝叶斯统计是现代数据分析中流行的方法,为 A/B 测试提供了灵活直观的框架。通过整合先验知识并用新数据更新,贝叶斯方法允许在不确定性下做出更好的决策。本文档全面介绍了 Adapty 在评估 A/B 测试结果时所采用的数学分析方法,为数据驱动的决策提供有价值的洞察。

Adapty 的统计分析方法

Adapty 采用全面的统计分析方法来评估 A/B 测试的表现,并提供准确可靠的洞察。我们的方法论由以下关键步骤组成:

  1. 指标定义: 要成功开展 A/B 测试,您需要识别并定义与分析的具体目标相符的关键指标。Adapty 利用大量订阅应用的历史数据,确定哪个指标最适合作为”1 年后平均收入”这一长期目标的代理指标——结果是 14 天后的 ARPU。
  2. 假设制定: 我们为 A/B 测试创建两个假设。零假设(H0)假设对照组(A)和测试组(B)之间没有显著差异。备择假设(H1)则表明两个或多个组之间存在显著差异。
  3. 分布选择: 我们根据数据特征和观测指标选择最佳的分布族。最常见的选择是对数正态分布(考虑零值的情况)。
  4. 最优概率计算: 利用贝叶斯 A/B 测试方法,我们计算参与测试的每个付费墙或用户引导变体成为最佳选项的概率。该值与我们之前使用的 p 值相关,但本质上是一种不同的方法,更加稳健且易于理解。
  5. 结果解读: “成为最优的概率”正如其字面意思。概率越大,某一选项成为该任务最佳选择的可能性越高。您需要自行确定决策阈值,这应取决于您具体情况的许多其他因素,但通常使用 95% 作为概率标准。
  6. 预测区间: Adapty 计算每个组的表现指标的预测区间,提供真实总体参数可能落入的值域范围。这有助于量化与估计表现指标相关的不确定性。

样本量确定

确定合适的样本量对于获得可靠且具有结论性的 A/B 测试结果至关重要。Adapty 考虑统计功效和预期效应量等因素(在贝叶斯方法下这些因素仍然重要),以确保样本量充足。针对我们现在采用的贝叶斯方法,有专门的方法用于估算所需样本量,确保分析的可靠性。

如需进一步了解 A/B 测试的功能,我们建议参阅我们关于创建运行 A/B 测试的文档,以及了解各种 A/B 测试数据图表与结果

Adapty 的 A/B 测试分析框架现已采用贝叶斯方法,但重点仍在于指标的定义、假设的制定以及分布的选择。然而,我们现在不再确定 p 值,而是计算后验分布并计算每个实验变体成为最优的概率。我们现在也确定预测区间。这种修订后的方法虽然仍然全面且更加稳健,但旨在提供更直观、更易于解读的洞察。目标仍然是通过对 A/B 测试进行稳健的统计分析,帮助企业优化策略、提升表现并推动增长。