A/B 测试背后的数学原理

A/B 测试是一种强大的技术，用于比较两个不同版本的流程、付费墙或用户引导的表现。其核心目标是根据 12 个月内的平均每用户收入，判断哪个版本更有效。然而，等待整整一年来收集数据并做出决策并不现实。因此，系统采用 2 周每用户收入作为代理指标——该指标基于历史数据分析选定，可近似反映目标指标。为了获得准确可靠的结果，必须采用能够处理多种数据类型的稳健统计方法。贝叶斯统计是现代数据分析中的主流方法之一，为 A/B 测试提供了灵活直观的分析框架。通过引入先验知识并用新数据持续更新，贝叶斯方法能够在不确定性条件下做出更优决策。本文档详细介绍了 Adapty 在评估 A/B 测试结果时所采用的数学分析方法，为数据驱动决策提供有价值的参考依据。

Adapty 的统计分析方法

Adapty 采用全面的统计分析方法来评估 A/B 测试的表现，并提供准确可靠的洞察。我们的方法论由以下关键步骤组成：

指标定义： 要成功开展 A/B 测试，您需要识别并定义与分析的具体目标相符的关键指标。Adapty 利用大量订阅应用的历史数据，确定哪个指标最适合作为”1 年后平均收入”这一长期目标的代理指标——结果是 14 天后的 ARPU。
假设制定： 我们为 A/B 测试创建两个假设。零假设（H0）假设对照组（A）和测试组（B）之间没有显著差异。备择假设（H1）则表明两个或多个组之间存在显著差异。
分布选择： 我们根据数据特征和观测指标选择最佳的分布族。最常见的选择是对数正态分布（考虑零值的情况）。
最优概率计算： 利用贝叶斯 A/B 测试方法，我们计算参与测试的每个付费墙或用户引导变体成为最佳选项的概率。该值与我们之前使用的 p 值相关，但本质上是一种不同的方法，更加稳健且易于理解。
结果解读： “成为最优的概率”正如其字面意思。概率越大，某一选项成为该任务最佳选择的可能性越高。您需要自行确定决策阈值，这应取决于您具体情况的许多其他因素，但通常使用 95% 作为概率标准。
预测区间： Adapty 计算每个组的表现指标的预测区间，提供真实总体参数可能落入的值域范围。这有助于量化与估计表现指标相关的不确定性。

样本量确定

确定合适的样本量对于获得可靠且具有结论性的 A/B 测试结果至关重要。Adapty 考虑统计功效和预期效应量等因素（在贝叶斯方法下这些因素仍然重要），以确保样本量充足。针对我们现在采用的贝叶斯方法，有专门的方法用于估算所需样本量，确保分析的可靠性。

如需进一步了解 A/B 测试的功能，我们建议参阅我们关于创建和运行 A/B 测试的文档，以及了解各种 A/B 测试数据图表与结果。

Adapty 的 A/B 测试分析框架现已采用贝叶斯方法，但核心仍聚焦于数据指标的定义、假设的构建以及分布的选择。与此前计算 p 值不同，我们现在计算后验分布，并求出每个实验变体成为最优版本的概率，同时给出预测区间。这一改进后的方法不仅更加全面，也更为稳健，能够提供更直观、更易于解读的洞察。我们的目标始终如一：通过对 A/B 测试进行严谨的统计分析，帮助企业优化策略、提升效果、实现增长。