A/B テストの背後にある数学

A/B テストは、フロー、ペイウォール、またはオンボーディングの2つの異なるバージョンのパフォーマンスを比較するための強力な手法です。最終的な目標は、12か月間のユーザーあたりの平均収益に基づいて、どちらのバージョンがより効果的かを判断することです。しかし、データを収集して意思決定を行うために丸1年待つのは現実的ではありません。そのため、目標指標の代替として2週間のユーザーあたりの収益が使用されており、これは過去のデータ分析に基づいて選択されています。正確で信頼性の高い結果を得るためには、多様なデータタイプを扱える堅牢な統計手法を使用することが重要です。現代のデータ分析で人気のアプローチであるベイズ統計は、A/B テストに柔軟で直感的なフレームワークを提供します。事前知識を取り込み、新しいデータで更新することで、ベイズ手法は不確実性の下でより良い意思決定を可能にします。このドキュメントでは、A/B テスト結果の評価とデータ駆動型の意思決定に向けた貴重なインサイトの提供において、Adapty が採用している数学的分析の包括的なガイドを提供します。

統計分析に対する Adapty のアプローチ

Adapty は、A/B テストのパフォーマンスを評価し、正確で信頼性の高いインサイトを提供するために、包括的な統計分析アプローチを採用しています。私たちの方法論は以下の主要なステップで構成されています：

指標の定義： A/B テストを成功させるには、分析の具体的な目標や目的に合致する主要指標を特定・定義する必要があります。Adapty は大量のサブスクリプションアプリの過去データを活用し、1年後の平均収益という長期目標に対するプロキシ指標として最適なものを特定しました。それは14日後の ARPU です。
仮説の設定： A/B テストのために2つの仮説を作成します。帰無仮説（H0）は、コントロールグループ（A）とテストグループ（B）の間に有意な差がないと仮定します。対立仮説（H1）は、2つ以上のグループの間に有意な差があることを示唆します。
分布の選択： データの特性と観察している指標に基づいて、最適な分布ファミリーを選択します。ここで最も頻繁に選択されるのは対数正規分布（ゼロ値を考慮したもの）です。
ベストである確率の計算： A/B テストへのベイズアプローチを活用して、テストに参加しているすべてのペイウォールまたはオンボーディングのバリアントに対して、ベストである確率を計算します。この値は以前使用していた p 値と確かに関連していますが、本質的には異なるアプローチであり、より堅牢で理解しやすいものです。
結果の解釈： 「ベストである確率」は文字通りその意味です。確率が高いほど、特定のオプションがタスクに対して最良の選択である可能性が高くなります。意思決定のしきい値は自分自身で決定する必要があり、具体的な状況の多くの要因に依存すべきですが、一般的な確率の基準は 95% です。
予測区間： Adapty は各グループのパフォーマンス指標に対する予測区間を計算し、真の母集団パラメータが収まる可能性のある値の範囲を提供します。これにより、推定されたパフォーマンス指標に関連する不確実性を定量化できます。

サンプルサイズの決定

適切なサンプルサイズを決定することは、信頼性が高く決定的な A/B テスト結果を得るために重要です。Adapty は、現在採用しているベイズアプローチにおいても依然として重要となる統計的検出力や期待効果量などの要因を考慮し、適切なサンプルサイズを確保します。現在採用しているベイズアプローチに特有の、必要なサンプルサイズを推定するための手法が、分析の信頼性を担保します。

A/B テストの機能について詳しくは、A/B テストの作成とA/B テストの実行に関するドキュメント、およびA/B テストの指標と結果の理解をご参照ください。

Adapty の A/B テスト向け分析フレームワークはベイズアプローチを採用するようになりましたが、指標の定義、仮説の設定、分布の選択に焦点を当てるという点は変わりません。ただし、p 値を決定する代わりに、事後分布を計算し、各バリアントがベストである確率を算出するようになりました。また、予測区間も算出しています。この改訂されたアプローチは、依然として包括的でさらに堅牢でありながら、より直感的で解釈しやすいインサイトを提供するように設計されています。目標は、A/B テストの堅牢な統計分析に基づいて、企業が戦略を最適化し、パフォーマンスを向上させ、成長を促進できるよう支援することです。