• トップ
  • ナレッジ
  • 因果関係と相関関係の違い データ分析によりプロダクトをグロースさせるには
  • トップ
  • Amplitude
  • 因果関係と相関関係の違い データ分析によりプロダクトをグロースさせるには

因果関係と相関関係の違い データ分析によりプロダクトをグロースさせるには

2021.08.10

f:id:growth-marketing:20201124150914p:plain

「広告を出稿したら、自社ECサイトの購入数が増えた」

広告とECサイトの購入数は因果関係、相関関係のどちらにある思いますか?

一見、因果関係があるように思えますが、これだけで判断してしまうのは危険です。

因果関係と相関関係。

この2つはよく混同されがちです。

プロダクトをグロースさせるためは、ユーザーに行ってもらいたい行動(購入、継続利用など)と因果関係がある行動をデータ分析から見つけ出すことが非常に重要となります。

この記事では、因果関係と相関関係の違い、因果関係を特定するテスト方法について説明します。

広告とECサイトの購入数についても解説していますので、因果関係と相関関係の違いがきちんと把握できていない、因果関係を見つけ出しプロダクトグロースを目指したい人はぜひ参考にしてみて下さい。

因果関係とは

因果関係とは「原因と結果の関係にあること」です。

Aというアクション(原因)によってB(結果)が変化することを指しています。

因果関係では、時間順序(出来事の起こる順番がある)と直接性(お互いが直接的に関係していること)という特徴があります。

例えば、「雨が降ったらお店の来店客が減る」という場合で考えてみて下さい。

この場合、「雨が降る」という原因がきっかけで、「来店客が減る」といった「結果」が起きています。

これらの出来事は「来店客が減る前に雨が降る」という時間順序を満たし、「お客は雨で外出が面倒になって店に来ない」という直接性の条件も満たしており、因果関係にあると言えるでしょう。

このように、因果関係のある出来事は、お互いに相関関係を持っています。

相関関係とは

相関関係とは、「片方の値ともう一方の値の大きさに関連性がある」関係のことです。

「Aが増加した際、Bも同じように増加する傾向にある」といった関係性のことを相関関係と言います。

相関関係の特徴として「出来事の起こる順番は関係なく」、「お互いに影響がない可能性がある」「因果関係があるとは限らない」というものがあります。

例えば、先程の例「雨が降ったらお店の来客数が減る」では「雨が降る」と「来客数が減る」という2つの出来事には相関関係があると言えます。

その他にも学歴と年収。学歴が高ければ年収も高くなりそうなイメージがあり、学歴と年収には因果関係がありそうですが、高学歴であるからといって必ずしも年収が高いというわけではありませんので、因果関係はないということになります。

しかし、高学歴である人ほど高年収である傾向があることは事実としてあるため、学歴と年収は相関関係であると言えるのです。

因果関係と相関関係の違い

因果関係と相関関係は似ており、混同してしまいがちですが違いを区別しておくことが重要です。

一見因果関係があるように見える2つの出来事でも、よく調べてみると他の要因にも影響されており、実際は相関関係であることがよくあります。

ビジネスにおいて、因果関係を見つけ出すことは、そのまま収益アップに直結することもありますので、二つの違いをしっかりと理解しておきましょう。

因果関係は2つの出来事が「原因と結果」の関係にあることを意味しています。

因果関係の特徴としては、

・時間順序
・直接性
・相関関係である

ということが挙げられます。

一方相関関係はAの増加に伴い、Bも増加する傾向にあるなど、2つの出来事に「何らかの関連性がある」ことを指します。

相関関係の特徴は、

・出来事の起こる順序は関係ない
・お互いに影響がないこともある
・因果関係であるとは限らない

です。

プロダクトのグロースにおける因果関係の重要性

プロダクトをグロースさせるために、因果関係を見つけることは非常に重要となります。

「Aというアクションをするユーザーは、継続して利用する」という因果関係を発見することができれば、ユーザーにAという行動を起こしてもらうための施策を考えることでプロダクトを成長させることが可能となるからです。

しかし実際には、因果関係はそう容易に見つけ出せるものではありません。ビジネスにおいてはその他の要因となりうるものが多数存在し、それぞれが相互しあって継続に至っているケースがほとんどだからです。

冒頭で記載した「広告を出稿したらECサイトの購入数が増えた」を例に説明します。

ECサイトでデジタル広告を出稿してサイトのページビューが大きく増えたタイミングと、購入数が増えたタイミングが合わされば、広告出稿がコンバージョン増加の要因であると想像されます。

これだけを見れば広告が大成功した、と考えてしまいます。しかしここで安易に「因果関係がある」と判断をしてしまうのはよくありません。

確かに広告を出稿してサイトのページビューが大きく増えたが、良く調べてみると、実は同時期に著名人がある商品をSNSで紹介しており、その結果購入が増えていたということが起こりうるのです。

この例のように、よく調べてみると出来事と結果が因果関係ではなく、実は相関関係であるといったことはよく起こってしまいます。

プロダクトをグロースさせるには、購入などのコンバージョンイベントに対して因果関係のある行動を「データ分析から」導き出すことが重要です。

広告を出稿して購入数が増えれば、成功したと思い込みたくなる気持ちは分かりますが、そこを抑えて客観的にデータを分析することは、次の施策を考える時にもとても大切となります。

データ分析に関してはこちらの記事でも紹介しておりますので、是非ご覧ください。

「とりあえずデータ分析せよ」と言われたら

米国で行動分析ツールを提供するユニコーン企業、Amplitude(アンプリチュード)もプロダクトのグロースにおける因果関係把握の重要性を以下の記事で伝えています。

本記事はAmplitude社より許諾を得て株式会社DearOneが翻訳、転載しております。

因果関係と相関関係は同時に存在することもあり得ますが、「相関関係すなわち因果関係」というわけではありません。

相関関係と因果関係は、一見、似ているように思われます。しかし、その違いを認識することは、価値の低い機能に労力を無駄に費やすか、あるいは、常に顧客が絶賛するプロダクトを開発するかの岐路となり得ます。

本文では、特にデジタルプロダクトの構築と、ユーザーの行動の理解についての相関関係および因果関係に焦点を当てます。これは、プロダクトマネージャー、データサイエンティストやアナリストにとって、特定の機能がユーザーのリテンションまたはエンゲージメントに影響するか、といった最適な知見をプロダクトグロース(製品の成長)に活用する上で役立ちます。

本文の閲読後は、以下が可能になるでしょう:

  • 相関関係と因果関係の主な違いを「認識」する
  • 相関関係と因果関係の主な違いを「理解」する
  • 因果関係の有無のテストのための、2 つの強力な手法ソリューションの活用

相関関係と因果関係の違いは?

因果関係と相関関係は同時に存在し得るものの、相関関係は因果関係を意味するものではありません。因果関係は、「アクション A」の結果として「アクション B」に至る場合には、明らかに存在するものです。一方、相関関係とは単なる「関係性」です。「アクション A」は「アクション B」に関連しているものの、ひとつのイベントが必ずしも他方のイベントを発生させるとは限りません。

相関関係と因果関係はしばしば混同されます。なぜなら人間の心理として、何かしらの「パターン」を(実際は存在しない場合でも)特定したいと考えるからです。私たちは、2 つの変動する要素が、相互に極めて密接に関連していると見られると、一方が原因で他方が発生するという誤った「パターン」を作り上げがちです。その場合、因果関係の存在を示唆し、(他方の要素により発生する)従属的なイベントは、独立したイベントの結果だということになります。

しかし、2 つのイベントが一見、同時に発生するのを目の当たりにしたとしても、単純に因果関係があるとは推察できません。というのは、まず、私たちが観察している状態は、裏付けがまったくなく、さらに他にも以下のような関連性が複数、存在する可能性があるからです。

  • 逆もまたしかり: 実際は、「アクション B」が「アクション A」を引き起こしている
  • 2 つには相関性がありますが、それ以上の要素が存在します: 「アクション A」と「同 B」には相関性があるものの、実際には原因は「アクション C」である
  • 関連する別の変数があります: 「アクション D」が発生する限りにおいて、「アクション A」は「同 B」を引き起こす。
  • 連鎖反応があります: 「アクション A」は「アクション E」を発生させ、その結果、「アクション E」が「アクション B」を引き起こす(ただし、ご自身が実際に観察したのは「アクション A」が「アクション B」を引き起こしたという現象のみ)

プロダクト分析における相関関係と因果関係の例

ご自身のプロダクトにおいて、特定のユーザーによるアクションや行動が、ある結果につながる因果関係が存在すると想定されているかもしれません。

次を例に、考えてみてください: モバイルアプリの新バージョンをリリースしたばかりだとします。そして、同アプリのユーザーのリテンションは、アプリ内での(ユーザーによる)ソーシャル的な行動に関連すると想定する、「賭け」に出ます。次に、ご自身のチームに、ユーザーによる各種「コミュニティ」への参加を可能にする新機能の開発を依頼します。

新しいコミュニティ機能をリリースおよび発表した 1 カ月後、全ユーザーにおける同機能の普及率は 約 20% でした。そこで、コミュニティがリテンションに影響を及ぼすのか否かを把握するため、無作為にユーザーを選択し、同規模のコホートを 2 つ作成します。ひとつはコミュニティに参加したユーザーのみのコホート、他方はコミュニティに参加しなかったユーザーのみのコホートです。

分析で明らかになった事実は衝撃的でした: 少なくともコミュニティ 1 つに参加したユーザーは、平均的なユーザーに比べ、はるかに高い割合でリテンションが保たれていたのです。

f:id:growth-marketing:20201124151826p:plain

コミュニティに参加した人の 90% 近くは(同機能使用の)1 日目にアプリを使用し続け、参加しなかった人の 50% を上回っています。7 日目までには、コミュニティ参加ユーザーのリテンション率は 60%、不参加ユーザーのリテンション率は約 18% になりました。同機能は大成功とうかがえます。

f:id:growth-marketing:20201124152137p:plain
出典 https://xkcd.com/925/

ただ、少し立ち止まってみましょう。合理的には、コミュニティへの参加がリテンション向上につながると断言するに足る情報はないことは理解されているはずです。分かっているのは、 2 つに相関関係があることだけです。

プロダクトにおける因果関係を特定するテスト方法は?

因果関係は、偶然に発生するものではありません。

ある 2 つの変数を「原因と結果」として関連付ける誘惑にかられることもあるでしょう。しかし、確実な分析によって因果関係を確認せずに関連付けを行うと、因果関係があるように見えながら、実際はないという「誤判断(フォールスポジティブ)」につながることがあります。従属的変数と独立変数の関係について、広範なテストを実施しない場合に陥り得る状況です。因果関係が存在すると断言する前に、2 つの変数の関係性を幅広くテスト、検証しましょう。

誤判定は、プロダクトに関する知見を生成する上で問題となります。「重要な結果とユーザーの行動とのつながりを理解している」という間違った判断が生じるからです。例えば、主要なアクティベーション・イベント がユーザーの長期リテンションに帰結することが分かっている、と考えてしまう場合もあるでしょう。しかし、厳密なテストを行わない限り、誤ったユーザーの行動に基づいて、プロダクトに関する重要な意思決定を下してしまうリスクが生じます。 

確実な実験を繰り返し、因果関係を特定しましょう

相関関係を特定した後は、「他の変数を管理し、差分を測定する」実験を複数、行い、因果関係に関するテストを実行できます。

プロダクトにおける因果関係を特定するために実施できるこのような実験として、以下の 2 つが挙げられます。

  •  仮説検定(hypothesis testing)
  •  A/B/n テスト

仮説検定

最も基本的な仮説検定には、H0(帰無仮説)および(H0 が成立しない場合の)H1(ご自身の立てた 1 次的な仮説)が関与します。2 次的、3 次的な仮説を設定することもできます。

帰無仮説は、1 次的な仮説に対立する(の逆となる)ものです。というのは、100%の確度で 1 次的な仮説を証明することはできないながら(可能でも高くて 99%)、帰無仮説を「反証」することは可能だからです。

1 次的な仮説は、ご自身が調査している因果関係の存在を示唆しており、独立変数と従属変数が特定されているはずです。

まず初めにご自身の H1 を設定し、次にこれに対立する現象を特定して H0 とするのが最適です。H1では、独立変数と従属変数の間に想定する因果関係が特定されている必要があります。前述のアプリ内のソーシャル機能がリテンションに与える影響を例とすれば、独立変数はコミュニティへの参加、従属変数はリテンションとなります。したがって、ご自身の仮説は以下となります。

H1: ユーザーが(アプリ使用開始後)1 カ月以内にプロダクト内のコミュニティに参加した場合、そのユーザーは 1 年以上、顧客であり続ける。

次に、H1 を否定し、帰無仮説を立てます:

H0: アプリ内コミュニティへの参加とユーザーのリテンションの間に関連性はない。

目標は、設定した様々な仮説の間の、実際の違いを観察することです。統計的優位性により帰無仮説を棄却できる場合(理想的な信頼性:最低95%)、独立変数と従属変数の関係性の理解に近づいているといえます。上述の例では、コミュニティへの参加がリテンション率向上に帰結する事実を確認することにより、帰無仮説を棄却できる場合(– 結果に影響を与え得る交絡変数を調整しつつ — )、コミュニティとユーザーのリテンション間に何かしらの関係性が存在するという結論を下すことができます。

この仮説をテストするには、想定する原因(独立変数)と効果(結果変数)との関係を正確に反映する方程式を作成します。ご自身のモデルにおいて、露出変数に値を入れられ、また、実際の観測データを反映する結果を一貫して得られる場合は、新たな発見に至っている可能性が高いでしょう。

仮説検定を活用すべき状況

仮説検定は、事例証拠を検証するのではなく、2 つの特定の変数間に実際に関連性があるか否か、識別したい時に有用です。履歴データに注目し、時間の経過に伴う変化を調べる経時的な分析(longitudinal analysis)を行うことをお勧めします。例えば、プロダクトのリリース後、最初に使用を始めたユーザーが最大のプロダクト推奨者であるか、調査することもできます。ユーザーによるプロダクト紹介のパターンを確認し、このような関係性を、長期間における他の製品ローンチ時と比較することも可能です。

あるいは、データのスナップショットを解析するクロス・セクション分析(cross-sectional analytics)も実行できます。これは、一定期間における傾向の推移・変化ではなく、(ある要素に対する)特定の露出(エクスポージャー)および結果がもたらす影響を調べる場合に役立ちます。例として、休暇シーズン限定のプロモーションと売上の関係性を把握したい際などに役立つでしょう。

A/B/n(多変量)テストによる実験

別の手段としては、A/B/n(多変量)テストを行うことで、相関関係から因果関係の特定へと進むことが可能です。結果が(同様の傾向で)一貫して変化しているのであれば、違いを生む変数を発見したことになります。個々の変数について考察し、ひとつを変更することにより、発生する現象を確認します。

アンドリュー・チェン(Andrew Chen)氏は、次のように表現しています。「自身に合ったモデルを発見したら、次のステップはそのモデルで A/B テストを行うことです。他の何かしらの要素を犠牲にする可能性もありますが、入力変数を優先し、増加させるアクションを試してみてください」「結果として、対象ユーザーの成功体験が他のユーザーよりも増すか、確認しましょう。成功指標に大きな変化が見られる場合は、良い状態にあります。変化がなければ、あまり優れたモデルとは言えないでしょう」

「コミュニティへの参加がリテンション率向上につながる」と主張するには、結果に影響を及ぼし得る他のすべての変数を排除するべきです。例えば、ユーザーは別の経路をたどっている可能性もあり、それが最終的にレテンションに影響している場合も考えられます。

因果関係があるか否かをテストするには、コミュニティに参加しているユーザーと、アプリを長期間使用しているユーザーとの間の、直接的なつながりを特定する必要があります。

アプリのオンボーディング・プロセスから始めましょう。これから登録する最初の 1000人のユーザーを 2 つのグループに分けます。ひとつのグループ(ユーザーの半数)には初めてアプリに登録した際に強制的にコミュニティに参加してもらい、他方は不参加とします。

実験を 30 日間、行った後、2 つのグループ間のリテンション率を比較します。

コミュニティへの参加が必須だったグループのリテンション率が相対的に高いことが分かれば、コミュニティ参加とリテンションの間に因果関係があることを裏付けるエビデンス(証拠)を得たことになります。コミュニティがリテンションを促進する理由を把握するため、この関係性は、さらに掘り下げて調べる価値があるでしょう。

こうした種類の実験を実施するまで、異なる要素間の関係性について確信は持てません。

A/B/n(多変量)テストを行うべき状況

A/B/n(多変量)テストもしくはスプリットテストは、様々なバリエーション(キャンペーン、プロダクトの機能やコンテンツ戦略など)の効果を比較する上で理想的な手段です。例えば、プロダクトのオンボーディング・プロセスについてスプリットテストを行えば、以下を始めとする特性に基づき、様々な戦略の効果を比較できます。

  • コピーの複数のバリエーション
  • 異なるグラフィック
  • サードパーティ製アプリの使用による、ユーザーの氏名と会社名の自動認識
  • 登録フォーム(あれば)のフィールド数を減らす

複数の製品オンボーディング・プロセスのバリエーションをテストした後、結果を確認すれば、離脱率やコンバージョン、さらにはリテンションといった指標の比較ができます。

持続的なプロダクトグロースの実現:最適な相関関係に基づくアクションを

私たちは常に、周囲に存在する「パターン」を探しています。したがって、「デフォルトの目的」は、目にする現象を説明できるよう図ることです。因果関係を明確に特定できない限り、把握しているのは相関関係のみだと想定するべきです。

常識的にはつながっているように見える複数のイベントは、明確かつ直接的な関連性を証明できない限り、因果関係とは見なされません。また、因果関係と相関関係は同時に存在し得るものの、相関関係は因果関係を意味するものではありません。

ご自身のプロダクトにおける「真の相関関係」の明確化に精通すればするほど、ユーザーエンゲージメントとリテンションの向上に向けた施策に、より適切な優先順位を付けられるようになるでしょう。

***

プロダクトグロースの促進には、強力なリテンション戦略が必要です。

リテンションを改善するためのツール、戦略および実際の例に関する専門家のアドバイスについては、プレイブック(戦略集)をご参照ください。

📚プレイブックをダウンロード

amplitude.com

本記事はAmplitude社より許諾を得て株式会社DearOneが翻訳、転載しております。
———————————————————————————–
公開日:2019/9/20
Amplitude | インストラクショナル・デザイナー
アルチャナ・マッドヘイヴン (Archana Madhavan)


Amplitude のカスタマーエデュケーション・チームのインストラクショナル・デザイナー。マッドヘイヴンは Amplitude のユーザー様が、より優れたプロダクトの構築に向け、顧客データの分析を進化させることができるよう、教育コンテンツの作成やコースの開発に従事しています。

引用元:Amplitude社ブログ