活用から逆算するデータウェアハウス(DWH)構築完全ガイド

公開日:

このような課題があり、新たにデータ基盤、特に分析などで使うためのDWH(データウェアハウス)基盤の構築を検討・着手する企業が増えています。

しかし実際には、「データ基盤を作ったものの活用が進まない」という課題も少なくありません。その原因の一つが、基盤の全体像や具体的なユースケースが曖昧なまま進めてしまうことです。

この記事では、多くの企業のデータ活用支援を行ってきたコンサルの視点から、データウェアハウス基盤構築の全体像や具体の活用から逆算したポイント、ユースケースの考え方についてご紹介します。

全体像:データウェアハウス(DWH)とは?

まずは前提として、データ活用の基盤となるデータウェアハウス(DWH)の役割を簡単にご紹介します。

データ活用におけるデータウェアハウスの役割

データウェアハウスは社内に散在するデータを、誰もが使える形に整え、その後の様々な用途での活用の起点となる「倉庫」のシステムです。

多くの企業では、売上データは基幹システム、顧客データはCRM、行動データはWebやアプリ、広告データは外部の広告ツールといったように、データがシステムごとに分断されています。データウェアハウスは、これらのバラバラなデータを一箇所に集約し、同じ定義・同じ視点で扱えるように整理する役割を担います。

最近ではAI活用の文脈において、一元化され整ったデータの活用基盤であるデータウェアハウスの重要性がますます高まっています。

データ活用の全体像

企業がデータ活用を行う際、大きく「データを集める → 整える → 使う」という3つのステップに分けることができます。

データを集める:データレイク

データを集める工程では、レイクと呼ばれる雑多なデータを入れておける「池」のようなシステムを使うことが多くあります。まずは未加工の状態のデータや、音声や画像などの非構造化データをデータレイクに集め、そこから加工を行い使えるデータにしていくという流れになります。

データを整えて整頓する:データウェアハウス

データウェアハウスでは、データレイクに集められたデータを活用しやすい形に整形します。

その際、分析やマーケティングでの活用が想定されるデータなどは、スタースキーマというデータモデルの手法で加工されることが多くあります。

スタースキーマとは?

データ分析をしやすくするために、データを「事実」と「属性」に分けて整理するデータモデル(設計方法)のこと

参考:スタースキーマとは何ですか?|databricks

データを使う:BIツールやマーケティングツール

データウェアハウスで整頓されたデータは、その後BIツールでの可視化やCRMツールでのマーケティング施策など様々な用途で活用されます。

その際、各ツールとデータウェアハウスとのデータ連携を構築する必要があり、この工程を「リバースETL」と呼びます。

最近では各ツール側の機能で、データを連携しなくてもデータウェアハウスのデータを使える「ゼロコピー」という技術も出てきています。しかし、その分パフォーマンスが落ちたり、運用がツール側に依存してしまいリプレイスが大変になるなどの注意点もあります。

💡関連記事:リバースETL(Reverse ETL)とは?効果や活用事例

データウェアハウス(DWH)の最新トレンド

データウェアハウスはクラウドで構築するのが主流に

現在、データウェアハウスを導入する企業の多くが、クラウド型の製品を採用しています。

従来のオンプレミス型では、サーバーの調達や運用管理、利用量の増加に伴う拡張対応などに多くの手間がかかるという課題がありました。

一方、クラウド型のデータウェアハウスでは、インフラ管理の負担を抑えながら、データ量や利用用途の増加に応じて柔軟に拡張できるため、現在では主流の選択肢となっています。

「モダンデータスタック」時代のコンセプト

また、企業全体でクラウド型SaaSの利用が増えていることを背景に、データウェアハウスを中心としたクラウド型のデータ活用アーキテクチャである「モダンデータスタック」という考え方も広まっています。

モダンデータスタックとは、一元化されたデータソースとしてデータウェアハウスを据え、それと接続する形でさまざまな用途に合わせたツールを使うというコンセプトです。

「データの統合と活用」という文脈が今の時代とマッチしており、これからより普及することが予想されます。

💡関連記事:Modern Data Stack(モダンデータスタック)とは?これからのデータ活用基盤の形

具体活用:データウェアハウスのユースケースとは?

データウェアハウスを構築する際、失敗の原因で最も大きなものは「活用のユースケースが整理しきれない」というものです。ユースケースは事前に十分な議論を重ねブラッシュアップすることが不可欠です。

ここでは、代表的なユースケースを紹介します。

データ分析活用

最もメジャーなデータウェアハウスの用途は、データ分析での活用です。

BIツールと組み合わせて、サービスのKPIなど、指標の定点観測や経営レポートの定期的な作成などを行うことでデータ集計の作業を圧倒的に効率化できます。

また、Pythonなどの言語を用いた詳細分析やセグメント分析も、データウェアハウスの環境ではよりスムーズに行うことができます。こうした高度な分析は大量データの処理に優れたデータウェアハウスが得意とする点です。

営業、マーケティング活用

分析の他、ビジネス成果として数字で結果が見えやすい営業、マーケティングの領域での活用も多くの企業で行われています。

特に1to1マーケティングの実現のためには、それぞれの施策を行う配信ツールだけでなく「ユーザーごとの統合されたデータ」を持つデータウェアハウスが必要です。

データウェアハウスでは、サービスを横断したデータ、商品やセール、在庫などの豊富なデータも組み合わせて活用できるため、ユーザーにとって会社単位で一貫したサービス提供が可能になります。

AI活用

分析や営業、マーケティングでの活用を、さらに高度化するためにAI活用が急速に進んでいます。

音声や画像、SNS投稿など、これまでは活かしきれていなかった種類のデータを用いた分析や、ユーザーデータを用いた予兆モデルやスコアリングに基づくマーケティング施策の実施など、AIプラットフォームとしてのデータウェアハウス活用が行われています。

ユースケースの具体化のポイント

上記のような活用シーンにおける、自社でのユースケースをなるべく具体化することがデータウェアハウス構築の成功のために重要です。

具体化の際に役立つ「考え方」の観点として下記の2点を紹介します。

今やっていることの自動化、効率化

ユースケースを考える際、イメージを持ちやすいのは「今行なっている業務の自動化、効率化ができないか」という観点です。

自動化や効率化の観点で考えることで、下記のようなユースケースを導くことができます。

レポーティング

今の課題

KPIなどの主要指標はBIツールでレポートが作れているが、実施した施策ごとの効果測定には膨大な時間がかかり、十分にレポーティング自体ができていない場合がある

改善イメージ

施策ごとの対象ユーザーリストや施策に対する行動ログ、POS購買データなどのコンバージョンデータをデータマートとして用意することで、ユーザー軸で施策効果を測定できる状態に

データ抽出、連携

今の課題

営業部門はSalesforceから毎回CSVをダウンロードしてBIツールに接続している。Salesforceへの更新情報の連携も、営業担当者が手入力で対応している。

改善イメージ

Salesforceからデータウェアハウスへの日次ETLフローを構築し、お問い合わせ履歴やコールセンター履歴、解約情報などをデータウェアハウスからSalesforceへ連携。顧客情報を自動更新できる状態にする。

セグメント抽出

今の課題

ターゲティング施策に必要なデータを施策ツールに取り込み、SQLでデータ加工・整形した上でセグメントを抽出している。その結果、各ツールでデータの重複やサイロ化が発生してしまっている。

改善イメージ

データウェアハウス上でより複雑な条件を使って施策用のユーザーリストを抽出し、必要なリストのみを施策ツールへ連携することで、元データの重複を解消できる。

今やっていることの高度化

データウェアハウスのより豊富で統合されたデータを使うことで、さらに高度化ができないか?という観点でもユースケースを考えることができます。

レポーティングの高度化

現在

それぞれの組織が手に入るデータから売上に関するレポートなどを作成。

高度化イメージ

売上や経営のレポートに天候や人流のデータを組み合わせて、より様々な観点でデータ分析できるようにする。また、それを週次で自動更新されるようにする。

分析の高度化

現在

デモグラなどの静的データで顧客分析を実施。会員ランクごとの購買傾向の分析。

高度化イメージ

Webサイトやアプリ上のユーザー行動データを活用し、購買行動に影響を与える特徴的なユーザー行動を分析。さらに、レビューやお問い合わせ内容をAIで感情分析し、サービス改善点を把握する。

マーケティング施策、ターゲティングの高度化

現在

メールやプッシュなど各チャネルでバラバラに施策を配信。ユーザーの施策反応など「結果」で分岐するシナリオ施策。

高度化イメージ

データウェアハウスで生成した予兆モデルやスコアリングに基づく「予兆型」のターゲティングを実施。さらに、自社の複数サービスや事業を横断したセグメント抽出により、クロスセル訴求やロイヤリティ施策を展開。

活用から逆算するデータウェアハウス構築のステップ

ここではデータウェアハウスの構築におけるステップやポイントについて紹介します。

構築の手順や流れと合わせて、主に目的となるユースケースを実現するための注意点について解説します。

構築の4ステップ

データウェアハウスの構築においては、他のシステム開発と同様に要件定義から始め、設計、開発、運用といったステップを踏みます。

  • STEP1:要件定義(目的を定める)
  • STEP2:設計(アーキテクチャ設計)
  • STEP3:実装、開発(ETL、テーブル開発、権限管理)
  • STEP4:保守・運用(BIツール連携、分析など)

データウェアハウスは、システムの利用ユーザーがビジネス部門や経営部門など、構築をした組織とは異なることが多くあります。その場合は、スモールスタートで始めてユースケースの実現を積み重ねながら拡張する方が活用される基盤の構築につながります。

ユースケース実現における構築の注意点

ここでは、データウェアハウスの構築時にユースケース実現の落とし穴になりがちな点を3点紹介します。

データの統合

データの活用を考える際、使うデータが用途に合わせた軸で統合されているかは非常に重要です。

例えば、複数サービスを展開している企業では「サービスAとサービスBで使っているユーザーIDが異なっている」などの場合も多くあります。

その場合は、データウェアハウス内でIDを統合するためのロジックの設計や、すべてのサービスで使うための共通IDを導入するなどの工夫が必要です。

データの鮮度

データウェアハウスに投入するデータは、データソースによってどのタイミングで連携されるかバラバラです。また、ユースケースによって求められるデータの鮮度も異なるため、データ鮮度のニーズを事前に把握しておくことが重要です。

  • 月1回のレポーティング作成で使えれば良いのか
  • 毎朝8時にはテーブルが更新されていて欲しいのか など

ユースケースに対して鮮度が合わないデータは途端に使われなくなってしまいがちです。

データ加工や処理の流れにおいて、主にデータの取り込み、テーブル更新、外部ツールへの連携(リバースETL)などの工程で時間がかかります。そのため、これらの処理を効率的に実行できるよう、あらかじめ適切なデータ連携や更新の設計を行うことが重要です。

利用者の想定

特に運用フェーズで問題になりがちなのは、構築した基盤が利用者のスキルやニーズと合わないケースです。

データウェアハウスのデータを実際に誰が抽出・分析するのか、作業者はどのインターフェースを使うのかといった点を十分に想定しないと「データはあるのに使えない」「活用が進まない」という事態に陥りがちです。

特にビジネスユーザーの利用を想定している場合や、データ抽出や加工を担うエンジニアのリソースが限られている場合には、データウェアハウスのデータをノーコードで扱えるツールの活用を検討することも重要になります。

最近では、ノーコードで扱えるツールとして、以下のようなサービスの需要が高まっています。

  • trocco:ETLツール
  • Hightouch:セグメント抽出、連携ツール
  • Snowflake、Databricksなどが提供する自然言語AI機能 など

【目的別】おすすめデータウェアハウス(DWH)製品3選

データウェアハウス製品はそれぞれ得意分野が異なるため、自社のデータ活用の目的に合わせて選択することが重要です。

Snowflake:安定したデータ基盤を構築したい企業向け

【特徴】

  • マルチクラウド対応で、セキュリティ性に優れる
  • ストレージとコンピューティングの分離によって用途ごとに最適なリソースの割り当てが可能
  • SQLベースの活用ができ、UIの使いやすさも好評
  • Snowflakeのエコシステムも強く、外部製品との連携やデータシェアリング機能も充実

個人的に「整ったオフィスビル」という印象で、使いやすさやユーザーコミュニティの盛況さの点で現場のユーザーからの評価が高い印象です。

公式サイト:https://www.snowflake.com/ja

Databricks:高度なデータ分析・AI活用を行う企業向け

【特徴】

  • データレイクハウスのコンセプトにより、大規模なデータや複雑なデータの処理で高パフォーマンスを発揮
  • データサイエンスや高度なAI活用ニーズにも対応

個人的に「研究室付きの工場」という印象で、自由度の高いデータ活用を実現するプラットフォームという印象です。

一方で、その自由度から、加工しきれていないデータも一旦S3などのデータレイクに集め、Databricksでゴリゴリ活用を進めながら並行してデータ環境の整備を進めていくような使い方をされている印象もあります。

公式サイト:https://www.databricks.com/jp

BigQuery:Web/アプリのデータを高速に分析したい企業向け

【特徴】

  • Googleが提供するデータウェアハウス製品で高速なデータ分析が特徴
  • Google Cloudのプラットフォーム上で動き、インフラの設定も不要な部分が多く使い始めやすいサービス
  • Google Analyticsのデータと連携してWebやアプリのログを使った分析を行うことも多い。

個人的に「舗装された高速道路」という印象で、オンラインのサービスや顧客接点を持つ企業がBigQueryを使って高速に分析を行っている印象です。

公式サイト:https://cloud.google.com/bigquery?hl=ja

データウェアハウスに求められるもの

データウェアハウスを導入する際「優れたデータウェアハウス」とはどのようなものでしょうか?

製品選定をする際に以下の4つの観点を満たすことで、構築した後に「実際に使われる、成果を挙げるデータウェアハウス」にすることができます。

信頼性:安心して使えるか

ユーザーデータや購買データなど、データウェアハウスでは重要なデータを扱うことから、基盤やデータの信頼性やセキュリティ性の確保はとても重要になります。

そのため、GoogleやAmazon、Microsoftといったメガプラットフォーマーなど、世界的に知名度のある企業が製品を提供しています。

ユーザビリティ:使いやすいか

データ処理のパフォーマンスやUIの見やすさ、データを扱うための機能の充実度など実際の運用において使いやすいかどうかという点は非常に重要です。

使いやすさが無いと作ったのに使われない基盤になってしまいます。

経済性:投資に見合うか

一般に、データウェアハウスはROIを測るのが難しいとされています。

データウェアハウスの導入によって業務の効率化や営業マーケティングでの効果を出せるかという点や、既存のデータ環境に比べてコストが削減されるかといった点がポイントになります。

将来性:これからの時代についていけるか

データウェアハウスを導入する多くの企業では、DXの推進やAI活用など将来を見据えた取り組みになることが多くあります。

そのため、構築するデータウェアハウスではAI機能などの導入が可能か、今後より良いサービスや技術が出てきた時に取り入れやすいかといった拡張性の観点も重要になります。

まとめ

データウェアハウスは「作ったは良いけれど使われない」といった声を多く聞きます。これらの課題は、構築前の段階から十分な想定をしておかないと解決が難しいものです。

DearOneではこれまで「自社の1stパーティデータをどう活用するか」という観点から、分析ツールやMA(マーケティングオートメーションツール)などの提供を行ってきました。

また、最近では本記事で解説した、データウェアハウス製品と組み合わせて使うことで、データウェアハウスをマーケティングデータ基盤として営業やマーケティングに活用できるようにする「Hightouch(ハイタッチ)」という製品に対するご相談を多くいただいています。

Hightouchは、データウェアハウスのデータをマーケティングツールや営業ツールへ連携し、マーケティングユースケースの実現を支援するソリューションです。

以下より詳細資料をダウンロードできますので、ぜひご覧ください。

>>Hightouchの詳細資料を見る
>>データウェアハウス構築について相談する

現場の肌感覚として、日本企業でもデータウェアハウスを「つくる」段階から「活用する」段階へと本格的に進み始めている企業が増えていると感じています。

そうした企業の課題や知見を踏まえながら、より実用的なデータ基盤づくりを進めていくことが、これからのデータ活用において重要と考えております。

ここまでお読みいただきありがとうございました!

Recommended