データ分析はデータの準備が7割

データ分析における他部門との連携
ランニングの前に必ず準備体操をするように、どんな業界でも業務における「準備フェーズ」と「実行フェーズ」に分けられ、準備フェーズの大切さが説かれます。
データサイエンティストにとっては「データの準備」というのは重要度が特に高いようです。更に、準備と言っても単にデータを準備するだけで済むわけではありません。
株式会社アイズファクトリー データサイエンス部 根本氏の下記エントリーをご覧ください。

画像から学習するディープラーニング

テレマーケティングの対象顧客を選定するプロジェクトでのデータ準備

「データ分析」と聞いてどんなことをイメージされますか?
様々な統計手法・データマイニング手法を駆使し、アウトプットを出す。
そのアウトプットに基づいて知見を生み出す。
そんなところでしょうか。
しかし実際は「データ分析はデータの準備が7割」ともいわれます。
つまり、分析用データを準備し、加工するまでがその大半です。
弊社での一般的な分析プロジェクトでは、お客様から分析用のデータ群を受領。
データチェックや加工を経て分析まで一気通貫で実施して報告。
という流れです。
データの準備はお客様側で行っていただくことが多いです。
お客様側でデータを準備するには何かしらIT部門との連携が必要になります。
今回はその「データの準備」における注意点をお伝えいたします。
お客様は某大規模小売系クレジットカード会社のA社様。
部門としてはカードのランクアップを促す部門や、付随商品を提案する部門などがあります。
当時私が担当したのは、付随商品を販売する部門でした。
それまで実施していたDMや店頭販売などに加え、テレマを実施するとのこと。
そのテレマの実施対象顧客を選定したい、というのが依頼の内容でした。
プロジェクトを実施するにあたり、お客様に分析用データの準備を依頼しました。
お客様では各部門にデータ抽出用のツールが導入されていました。
社内の別部門で分析を実施しており、ツールは共有利用しているとのこと。
分析用データの準備に問題は無さそうでした。
そこで、スケジュールを作成し、プロジェクトは直ぐに開始されました。
当初は問題なくできる予定だったのですが……。

データが抽出できていない!?

データ授受予定日の前日のことです。
お客様からの連絡がありました。
内容は、「データが抽出できていない」とのこと。
詳しく状況を聞くと次のような状況でした。

  • データ抽出ツールの調子が急に悪くなり、1時間で50件分の顧客属性データしか抽出できない。
  • 前々日まで取得していたカードの利用履歴の取得にはそれほど時間はかかっていない。
  • 項目数を絞ってもあまり変わらない。

お客様にも想定外の事態の様子。
弊社としてはデータ抽出方法に問題があるのではと考え、抽出方法の改善を提案しました。
しかし、お客様が特別な抽出を行っている形跡はありませんでした。
数日たっても状況は改善しません。
とはいえ、テレマ向けのリストを作成する期限が刻々と迫ります……。
そんな状況の中で、なんとか受領できたデータを使い可能な分析を実施しました。
ところが、受領したデータには顧客属性データがほぼありませんでした。
当然のごとく、弊社・お客様とも満足のいく結果は出せませんでした。
データ抽出は翌月も予定していました。
前回の反省を踏まえお客様側では、より早めにデータ抽出を行うように準備。
しかし、翌月のデータ抽出においてもデータ抽出の遅延は発生してしまいました。
ただ、その時はお客様・弊社双方とも事前の準備が功を奏し、お互いある程度納得できる分析結果を出すことができました(スケジュールはギリギリでしたが……)。
プロジェクト終了後、お客様からデータ抽出作業が遅くなった理由をお聞きすることができました。

  • (お客様の会社を含めた)グループ会社ではデータ抽出の優先順位が会社別で決まっている。
  • お客様の会社はグループ会社内では優先度は低い。
  • お客様の会社がデータ抽出をしていた同時期に、優先順位の高いグループ会社で大規模データ抽出が行われていた。

必要なのは、他部門との連携だった

一般的には事業部門がデータ分析用のデータを直接用意することは多くありません。
IT部門に依頼することが多くなります。
仮にデータを抽出するツールがある場合も、その管理はIT部門であることが大半です。
今回の場合、事前にIT部門と連携していれば、IT部門からデータを抽出してもらえたかもしれません。
仮に事業部門がデータを抽出するとした場合でも、ツール利用の優先度を上げてもらう、といったことができたかもしれません。
冒頭にも書きましたが、「データ分析はデータの準備が7割」です。
データ抽出はそのデータ準備の前段階ですが、そこでつまずくこともかなりあります。
データ分析を行う際は「データの準備」の部分で自社内での連携や調整が必要になります。
IT部門はその代表です。
この部分を念頭に入れておくだけでよりスムーズなデータの準備が可能になります。

投稿者:データサイエンス部 根本 (株式会社アイズファクトリー)

この記事は株式会社アイズファクトリーが提供しています。

株式会社アイズファクトリー

株式会社アイズファクトリーは、理学博士が中心となり設立されました。
「全ての人に成功確率UPを届ける」をキャッチフレーズに、科学を活用してより良い社会に貢献すること、その後のシステム開発を通じて、お客様企業の業務効率向上に貢献すること、を目指しております。

 近年、ビッグデータ活用の必要性が高まっており、データマイニングがより注目されています、過去300超のプロジェクトで培った解析力と実ビジネスへの応用力は、グルメ情報提供サイト、ECサイト、広告関連企業、教育関連企業、自動車メーカー、公官庁、といった幅広い業界の大手企業・団体様から高い評価を得ております。

データサイエンスの概要を無料配信中!無料セミナーの動画と講義レジュメを配信!

通勤講座は今すぐ無料で受講できます。
まずはお試しください!

登録すると無料で試せます

  • 無料セミナー
    「データサイエンスの入口」
  • 講義レジュメ(PDF)
    無料セミナーのスライドがダウンロードできます!

※無料講座の内容は予告なく変更される場合があります。
あらかじめご了承ください。