米大統領選からみるデータサイエンスに大切なこと

データサイエンスは職人芸である

職人芸をとは即ち、ビジネスを見通す目を持つことである

データサイエンスは大企業にしか必要のないものなのでしょうか?
いいえ。データサイエンティストというと、「ビックデータ」や「最先端のアルゴリズム」を駆使して分析を行うというイメージで語られがちですが、分析において本質的に大切な「ビジネスの理解」「分析手法の理解」「データの理解」を押さえ、価値を生み出す分析者もいます。

AIの躍進

近年、囲碁ではAlphaGo(アルファ碁)、将棋ではPONANZA(ポナンザ)など、AI(人工知能)が人間の能力を凌駕したとして世間をにぎわせています。
これまでSFの中の話でしかなかったAIが人間の知性を超える、いわゆる「シンギュラリティ」が、2045年に到来するという予言が、現実味を帯びたとさえ騒がれています。

これらのAI躍進の裏には、大量のデータを解析する手法やアルゴリズムの発展、大量のデータを処理するインフラの進化・普及といった背景があります。

ビジネスにもこれらの要素が還元され、ビッグデータ、非構造データの活用や、ディープラーニング(深層学習)、機械学習などによる高度なデータ分析が実業務に取り入れられ、それらの事例が次々と報道されるようになってきました。

そのような世の中の流れとともに、データを扱う専門家としてのデータサイエンティストに一層注目が集まるようになっています。

AI将棋ソフトの躍進

データサイエンスでできること

時として、お客様からは「データサイエンスなんて一部の大企業が取り組める話で、うちにはビッグデータといえるようなものはない」という声を聞くことがあります。
AIの躍進の理由として語られる「膨大なデータ」と「最先端のアルゴリズム」を使わないと、データサイエンスは成り立たない、という印象があるようです。

確かに、データサイエンスの隆盛は、大量/多様(文章、画像、音声、動画等)なデータが扱えるようになったことや、近年目覚ましい発展を遂げている高度な分析手法と無関係ではありません。
しかしながら、ビッグデータはなくとも、高度な分析手法を使わなくとも、データサイエンスで価値を生み出すことはできるのです。

ポイントは、「ビジネスの理解」「分析手法の理解」「データの理解」です。

事例:アメリカ大統領選挙の結果予測

2012年のアメリカ大統領選挙では、ビッグデータを活用した選挙戦が話題となりましたが、選挙予測においても、ネイト・シルバー氏が全50州の勝敗を的中させ、データ分析が政治評論家を越えたとして話題となりました(※1)。

彼が用いたデータの中心はせいぜい数万人の世論調査で、使用した分析は回帰分析とモンテカルロ・シミュレーションだけであると言われています(※2)。データ量もビッグデータというには程遠く、分析手法もどちらも古典的で良く知られたものです。

それではなぜ、全50州の結果を言い当てるという神業が成せたのでしょうか?

アメリカ全50州のイメージ

前出の記事(※2)によると、彼の分析においては、使用データの広範な集約および選定と、それらの扱い方の吟味がなされていたことが伺われます。彼が行ったことは、

  • (1)アメリカ大統領選挙についての知見や洞察をもとにして、
  • (2)結果を予測するという目的を達成するに足る分析手法を選定し、
  • (3)その分析に寄与するデータを用意した。

と言うことができます。

この(1)~(3)が、それぞれ先述の「ビジネスの理解」「分析手法の理解」「データの理解」にあたります。
アメリカ大統領選挙の結果予測には、AlphaGoのようなディープラーニング(深層学習)という最先端の分析も、有権者全員のWebサイトのアクセスログやクレジットカードでの購買履歴といった膨大な量のデータも、必要ではなかったのです。
アメリカ大統領選挙という「ビジネス」についての本質的な理解から、彼にはそれがわかっていたのです。

※1 2012の米大統領選挙 特別企画 米大統領選挙で実証されたビッグデータ分析の価値

※2 『ルディー和子の明日のマーケティング』|NOW2 「世界一有名な「データサイエンティスト」は「ビッグデータ」とは無縁の人でした。」

引き出しの使い方

最先端の分析手法を用いたり、大量/多様なデータを用いたりすることでしか得られない知見や、達成できない精度があることは間違いありません。
しかし、それは「どんな場合でも」必要であることを意味しません。
現実問題として、費用対効果を考慮しなければならないことも多いでしょう。

分析手法も、扱うデータも、「引き出しの多さ」に寄与するものです。
これに対し、「どの引き出しをどのように使うべきか」は、上の事例のとおり「ビジネス」「分析手法」「データ」の3つの理解が組み合わさって導き出されるものです。

データサイエンティストには、この両者、つまり「引き出しの多さ」「引き出しの使い方」が求められます。
その意味で、データサイエンスは、データという主観を排した対象を扱うものでありながら、現実という「ビジネス」に対処する「職人芸」なのです。

ビジネスの理解は難しい

現実は変化します。
それに従って、生み出されるデータやその意味も変化します。

昨年のアメリカ大統領選挙は、ネイト・シルバー氏を以てしても結果を予測できませんでした。
世論調査に現れない投票、いわゆる隠れトランプ支持層の存在が背景にあったと考えられます。
ビジネスが変化した、または、理解が足りていなかったということができるでしょう。

対処するにはどうすれば良いか? データサイエンスの挑戦は続きます。

この記事は株式会社アイズファクトリーが提供しています。

株式会社アイズファクトリー

株式会社アイズファクトリーは、理学博士が中心となり設立されました。
「全ての人に成功確率UPを届ける」をキャッチフレーズに、科学を活用してより良い社会に貢献すること、その後のシステム開発を通じて、お客様企業の業務効率向上に貢献すること、を目指しております。

 近年、ビッグデータ活用の必要性が高まっており、データマイニングがより注目されています、過去300超のプロジェクトで培った解析力と実ビジネスへの応用力は、グルメ情報提供サイト、ECサイト、広告関連企業、教育関連企業、自動車メーカー、公官庁、といった幅広い業界の大手企業・団体様から高い評価を得ております。

データサイエンスの概要を無料配信中!無料セミナーの動画と講義レジュメを配信!

通勤講座は今すぐ無料で受講できます。
まずはお試しください!

登録すると無料で試せます

  • 無料セミナー
    「データサイエンスの入口」
  • 講義レジュメ(PDF)
    無料セミナーのスライドがダウンロードできます!

※無料講座の内容は予告なく変更される場合があります。
あらかじめご了承ください。