【入門編】データ分析の第一歩 〜 データ収集 3つのコツ〜

こんにちは、キカガクでデータサイエンスや機械学習の講師をしている和泉です。日々講義をしていると、受講生の方からこんな相談を多く受けます。

A さん

社内にたくさんデータはあるのですが、どう分析をはじめたらよいのかわかりません。
これからデータを収集しようと思うのですが、どうやって集めればよいでしょうか?

B さん

データ分析プロジェクトを立ち上げた、もしくはこれから立ち上げようとしている方にとって、これらの疑問は誰しもが通る道です。
弊社でも実データを分析するプロジェクトを実施する中で、これらの疑問への対策を試行錯誤してきました。本記事では 3 つのコツを紹介します。この記事を読んで、ぜひデータ分析の第一歩を踏み出してください。

データありきのアプローチはダメ

まず、大前提として「社内にデータがあるから、データ分析できる!(しかも、勘と経験を上回るような成果が出る)」というアプローチはうまくいきません。

昨今のデータサイエンスの流行により、華々しい成果を耳にすることも多いですが、それらは全て綿密な設計と仮説をもとにデータ収集や分析を行っています。

とりあえず社内に溜まっているデータを分析してみることから、そういった驚くべき知見が出てくるということは、ほとんどないと思った方が良いでしょう。

データ1

これは料理に例えるならば、とりあえず冷蔵庫に溜まっている野菜を使って、絶品のコース料理を作るのは無理なのと同じです。
機械学習を扱う人の間では、「Garbage in Garbage out (ごみを入れたらごみが出てくる)」と言われるほど、分析対象のデータの質が大切になってきます。

そうはいっても、ビックデータがあれば大丈夫なんでしょ?というのも、残念ながら間違いです。機械学習の開発にデータ量が大切なのは正しいのですが、100万個のじゃがいもだけでは美味しいコース料理は作れません。

つまり、データは意図的に収集する必要があります。まずはデータ分析で解くべき課題の方向性を明確にし必要なデータを集めてきましょう。

ポイント

解きたい課題をもとにデータを収集しないと、有効な分析をすることができない

必要なのはコミュニケーション?

データ収集の方針が決まったら、実際にデータを収集します。収集の方法は大きく 4 つあります。

  1. 社内でデータを保持している部署と連携して取得する
  2. 新規に社内でデータを収集する
  3. 外部からデータを購入する
  4. 業務提携や委託をする

このように、多くの人が介在したり、複数の処理プロセスを経たりするために、データ分析者とデータ収集者は、異なる人物が担当するというケースが多いです。

ここでよくある落とし穴が、「必要なデータさえ渡せば、データサイエンティストが上手いこと何かの分析をしてくれる。」という勘違いです。

もちろんデータサイエンティストはデータ分析のプロなのですが、データの発生状況や取得状況、データが表す意味についてはデータ取得者の方が知見をもっている場合が多いです。
データ2
例えば、データによっては業界特有のトレンドや変化のサイクルがあること、異常値といえるような稀なケースの扱いヒューマンエラーの介在の有無(データが自動取得かどうか)などは、データ取得者とコミュニケーションをとることで明らかになります。

データ取得者としても、データ分析者にデータを渡して終わりなのではなく密にコミュニケーションをとる必要があります。特にデータ分析者とデータ取得者が同一社内や同一部署でない場合は、専門的な知見についてすり合わせが必要になる場合が多いでしょう。

ポイント

データの発生状況や特徴について、データ分析者とデータ取得者でコミュニケーションをとる必要がある

データにも鮮度がある

ここまで、データを取得し分析する上でのポイントを見てきました。最後に、データの鮮度についても確認しましょう。

実は、データは一度取得すれば終わりなのではなく多くの場合再取得することが必要となります。

それは、データ分析AI のモデル構築が、一度実施して終わりなのではなく、新しいデータを再取得して分析や開発を続ける必要があるためです。

データにも鮮度というべきものがあり、人間社会や行動が変化していくことに合わせて発生するデータも日々変化しています

例えば、自然言語データを例にすると、毎年新語や流行語が生まれていますし、新しい概念が生まれる度に言葉も増えていきます。

アパレル業界を例に考えてみると、売上データは毎年の周期性(季節性)やトレンド(流行)の影響を受けていると言えます。

そのため、統計分析や機械学習モデルの開発では、基本的に過去のデータを使って解析するために、データの鮮度を良く見極める必要があります。もしも、データの鮮度が落ちていると考えられる場合は、現在の解析結果の信憑性が下がることになるでしょう。

このような開発時と本番環境での解析結果のズレを、機械学習ではデータドリフトと呼びます。データドリフトをの影響を小さくするためには、再学習のプロセスを早めることや変化に対応することを前提にした解析モデルを使うことも抑えておくと良いでしょう。

ポイント

データにも鮮度があり、データの再取得やモデルの再学習が必要となる

データ分析の第一歩とは?

いかがだったでしょうか?これまでみてきたように、データ分析の第一歩目とは、課題を明確にすることや、必要なデータの要件定義を明確にすることでした。そのための注意点として、以下の 3 つが挙げられました。

  1. データ分析で解きたい課題をもとに、データを収集する
  2. データの発生状況や特徴について、データ分析者とデータ取得者でコミュニケーションをとる必要がある
  3. データにも鮮度があり、データの再取得やモデルの再学習が必要となる

皆さんがビジネスにおいて、データサイエンスを取り入れることを検討したら、ぜひ今回のポイントを意識してプロジェクトの推進をしていただければと思います。
最後までお読みいただき、ありがとうございました。

AI ビジネス活用が学べる体験型ワークショップを開催中!

AI ビジネス活用コース

キカガクでは本記事で紹介したような、AI をビジネスに活用するノウハウについて、初学者から学べる「AI ビジネス活用コース」を開催してます。

独自のAI シミュレーターなどを用いて、PoC の具体的な手順 AI モデルの作成など、基礎から実践までを一気通貫で学べます。

AI をビジネスに活かしたい方や実際のプロジェクトへの導入を検討している方など、興味のある方はぜひご参加ください!

その他のキカガクの研修事例