機械学習コンペは実務のほんの一部しか経験できない

機械学習エンジニアやデータサイエンティスト(両者の明確な区別はともかく)としてキャリアを進ために、機械学習コンペ(KaggleやSIGNATEなど)で実績を積もうとする人は多い。確かに未経験者が力試しをし、Kaggleでゴールドといった実績を企業にアピールして、という風に使うのは非常に良い。

しかし、機械学習コンペで経験できるのは、「用意されたデータ」と「評価指標」を使い、データを加工・分析してモデルを作るだけである。この部分で適切にデータの分布や特徴を確認し、仮説を立てて学習アルゴリズムを選択し、パラメータチューニングするといった一連の流れを経験することはできるが、「それだけ」である。

実務においては「データ以前の段階」の業務が非常に多い。まず、実務においては「ゴール」が決まっていないことが多い。そもそも顧客が「人工知能を導入したい」「ディープラーニングを使いたい」といった手段から入るケースが多々ある。データが無かったり、機械学習を使って解決したいタスクが無かったりする事が珍しくない。

関連記事:「うちの会社に人工知能(AI)を導入したい」と思った時に読む記事

基本的には営業担当者が要件定義を進めていくにしても、エンジニアが現場に駆り出されて実現性などについて考えて発言しなければならないケースが多くある。ゴールを決定するのが最も難しいといっても過言ではなく、機械学習コンペではその部分を絶対に経験できない。(機械学習コンペは目的が決まった企業が開催するからだ。)

目的が決まったところでデータをどうするかという問題も出てくる。既存のデータで可能なのか、追加で集める必要があるのか、集めるのではなく買うのかなど、目的に応じて検討しなければならない事は多い。機械学習コンペでは最初からデータが提供されているので、その部分についての経験もできない。

最近、知人であるデータサイエンティストが「目的が決まったら分析は終わったようなものである」と言っているのを聞いたが、これはまさしくその通りで、モデル構築に入るまでの段階が最も重要で大変なのである。

About HAL

金融・マーケティング分野の機械学習システム開発や導入支援が専門。SlofiAでは主に海外情勢に関する記事、金融工学や機械学習に関する記事を担当。

View all posts by HAL →