コロナショックを皮切りとした逆オイルショックがいずれはCLOなど2度目のバブル崩壊を引き起こし、それと共に第3次AIブームも終わると考えている。それによってPythonの時代も終わると考えているが、そもそもディープラーニング(深層学習)は機械学習の「主流」だったのだろうか。
第3次AIブームを牽引した機械学習手法がディープラーニングであることには疑いは無い。大量のデータと計算資源があれば多くのタスクで良好な結果が出て、社会の様々な分野で活用されるようになったからだ。便利なライブラリも多く開発され、ちょっと試すだけなら簡単な時代だ。
しかし、「ディープラーニングが機械学習の主流である(多くの関連書でそう記述される)」と言うからには、金額なり件数なりでシェアが1位であるべきではないか。
少なくとも実務における件数レベルではディープラーニングが1位であるとは思えない。多くの機械学習案件のデータ量ではディープラーニングを使うまでもなく、決定木モデル(XGBoostやRandomForestなど)やSVMが使われることが多いからだ。Kaggleなど機械学習コンペなどでも同様だ。少量のデータでディープラーニングをしても無駄に計算資源を食うばかりか過学習を起こしやすいからだ。ディープラーニングが有名なのでやりたがる人は多いが、それが適切なケースは意外に少ない。
ディープラーニングの1案件当たりの金額は大きいと思われるので、金額のシェアは件数のシェアより高いかもしれない。いずれも明確なデータが無い(あれば教えていただきたい)が、どちらも「主流」というには心許ないように思える。
ディープラーニングと他手法の関係は、大企業と中小企業の関係に近いように思える。日本において大企業に分類される企業数のシェアは0.3%に過ぎず、99.7%が中小企業である。しかし従業員数で見ると大企業のシェアは約30%となる。感覚的にはディープラーニングの規模感やシェアの偏りは日本における「大企業のシェア」くらいである。
これは冒頭でもリンクを貼った第3次AIブームの終わり:AIの「冬の時代」でも触れたが、ディープラーニングはスケーリングしないことにある。精度とレイヤー数をプロットすると、精度は線形で増加していくのに対し、レイヤー数は指数関数的に伸びていくのであり、難しいタスクを行おうとするほど実現の為の計算コストが莫大になるからだ。
無論、top of topsはディープラーニングを使っていることが多いのは現実だ。そういう意味ではディープラーニングは「主流」と言えるかもしれないが、一部のコンペや「宣伝目的」などを除き、ビジネスの世界では費用対効果が著しく悪化するほど金額をかけてディープラーニングにより微細なパフォーマンスを上げるメリットが無いことも多い。宣伝という意味で、メディアで話題になる機械学習はディープラーニングが多いので、それこそが「機械学習の主流」という言説を生んだと思われるが、それがあらゆる意味合いで主流ではないことに注意したい。