初心者の方にとってわかりにくいもののひとつに、何かしらの予測を行う上で統計を用いて行うのと、AI(機械学習)を用いて行うことの違いは何なのか?という疑問があります。
結論を先に書くと、統計は「解釈」を追求し説明することに重きを置き、機械学習は精度を追求し「予測」することに重きを置くものです。ここではそれぞれがどんなもので、どんな目的で使用するものなのかを具体的に解説していきます。
統計とは?
《名・ス他》(人・物・出来事の)ある集団について、その特性を数量的に測って得られる数値。
統計で辞書を引くとこう出てきます。複雑なデータをシンプルな形にすることで、人間が理解しやすいものにすることが統計です。人間が理解しやすくするために行うところがポイントです。たとえば「夏は冬よりも暑い」という事実を、平均気温を用いて記述することで数値でわかるようにしたものが統計です。
統計を用いて予測を行う際には、予測モデルの妥当性、予測モデルのパラメータの正確な推定、予測モデルからの推論が何になるのかが重要になってきます。
予測を行うにあたり目的を「説明すること」にしており、解釈を追求するものと表現することができます。
AI(機械学習)とは?
何をもって機械学習とするのかは微妙に解釈の問題を含みますが、以下のように言うことができます。
機械にデータを学習させ、データに潜むパターンや特性を発見し、予測させること
機械学習を行う際には統計的手法を用いるので、統計の概念を含有しているものではありますが、予測を行う際の目的は統計とは異なります。
機械学習では徹底的に精度を求めます。精度を追求する分、データの構造は可視化しにくくなり、結果に対して解釈を与えることが難しくなります。
機械学習では
「理由はさておき、この予測モデルでは特徴量Aが予測に大きな影響を与えるパラメータになっている」
と結果が返ってきます。
よく言われる「AIの予測はブラックボックス化する」というのはこれを指しています。
機械学習では、まだ見えていないデータに対してとにかく予測を行うものであり、精度を追求していきます。
どちらが良いのか?
ありきたりな結論ですが、統計と機械学習はどちらが一方的に優れているものではなく、用途に応じて使い分けるべきものです。
未来を予測することを第一の目的にするのであれば機械学習に軍配が上がりますし、すでにある予測モデルの妥当性を評価したり解釈するためには、統計を用いて人間ができるように説明してあげる必要があります。
何らかの予測で機械学習を使ったほうが良いかどうかを考える際の材料にしていただければ幸いです。