有識者による知と教養のWeb本です。
本書では、幅広い分野の時事ワードを解説すること、教養知識を深堀りすること、そして実際の講義まで、多種多様なコンテンツについて「考えるヒント」(ひとつの木)をご提示します。「学びの森」へようこそ!
掲載日:2022.10.10
AIのお話(機械学習とディープラーニング、そしてデータサイエンス)
「機械学習」は、 AI(人工知能)の一分野で、名称の通りコンピュータ(機械)自身が学習を行う技術です。私たち人間が新しい知識や技術を学習するように、コンピュータ自身が学習することで、プログラムされたこと以上にいろいろなことができるようになります。学習の結果、膨大なデータから私たちが欲しい情報や特徴をコンピュータが見つけます。
ではコンピュータはどのように学習するのでしょうか。
機械学習の手法は大きく分けて、アルゴリズムによる機械学習とディープラーニングの二つあります。
コンピュータに学習させるデータを人間が用意するのが、アルゴリズムによる機械学習。
コンピュータ自身がデータを探し出すのが、ディープラーニング。
アルゴリズムによる機械学習は、特定の文言などから迷惑メールを分別するのにも使われます。しかし、人間が教えたヒントをもとに識別するため、それらに合致しない文言などが使われていると見逃すこともあります。
ディープラーニングは、機械学習がさらに進んだ技術です。人間がヒントを与えなくても、膨大なデータの中から自ら探すべきものの特徴を見つけて探り当てることができます。
それでは、アルゴリズムによる機械学習とディープラーニングの2つを、具体例で比較していきましょう。
例えば、猫、リス、ペンギンの大量の画像データの中から猫を選ぶものとします。手順は次の①~③ですが、アルゴリズムによる機械学習とディープラーニングでは、②に違いがあります。
① インターネット上にある膨大な画像を細かく分析し、一つひとつの色や形を調べます。
② 「ひげがある」「顔は丸い」「耳が尖っている」などの、猫に共通する特徴や法則を見つけ出して、特徴に合致する画像を探します。人間が特徴や法則を見つけ出し、コンピュータに教える場合はアルゴリズムによる機械学習で、コンピュータ自身が自力で特徴や法則を見つけ出す場合はディープラーニングです。
③ 選んだ1枚1枚の画像に「猫」80%、「犬」15%、「その他」5%などのように正解の確率を割り出して行きます。そして確率から「この画像は猫」「この画像は犬」などの判断を下していきます。
ここまで主としてAIについてお話してきましたが、データをもとにコンピュータが意思決定する分野がAIです。
AIに対して、データをもとに人間が意思決定する分野が統計と考えることもできます。大学受験や高校受験をする際に、模擬試験の成績(偏差値など)や判定(A・B・C・D・Eなどの合格判定ランク)を参考にして、志望校の決定をした方が多くいると思います。そのとき、最終的に受験する学校(志望校)を決めるのは、私たち「人間」ですが、志望校決定(意思決定)には、統計を活用していたといえます。
続いてデータサイエンスのお話に移る前に統計の概要をお話します。AIの概要と統計の概要がわかると、データサイエンスの理解もぐっと深まります。
統計は大きく分けて記述統計学と推測統計学があります。
記述統計学はデータの特徴をわかりやすくすることが目的の統計学です。わかりやすくする手段として、次の3つがあります。
【1】「数値」にする
【2】「表」にする
【3】「グラフ」にする
一方で推測統計学は標本(サンプル)と呼ばれる一部のデータから、母集団と呼ばれる全体のデータを推測します。推測という言葉は難しいですが、予測のようなイメージです。推測の中で、未来のことについて推し測ったものが予測です。ただし、この推測統計は未来のことだけではなく、過去のことも推し量ります。
例えば、私たちは熱が出たときは病院に行きます。その熱が風邪によるものか、インフルエンザによるものか、コロナウイルスによるものか?を医師は診断します。熱の原因となるウイルスに感染したのは未来ではなく「過去」のことなので、予想ではなく推測といえます。つまり医師は、病気の原因を推測しているわけです。
統計の概要をご説明しました。それでは、データサイエンスの概要に移りましょう。
私たちはさまざまな場面で意思決定をします。先ほど、統計の例として受験時の意思決定を挙げましたが、現代において意思決定をするのは人間だけとは限りません。コンピュータも先ほど紹介した確率を用いて意思決定をするのです。
コンピュータの意思決定で身近にあるものを1つ見てみましょう。例えばSNS上にアップロードされた画像や動画などは、肖像権等SNSの規約に反するものもあります。それを人間が一つひとつ確認して削除するのは不可能です。そのため、SNSの規約に反する画像や動画はコンピュータが意思決定して削除しているのです。つまり、人間が意思決定する分野が「統計」で、コンピュータが意思決定する分野が「AI(人工知能)」と捉えることができます。
先ほど、SNSの画像や動画をAIが規約に反する画像や動画を自動的に削除すると紹介しましたが、もちろんコンピュータがすべてうまく削除できるとは限りません。規約に反する画像や動画で、コンピュータの意思決定で削除しきれないものもあるのです。その場合は、人間が意思決定して手動で削除していきます。
つまり、意思決定は人間とAIが手を取り合い、ハイブリットで行うこともできるのです。そして、その分野がデータサイエンスにあたります。データを用意するのは人間でもコンピュータでもいいし、意思決定をするのもやはり、人間でもコンピュータでもいいのです。