【東大・松尾先生のディープラーニング講座】なぜ「アルファ碁」は飛躍的に進化した?

画像認識の精度が向上。中でも「生成モデル」がこらから非常に面白い

  • 14
  • 24
松尾豊東大特任准教授
 AI(人工知能)はディープラーニングの登場で大きなブレークスルーを迎えている。英グーグル・ディープマインド社が開発した囲碁AI「AlphaGO(アルファ碁)」は予測を10年以上短縮してトップ棋士に勝ち、AIを活用したクルマの自動運転なども実用段階に近づいてきている。今後ディープラーニングは、産業にどう活用され、何を変えていくのだろうか? 気鋭の人工知能学者、東京大学の松尾豊特任准教授に聞いた。

いかにサボってパラメーターを見つけるか


 ─ディープラーニングの基本となるニューラルネットワークについて教えてください。
 松尾 経済学などでは、さまざまな変数の関連性を導き出す統計手法として、重回帰分析などの多変量解析を使うことが多いですが、それと比較するとわかりやすいかもしれません。

 たとえば、ある画像に猫が映っているかどうかを人間が判断できるというのは、画像の各画素の情報を入力xとし、猫が映っているときには1、猫が映ってないときには0をとるような関数f(x)がある、ということです。この「猫関数」は、入力変数を何らかの形で足しあわせたり掛けあわせたりと加工していく関数になっているはずで、そこにはたくさんのパラメーターがあります。

 この「猫関数」を、人間の神経回路を模した階層的な関数の構造をもとに、たくさんのデータからの学習により見つけ出そうというのが、ニューラルネットワークです。経済学だと変数は数個から数十個くらいのことが多いと思いますが、この「猫関数」は、100×100の小さな画像だとしても、1万もの入力変数を取りますよね。

 つまり、x1, x2からx10000までということです。こうしたたくさんの数の変数を使った「猫関数」を見つけることは、通常は非常に困難です。ところが、今のディープラーニングですごいのは、それをいかにサボるか、いかにズルをして、その数万の変数からなる方程式を解いて、パラメーターを見つけてしまうか。ここが実は一番重要なところになります。

 ─さまざまな分野で「ディープラーニング」という言葉が使われていますが、概要を教えていただけますか?
 松尾 ディープラーニングについて、いろいろな説明がなされていますが、基本的には“深い構造をもったニューラルネットワーク”ということになります。

 今までは深いニューラルネットワークというのは作るのが難しかったわけですが、それができるようになってきた。とくに画像認識をするうえで非常に精度が高くなってきています。

3系統ぐらいにだんだん集約されてきている


 ─画像認識で使うのが一般的なのでしょうか?
 松尾 今のところ3タイプぐらいに集約されてきています。1つは画像認識でよく使われる「CNN(Convolutional Neural Network)」、日本語で「畳み込みニューラルネットワーク」というものです。これは基本的には“教師あり学習”※1なんですよね。

 それからもう1つが、時系列データなどを扱う「LSTM(Long Short Term Memory)」というもの。これも、昔からあった「RNN(Recurrent Neural Network)」という手法を発展させたもので、とくに自然言語処理系のデータ、つまり対話のデータなどを扱う際によく使われます。最近ではCNNとRNNを組み合わせる方法もよく使われるようになってきています。

 3つめが「生成モデル」といわれるもので、ここが今後非常におもしろくなるところだと思います。生成モデルにも2系統ほどあって、1つが「Variational Autoencoder(変分オートエンコーダー)」と呼ばれるもので、もう1つが「GAN(Generative Adversarial Network)」というものです。

 いずれも画像認識だけでなく画像の生成もできる。非常に少ないデータから画像を描くことができるという、生成する側の技術なんですよね。

 それをうまく使うと次のシーンで何が起こるか予測することができたり、文脈から画像や映像を作ることができます。言い換えると、人間が想像するとか、予見するといったことに該当するような機能を持たせることができるわけです。その3系統ぐらいにだんだん集約されてきている感じはありますね。

<次のページ、“知覚”の部分が出てきてロボットに大きな変化>

日刊工業新聞2016年7月15日電子版

関連する記事はこちら

特集