子供のように、AIがビデオ画像・音声から物事の概念を習得

「アルファ碁」の英ディープマインド開発

 米グーグルの親会社アルファベット傘下の英ディープマインドが、短いビデオのスチル映像と音声をもとに自己学習する人工知能(AI)を開発したと報じられた。映像に何が映っていてどんな音が聞こえるのか、単語や文章ではAIに一切教えず、AI自らが特定の物事の概念を学習する。自らを取り巻く現実世界を見たり聞いたりしながら、継続的に自分で学習するAIの開発につなげられるという。

 英ニュー・サイエンティスト誌が10日に報じた。ディープマインドは、10月22日からイタリア・ベニスで開かれる「コンピュータービジョン国際会議」(ICCV 2017)で研究成果を発表する。

 報道によれば、ディープマインドのプロジェクトチームでは、3種類のニューラルネットワークを組み込んだアルゴリズムを開発。まず映像と音声をそれぞれ専門に認識するニューラルネットワークに対し、短いビデオから切り出した一連のスチル画像と、それと同じ部分にある長さ1秒の音声を使って学習させた。

 次いで3番目のニューラルネットで、スチルのイメージと音声を比較し、どの音がビデオのどの光景にリンクしているのかを学習。全部で40万のビデオ映像から6000万のスチル・音声の組み合わせを学ばせた。

 その結果、「群衆」「タップダンス」「水」などに関わる見た目や音の概念を獲得し、人が拍手している写真に対しても、どの音が拍手と一致するかAIが理解していたという。

 また、ディープマインドのアルゴリズムはラベル付きのデータで学習させた他の多くのアルゴリズムに比べ、それらのほぼ8割の時間しかかけずに正しく音声クリップのカテゴリー分けができたとしている。

 通常、機械学習で行われているのは「教師あり学習」という手法。例えば「ネコ」というラベルをつけた大量の画像をAIに学習させると、学習していないネコのイメージを与えても、AIはそれがネコだと認識できるようになる。

 ただ、ディープマインドの研究プロジェクトリーダーによれば、こうした教師あり学習のやり方は「スケーラブルではない」という。現実世界のように、多様な物事が大量に存在する環境に人間がいちいちラベル付けしてAIに理解させるのには、限界があるためだ。

 一方で、教師なし学習のアプローチは、今回のように視覚と聴覚だけでなく、視覚と触覚などと組み合わせてAIの感覚を拡張するのにも応用できるという。さらに、ユーチューブのように大量にあるオンライン映像をもとにAIを学習させられる可能性もある。

2017年8月12日付日刊工業新聞電子版
New Scientist誌の報道

藤元 正

藤元 正
08月13日
この記事のファシリテーター

一部で「こうやって機械に知性が生まれ、人間に反逆するようになる」との?報道もあったが、それは全く別の問題だと思う。

この記事にコメントする

  

ファシリテーター紹介

記者・ファシリテーターへのメッセージ

この記事に関するご意見、ご感想
情報などをお寄せください。