中国バイドゥ、人工知能の画像認識能力でグーグル上回る

専用スパコンを開発、将来はモバイル端末に機能搭載?

 中国最大の検索サイトを運営するバイドゥ(百度)の開発した人工知能(AI)専用スーパーコンピューターの画像認識率が、米グーグルの世界記録を上回った。5月11日に公開されたバイドゥの研究者による論文によれば、北京に設置された独自開発の「Minwa」というスパコンと、AI技術の一種であるディープラーニング(深層学習)を使い、画像認識ソフトの標準的な評価基準での誤認識率を4.58%にまで抑えることができたという。それまでの世界記録は3月にグーグルが達成した4.82%だった。

 Minwaは、72個のMPUと144個のGPU(画像処理専用プロセッサー)で構成される。脳の神経回路をモデルにしたニューラルネットワークでデータを処理するディープラーニングの手法により、情報を階層構造のレイヤーに配列。膨大なデータで訓練を繰り返すことで認識の精度を上げる。今回は、結合部が数千億という、これまでの数百倍もある大規模なニューラルネットワークを作り出すことなどで、高い画像認識率を実現できたのだという。

 バイドゥの研究者らは、画像認識ソフトの標準的な評価基準である「イメージネット・クラシフィケーション・チャレンジ」を利用し、1000種類にカテゴリー分けされた150万もの訓練画像でMinwaに画像を憶え込ませた。その上で、これまで見たことがなかった10万枚の画像が新たに提示され、それをどのカテゴリーに分類するかでコンピューターの画像認識能力を測定した。

 実はグーグルが世界記録を達成した1カ月前の2月には、米マイクロソフトの北京チームが独自アルゴリズムで当時トップとなる4.94%という画像誤認識率を報告し、この時に初めてイメージネットでの人間の画像認識能力(平均誤認識率5.1%)をコンピューターが上回った。ディープラーニングは画像認識能力の向上による画像検索、顔認識に加え、音声認識、テキスト認識、さらには動画内容の解釈や、画像の文章説明などへの適用も期待されている。

 MITテクノロジーレビュー誌によれば、バイドゥではMinwaのニューラルネットワークをさらに大規模化し、動画やテキスト認識に取り組むほか、学習させたニューラルネットワークの縮小版を、モバイル端末で使えるようにもしていくという。

ニュースイッチオリジナル
バイドゥの研究者による論文

藤元 正

藤元 正
05月17日
この記事のファシリテーター

試しに「イメージネット」の写真をのぞいてみたら、さまざまな物や動植物のほか、「個人(person)」のカテゴリーには「笑顔」や「怖い顔」「政治家」「恋人同士」など多種多様なサブカテゴリーが用意されている。一方で、我々の意識は脳の神経ネットワーク上に電気信号として存在するらしいのだが、人工ニューラルネットワークに情報を整理して詰め込んでいけば、やがて意識みたいなものが生まれるのだろうか。まだまだ遠いような気がするけれど。

この記事にコメントする

  

ファシリテーター紹介

記者・ファシリテーターへのメッセージ

この記事に関するご意見、ご感想
情報などをお寄せください。