中国バイドゥ、人工知能の画像認識能力でグーグル上回る
専用スパコンを開発、将来はモバイル端末に機能搭載?
中国最大の検索サイトを運営するバイドゥ(百度)の開発した人工知能(AI)専用スーパーコンピューターの画像認識率が、米グーグルの世界記録を上回った。5月11日に公開されたバイドゥの研究者による論文によれば、北京に設置された独自開発の「Minwa」というスパコンと、AI技術の一種であるディープラーニング(深層学習)を使い、画像認識ソフトの標準的な評価基準での誤認識率を4.58%にまで抑えることができたという。それまでの世界記録は3月にグーグルが達成した4.82%だった。
Minwaは、72個のMPUと144個のGPU(画像処理専用プロセッサー)で構成される。脳の神経回路をモデルにしたニューラルネットワークでデータを処理するディープラーニングの手法により、情報を階層構造のレイヤーに配列。膨大なデータで訓練を繰り返すことで認識の精度を上げる。今回は、結合部が数千億という、これまでの数百倍もある大規模なニューラルネットワークを作り出すことなどで、高い画像認識率を実現できたのだという。
バイドゥの研究者らは、画像認識ソフトの標準的な評価基準である「イメージネット・クラシフィケーション・チャレンジ」を利用し、1000種類にカテゴリー分けされた150万もの訓練画像でMinwaに画像を憶え込ませた。その上で、これまで見たことがなかった10万枚の画像が新たに提示され、それをどのカテゴリーに分類するかでコンピューターの画像認識能力を測定した。
実はグーグルが世界記録を達成した1カ月前の2月には、米マイクロソフトの北京チームが独自アルゴリズムで当時トップとなる4.94%という画像誤認識率を報告し、この時に初めてイメージネットでの人間の画像認識能力(平均誤認識率5.1%)をコンピューターが上回った。ディープラーニングは画像認識能力の向上による画像検索、顔認識に加え、音声認識、テキスト認識、さらには動画内容の解釈や、画像の文章説明などへの適用も期待されている。
MITテクノロジーレビュー誌によれば、バイドゥではMinwaのニューラルネットワークをさらに大規模化し、動画やテキスト認識に取り組むほか、学習させたニューラルネットワークの縮小版を、モバイル端末で使えるようにもしていくという。
Minwaは、72個のMPUと144個のGPU(画像処理専用プロセッサー)で構成される。脳の神経回路をモデルにしたニューラルネットワークでデータを処理するディープラーニングの手法により、情報を階層構造のレイヤーに配列。膨大なデータで訓練を繰り返すことで認識の精度を上げる。今回は、結合部が数千億という、これまでの数百倍もある大規模なニューラルネットワークを作り出すことなどで、高い画像認識率を実現できたのだという。
バイドゥの研究者らは、画像認識ソフトの標準的な評価基準である「イメージネット・クラシフィケーション・チャレンジ」を利用し、1000種類にカテゴリー分けされた150万もの訓練画像でMinwaに画像を憶え込ませた。その上で、これまで見たことがなかった10万枚の画像が新たに提示され、それをどのカテゴリーに分類するかでコンピューターの画像認識能力を測定した。
実はグーグルが世界記録を達成した1カ月前の2月には、米マイクロソフトの北京チームが独自アルゴリズムで当時トップとなる4.94%という画像誤認識率を報告し、この時に初めてイメージネットでの人間の画像認識能力(平均誤認識率5.1%)をコンピューターが上回った。ディープラーニングは画像認識能力の向上による画像検索、顔認識に加え、音声認識、テキスト認識、さらには動画内容の解釈や、画像の文章説明などへの適用も期待されている。
MITテクノロジーレビュー誌によれば、バイドゥではMinwaのニューラルネットワークをさらに大規模化し、動画やテキスト認識に取り組むほか、学習させたニューラルネットワークの縮小版を、モバイル端末で使えるようにもしていくという。
ニュースイッチオリジナル