グーグル子会社、深層学習より高い予測性能を実現
英ディープマインドが長期課題担うAI開発
米グーグル傘下の英ディープマインドは、多段階の反応や行動を解く「自動計画」と、さまざまな手法の中から良い手法を見つけさせる「強化学習」を融合した新しい人工知能(AI)技術「PREDICTRON」(プレディクトロン)を開発した。
AIが学習しながら長めの計画を立てられる。簡易化したビリヤードでは従来の約3倍となる50回中、27回でボールをポケットに落とすなど、既存の深層学習を使う手法より高い予測性能を実現した。
プレディクトロンでは、自動計画と強化学習を融合し、多段階の各段階で報酬を与えて最適な手法をみつけさせつつ、報酬を累積させるなどして学習が破綻しないようにした。
簡易型ビリヤードで性能を検証。四つのボールをランダムに配置し、その中の白玉を転がして他のボールをコーナーに落とす。ボールを転がす角度や速度によって壁や別のボールにどう跳ね返り、ボールが転がるかAIに予測させる。その結果、50回中27回でコーナーに落とせた。従来技術では10回だった。
従来のAIでは連続的な問題を解く際に、1段階での学習を繰り返していたため、全体としての成功率が上がりづらかった。プレディクトロンでは、多段階で長めの計画を立てられるようになった。
AIが学習しながら長めの計画を立てられる。簡易化したビリヤードでは従来の約3倍となる50回中、27回でボールをポケットに落とすなど、既存の深層学習を使う手法より高い予測性能を実現した。
プレディクトロンでは、自動計画と強化学習を融合し、多段階の各段階で報酬を与えて最適な手法をみつけさせつつ、報酬を累積させるなどして学習が破綻しないようにした。
簡易型ビリヤードで性能を検証。四つのボールをランダムに配置し、その中の白玉を転がして他のボールをコーナーに落とす。ボールを転がす角度や速度によって壁や別のボールにどう跳ね返り、ボールが転がるかAIに予測させる。その結果、50回中27回でコーナーに落とせた。従来技術では10回だった。
従来のAIでは連続的な問題を解く際に、1段階での学習を繰り返していたため、全体としての成功率が上がりづらかった。プレディクトロンでは、多段階で長めの計画を立てられるようになった。
日刊工業新聞2017年6月16日