試行錯誤で作業学ぶロボット、UCバークレーが開発
任務の最初と最後だけ提示、環境変化にアルゴリズムが適応
人間と同じようにロボットが試行錯誤を繰り返しながら、組み立て作業などの運動課題を自ら学習していくアルゴリズムを、米カリフォルニア大学バークレー校(UCバークレー)ロボット学習研究室のチームが開発した。人工知能の一種である「ディープラーニング(深層学習)」を使ったもの。
このアルゴリズムに基づくソフトを組み込んだロボットの「BRETT」は、3次元空間での詳しい周辺環境をプログラミングすることなく、任務の最初と最後の状態を与えておくだけで、レゴブロックを組み合わせたり、洋服のハンガーを棚に置いたり、おもちゃの飛行機を組み立てたり、水筒のキャップを回して締めたり、といったさまざまな作業のやり方を自ら学習していったという。
工場と違って家庭や事務所の環境は常に変化する。そのため、想定シナリオに合わせてあらかじめプログラミングしていくやり方は、条件が膨大になり実用的ではないという。ロボットをそうした場所に導入するには、人間が育っていく過程で試行錯誤という経験から新しいスキルを学んでいくように、環境の変化を知覚し、そのつどロボットが適応していくことが必要になる。
研究プロジェクトのリーダーでもある同大電気工学コンピューター科学部のピエター・アビール教授は、「鍵となるのはロボットが何か新しいことに直面した時、プログラミングし直さなくていいということ。まったく同じ学習ソフトウエアを使って、違った任務をすべてロボットに学習させることができた」とコメントしている。最新の開発成果は、5月28日にシアトルで開かれる「国際ロボットオートメーション会議(ICRA)」で紹介される。
BRETTのアルゴリズムには報酬関数が組み込まれ、ロボットが任務完了に近づいた動きをすると、そうでないときに比べて点数が高くなる。リアルタイムでこの点数を学習回路にフィードバックしながら、作業をこなすのにどういう動きをしていったらいいのかを学ばせる。ある事例では、任務の最初と最後を与えるだけで約10分で作業をマスターした。それに対し、対象物の位置を与えずに、画像で制御するやり方だと学習プロセスに3時間もかかったという。
この研究には、国防総省国防高等研究事業局(DARPA)、海軍研究事務所、陸軍研究所、国立科学財団(NSF)が資金支援している。
このアルゴリズムに基づくソフトを組み込んだロボットの「BRETT」は、3次元空間での詳しい周辺環境をプログラミングすることなく、任務の最初と最後の状態を与えておくだけで、レゴブロックを組み合わせたり、洋服のハンガーを棚に置いたり、おもちゃの飛行機を組み立てたり、水筒のキャップを回して締めたり、といったさまざまな作業のやり方を自ら学習していったという。
工場と違って家庭や事務所の環境は常に変化する。そのため、想定シナリオに合わせてあらかじめプログラミングしていくやり方は、条件が膨大になり実用的ではないという。ロボットをそうした場所に導入するには、人間が育っていく過程で試行錯誤という経験から新しいスキルを学んでいくように、環境の変化を知覚し、そのつどロボットが適応していくことが必要になる。
研究プロジェクトのリーダーでもある同大電気工学コンピューター科学部のピエター・アビール教授は、「鍵となるのはロボットが何か新しいことに直面した時、プログラミングし直さなくていいということ。まったく同じ学習ソフトウエアを使って、違った任務をすべてロボットに学習させることができた」とコメントしている。最新の開発成果は、5月28日にシアトルで開かれる「国際ロボットオートメーション会議(ICRA)」で紹介される。
BRETTのアルゴリズムには報酬関数が組み込まれ、ロボットが任務完了に近づいた動きをすると、そうでないときに比べて点数が高くなる。リアルタイムでこの点数を学習回路にフィードバックしながら、作業をこなすのにどういう動きをしていったらいいのかを学ばせる。ある事例では、任務の最初と最後を与えるだけで約10分で作業をマスターした。それに対し、対象物の位置を与えずに、画像で制御するやり方だと学習プロセスに3時間もかかったという。
この研究には、国防総省国防高等研究事業局(DARPA)、海軍研究事務所、陸軍研究所、国立科学財団(NSF)が資金支援している。