ニュースイッチ

試行錯誤で作業学ぶロボット、UCバークレーが開発

任務の最初と最後だけ提示、環境変化にアルゴリズムが適応
試行錯誤で作業学ぶロボット、UCバークレーが開発

レゴブロックを組み付けるBRETT(UCバークレーロボット学習研究室の動画から)

 人間と同じようにロボットが試行錯誤を繰り返しながら、組み立て作業などの運動課題を自ら学習していくアルゴリズムを、米カリフォルニア大学バークレー校(UCバークレー)ロボット学習研究室のチームが開発した。人工知能の一種である「ディープラーニング(深層学習)」を使ったもの。
 
 このアルゴリズムに基づくソフトを組み込んだロボットの「BRETT」は、3次元空間での詳しい周辺環境をプログラミングすることなく、任務の最初と最後の状態を与えておくだけで、レゴブロックを組み合わせたり、洋服のハンガーを棚に置いたり、おもちゃの飛行機を組み立てたり、水筒のキャップを回して締めたり、といったさまざまな作業のやり方を自ら学習していったという。

 工場と違って家庭や事務所の環境は常に変化する。そのため、想定シナリオに合わせてあらかじめプログラミングしていくやり方は、条件が膨大になり実用的ではないという。ロボットをそうした場所に導入するには、人間が育っていく過程で試行錯誤という経験から新しいスキルを学んでいくように、環境の変化を知覚し、そのつどロボットが適応していくことが必要になる。

 研究プロジェクトのリーダーでもある同大電気工学コンピューター科学部のピエター・アビール教授は、「鍵となるのはロボットが何か新しいことに直面した時、プログラミングし直さなくていいということ。まったく同じ学習ソフトウエアを使って、違った任務をすべてロボットに学習させることができた」とコメントしている。最新の開発成果は、5月28日にシアトルで開かれる「国際ロボットオートメーション会議(ICRA)」で紹介される。

 BRETTのアルゴリズムには報酬関数が組み込まれ、ロボットが任務完了に近づいた動きをすると、そうでないときに比べて点数が高くなる。リアルタイムでこの点数を学習回路にフィードバックしながら、作業をこなすのにどういう動きをしていったらいいのかを学ばせる。ある事例では、任務の最初と最後を与えるだけで約10分で作業をマスターした。それに対し、対象物の位置を与えずに、画像で制御するやり方だと学習プロセスに3時間もかかったという。

この研究には、国防総省国防高等研究事業局(DARPA)、海軍研究事務所、陸軍研究所、国立科学財団(NSF)が資金支援している。
藤元正
藤元正 Fujimoto Tadashi
米アイロボットが開発し、日本でも人気の家庭用掃除ロボット「ルンバ」は、ユーザーの部屋を効率的に掃除するのに試行錯誤で学習する機能が付いていると聞いたことがある。床掃除は2次元の平面で行われるが、組み立て作業は3次元空間のため、難易度は格段に高い。それでもアビール教授が言うように、アルゴリズムを発展させていくことで、今後5〜10年でロボットが複雑な作業をこなせるようになるかもしれない。

編集部のおすすめ