「常識」「データ」使い切れ…基盤モデル・LLM、ロボットに応用
大量のデータを学んだ基盤モデルや大規模言語モデル(LLM)をロボットに応用する研究が進んでいる。LLMに含まれる“常識”をロボットの行動生成に利用したり、世界中からロボットの稼働データを集めて学習させたりしている。このアプローチの限界はまだ見えない。研究者はアイデアを片っ端から試して論文を書く。日本の若手も挑戦している。(小寺貴之)
「モデルのアップデートでロボットの発言が変わった。3カ月後には研究自体も変わっているかもしれない」と大阪大学の吉田尚弘大学院生は説明する。LLMを建設ロボットの連携作業に応用する研究を進める。米オープンAIのGPT4ターボからGPT4オムニに切り替えたところロボットが一言目に「何かできることはありますか」と尋ねるようになった。この質問をトリガーにロボ同士の対話が始まる。従来は研究者が他のロボに尋ねるようタイミングなどを設計していた。
建設ロボが泥道にはまる、道が障害物でふさがれているといった不測の事態に対応するため、LLMの常識の中から答えを引き出すことが研究の目的だ。人間は電柱が倒れていたらアームでどかす、アームのない機体なら迂回(うかい)するなどと簡単に思い付くが、条件分岐を含め一つひとつプログラムすると膨大な開発工数になる。これを人が答えるようにLLMから引き出せれば想定外に対応できる。
実験ではバックホー型やブルドーザー型のロボが連携し、障害物を押してどかしたり、アームで片付けたりと対応ができた。LLMにロボの機能を覚えさせ「私が障害物を押してどかしましょうか」などと発話させ実行させた。阪大の末岡裕一郎助教は「ロボットの設計情報でなく『アームあり』程度の情報でも行動を選べるようになる。さまざまな機体が連携する協働作業に向く」と説明する。
世界でロボット研究者がデータを持ち寄るプロジェクトもある。米グーグルの研究者らが主導するAIモデル「RT―X」開発には242万エピソード、8965ギガバイト(ギガは10億)のデータが集まっている。エピソードとは「リンゴを布の上にのせる」といった動作のデータを指す。双腕や単腕、移動型双腕、四脚などさまざまな機体のデータを集めて学習させ、自律的に動作が生まれるか検証した。結果、元データにない動作が生まれ、創発性は3倍ほど向上した。
ただ学習に使えたのは単腕のデータに限られるなど、最初の論文の段階ではグーグルの研究者でさえもデータを持て余した形だ。実験は「バナナをフライパンにのせる」といった簡単な動作だが、成功率は約6割だった。要因の一つに画像データが粗いことが挙げられる。日本から参加した東京大学の河原塚健人特任助教は「いずれの作業も人が横で操作すれば簡単にできてしまう。人の視覚はそれほど優れている」と指摘する。
課題も多いが、多くの研究者が基盤モデルに期待している。河原塚特任助教は調理の状態推定に基盤モデルを活用した。例えば「熱したフライパンでバターが溶けてから卵を投入する」「タマネギが飴(あめ)色になるまで炒める」といった手順はネット上のレシピから得られる。ただ溶けたバターや飴色のタマネギなどの状態を定義するのが難しい。そこでネットの膨大な情報を学んだ基盤モデルを活用する。基盤モデルにバターが溶けたか判定させ、次の手順に進む。ブロッコリーをゆでバターで炒めるという一連の調理を自動化した。河原塚特任助教は「レシピ情報の取得や判定基準の作成は難しくない」と説明する。
基盤モデルがロボット研究の新しい基軸になり、アイデアの数だけ論文になる勢いがある。ただ実用性を考えると課題は多い。それでも遠隔操縦ガイドや調理ガイドなど、完全自律から操縦支援へとハードルを下げるとサービスとして成り立つ用途が出てきている。多様な基礎研究からビジネスのタネを探す時機がきている。