ロボットに指示・意図どう伝える？…インターフェース最適化へ新手法探る

2024年11月24日テクノロジー

サンドイッチを受け取るロボ

基盤モデル時代のロボットインターフェースが模索されている。大規模言語モデル（ＬＬＭ）などの進展でロボットと話せば、ある程度は指示通りに動くようになってきた。だが実際に作業をさせるために細かく指示してみると、なんとも面倒に感じてしまう。そこであらためて拡張現実（ＡＲ）などの３次元（３Ｄ）表示でロボットに意図や指示を伝える手法が検証されている。人とロボットの最適なインターフェースを探る。（小寺貴之）

東大など3Dで新手法　曖昧な指示、対話で許容

「テキストチャットだけでは限界がある。情報量を増やさないと」―。東京大学の大日方慶樹大学院生は生活支援ロボットとの対話インターフェースを研究する。ＬＬＭを介してロボットにチャットで指示し、実店舗でサンドイッチを買ってくるデモシステムを開発した。人間は「何か食べ物を買ってきて」と頼めば、お店でおすすめメニューを確認するなどの融通を利かせてくれる。

そこでロボットに「＠食べ物＠を買ってきて」と、チャットの単語を＠で囲めば曖昧な指示でも許容する対話システムを開発した。ロボットは店頭でメニューを撮影して、視覚言語モデル（ＶＬＭ）で画像から商品名を抽出し、どれを買うかチャットでユーザーに問い合わせる。実際に屋外店舗で購入できた。ただし現地でのメニュー表探しやＶＬＭでの商品名抽出などは人工知能（ＡＩ）任せでは安定しない難しさがある。

早稲田大学の牛坂茜学部生は曖昧さがなくなるまでやりとりするシステムを開発した。例えば「オムレツを作るから冷蔵庫から卵を取って」という指示に対し、冷蔵庫の中のどの卵を取るか確認する。画像認識で卵と認識することは難しくない。だが、バラの卵か、パックの中の卵か、消費期限を優先するのか、オムレツに必要な数はいくつか確認してから卵を取る。このやりとりに４―８回かかる。ユーザーは許容できないと見込まれる。

これらは問題提起の研究だ。早大の尾形哲也教授は「画像認識ができたら終わりではない。文脈によって正解はいくらでも変わる」と指摘する。焦点はモデルの規模が解決策になるかどうかだ。視覚や言語、聴覚情報を学んだ巨大な基盤モデルを作れば現実世界での文脈を汲（く）めるようになるのか。データも計算資源もＬＬＭとは比べものにならないと見込まれる。そこで文脈共有でやりとり回数を減らす方針だ。「これまでの経緯や、これから起こり得る予測の共有などがテーマになる」（尾形教授）。

東大はＡＲグラスで情報量を増やして対応した。例えば「冷蔵庫の中から何か＠飲み物＠を取って」というタスクでは冷蔵庫の中の商品の３ＤモデルをＡＲで表示してユーザーに選ばせる。３次元座標の情報も含むため、ロボットは選ばれた飲み物をハンドリングできる。大日方大学院生は「３Ｄデータなら物や場所を選択できる」と説明する。チャットよりも広く応用することができる。

さらに最近のスマートフォンは部屋全体をスキャンして３次元地図を作れてしまう。スマホ一つで地図作成からＡＲ表示まで可能。ＡＲグラスでなくても普及済みの端末で利用できる。

“意思” をARで情報共有

より積極的にＡＲを使う研究もある。立命館大学のトーンバーグ・カール大学院生はロボットの走行経路や動作、センサーの検知状況などをＡＲでユーザーと共有する。人間はいちいち動きを見て確かめる必要のあるロボットとは暮らせない。人間と同じように視界の端に捉える程度の情報で、これから何をするつもりか共有する必要があった。経路や動作など、ロボットが意思表示すれば暮らしの文脈を共有できる。

ロボットの意図はユーザーがロボットのために生活空間を整える際にも有用になる。掃除ロボットはユーザーがロボットに合わせて家具を選んだり、床に物が落ちていないよう片付けたりしたため普及した。ロボットに家事を担わせるにはロボット用に整える範囲が広がる。ロボットの意図と失敗原因を共有する必要があった。

立命館のエル・ハフィ・ロトフィ研究准教授は「将来はロボットの認知プロセスや学習の進捗（しんちょく）をリアルタイムで可視化できるようにしたい」と説明する。ロボットは一緒に暮らしながらデータをため、家庭ごとに単語や場所などを学習していくことになる。学習の進捗は基盤モデルの潜在空間に表れる。ロトフィ研究准教授は「潜在空間の分類を直接操作してロボットが誤解した概念を修正できるようにしたい」という。場所の概念形成や物体認識の修正効率化に成功している。

基盤モデルが文脈を汲めればインターフェースをチャットのように簡素にでき、反対にＡＲのように高度なインターフェースを用いれば未熟な基盤モデルでも仕事になる。

インターフェース研究は作って試して「これじゃない」と作り直すことの連続だ。インターフェース自体に正解はなく、ロボットやサービスによって適切な形が変わる。そのため多様な選択肢を用意しておくことが重要だ。学術界の試行錯誤がロボットの社会実装を支えると期待される。

日刊工業新聞 2024年10月16日

小寺貴之 Kodera Takayuki 編集局科学技術部記者

AIスピーカーの聞き間違えは何回くらいがまんできるでしょうか。自分は３回言い直してもダメだと、キーボード入力してやろうかと思ってしまいます。何か聞いて、それはスマホで検索してくださいと返ってくると、電源切るぞと思ってしまいます。生活支援ロボットは単価が高いので、たぶん買い切りではなくサブスクで提供されるはずです。継続的に利用してもらうには何回もやりとりする煩わしさは克服せねばなりません。ただARグラスの開発は道半ばで、HMDが日常使いされるとは思えないので、やはりスマホに入れ込まないといけないのではと思います。インターフェースはサービスが固まらないと正解がわかりません。ロボットも最初から汎用的なサービスはできないので、インターフェースも汎用性よりも最初はサービス特化のインターフェースになるはずです。限定すれば簡単になります。本当にロボに自然な対話は求められるのか。工学的な最適解ではないのではないか。いまのデモを見ると考えてしまいます。それでも根気強く話せば動くようになりました。対話データを蓄えれば個別の推論精度も上がり、やりとりの数を減らせるはずです。いまの追い風を受けてどこまでいけるか、いろんな形を試していくことになります。