ロボット作業で重要な「力感覚」…AI学習で試行錯誤、日本リードも海外猛追

2023年12月09日テクノロジー

立命館大学、パナソニック、奈良先端科学技術大学院大学のコンビニエンスストア商品陳列ロボ

触覚を規格化する

ロボット研究で手応えなどの力触覚データを人工知能（ＡＩ）にいかに学習させるか試行錯誤が始まっている。大量のデータを学習させた大規模言語モデル（LLM）の研究が成功したためだ。現在の基盤モデルは画像とテキストが中心だが、ロボットの作業には力触覚が重要になる。ただセンサーや機体によって得られるデータがさまざまで規格がない。交流サイト（ＳＮＳ）のようなメディアもない。製造や物流などの現場で得られるデータを戦略的に使う必要がある。（小寺貴之）

製造現場などのデータ、戦略的に利用

「ロボットの研究者は何十年も手探りを実現したいと挑戦してきた。力触覚が重要なことは明らか。だが難しい」―。立命館大学のエル・ハフィ・ロトフィ准教授はロボットの力触覚研究をこう振り返る。人間は触った物を直接見なくても何を手に取ったか分かる。例えば冷蔵庫の奥から卵を取り出す際に、触覚で卵パックを認識して少し持ち上げ、重心の位置から何個卵が残っているかを判断する。落とさないよう持つ位置を調整してから棚から取り出す。この間、１秒かからない。だがロボットにとっては至難の業だ。

理由はいくつもある。一つはデータがバラバラな点だ。立命館大の野間春生教授は「映像や音声は規格があった。触覚も規格化が必要ではないか」と提案する。野間教授は触覚センサーの応用研究を進めてきた。センサー自体の技術はあるが、振動や力の測定値が何を意味するかのデータがない。計測状況によって値が変わるため、値だけでは、それが何を指すのか分からない。人が見れば分かる画像とは対照的だ。ネット上に散在するデータをかき集めて後から意味を付けるのは不可能に近い。そのためデータを取るところから戦略的に進める必要がある。

そうまでして力触覚をＡＩに学ばせる必要があるのか。この可能性を探る研究は日本がリードしてきた。早稲田大学の尾形哲也教授らはロボットによるスクランブルエッグの調理に力触覚を利用した。調理中のロボットの動作と視覚、力覚、触覚データをＡＩに学習させた。するとフライパンにくっつく卵をヘラで剥がす力加減が生成された。尾形教授は「ロボットの仕事は相手に物理的な力をかける作業がほとんど。力触覚が重要になる」と説明する。

現在、米国を中心にロボットの動作と視覚データを大量に集めて学習させる研究プロジェクトが進んでいる。人間は「卵パックは柔らかい」といったことが、触らなくても見れば分かる。これを前提に視覚情報から物の扱い方を類推して触り方を変える戦略だ。ただデータの量に頼る研究アプローチになっている。そのため力触覚のデータを加えて学習を効率化できるならその方がいい。尾形教授は「海外も当然、気がついていて人間の動作をまねるところから始めるなど、研究アプローチが似てきた。猛烈に追いかけられていると感じる」と焦りを隠さない。

制御・動作生成可能に

日本では新エネルギー・産業技術総合開発機構（ＮＥＤＯ）事業で産業用ロボット次世代基礎技術研究機構（ＲＯＢＯＣＩＰ）がハンドリングのためのデータ構築技術を開発している。小売りで扱う食品や日用品の３次元（３Ｄ）データや重心、表面の摩擦などのデータを集めて商品ごとに最適な把持点を求める。例えば円柱状の缶飲料とスナック容器の形状は似ていても、重量や強度は違う。筑波大学の相山康道教授は「商品のどこをどの程度の力でつかめばいいかデータベースを作ると、データのない新商品であっても似た商品から最適な持ち方を求められる」と説明する。

この摩擦計測は触覚計測に相当し、重心は力覚センサーで求める。こうしたデータ収集インフラと基盤モデルを組み合わせると、力触覚を使った制御や動作生成も可能になるかもしれない。小売りや物流向けに事業が成り立てば持続可能なデータ供給が見込める。足りないのは戸や引き出しなどの環境に働きかける際のデータだ。尾形教授は「画像やテキストでは苦杯をなめたが、力触覚はまだ勝敗は付いていない」という。日本に先見の明はあった。力触覚研究の大変さを知っているのも日本の研究者だ。海外は力業で追いかけてくる。二手三手先を読むために知恵を絞る必要がある。

光や音で代替も

力触覚を他のセンサーで代替する研究もある。立命館大のロトフィ准教授らは光の反射で対象との距離を測る近接覚センサーで表面の性状を推定する研究を進める。例えばプラスチック容器のつるつるした面や紙容器のざらざらした面などを光の反射で識別する。ロトフィ准教授は「近接覚センサーでの推定精度は、画像を用いた物体認識での推定と同程度だった」と説明する。まだ初期の検証段階のため学習データを増やせば精度は向上する。近接覚センサーは対象に触らずにすみ、データを標準化しやすい。

埼玉大学の辻俊明准教授は音で力覚を代替した。塗装を剥がす研磨ブラシの接触音で力加減を調整する。平面での剥離音と動作データをロボットに学習させると、学習させていない曲面も剥離音を頼りに磨けるようになった。辻准教授は「音の前は力覚データを学習させていた。音の方が力より周波数が高く、分解能がよいと気がついた」と振り返る。

音の学習は連続的な音が発生する作業にしか適用できない。それでも辻准教授は「研磨の自動化は市場が大きい。研磨だけでも十分実用化するうまみはある」と説明する。

中古品リサイクルで塗装を剥がすシーンを想定する。中古品は凹みや傷があり、１ミリ―２ミリメートル程度は変形する。設計値からのずれを研磨音で自動修正すれば、人の作業は検査を兼ねた仕上げ程度で済むと期待される。

【関連記事】　ＡＩソフトで生産コストの削減を支援する注目の企業

日刊工業新聞 2023年12月04日

小寺貴之 Kodera Takayuki 編集局科学技術部記者

視覚と動作で把持点や持ち方が生成されるなら、視覚と動作、力覚、触覚、聴覚で料理動作の基礎単位が生成されるかもしれません。そのために料理動画に映る手の形や音から力を推定するツールが作れないものかと思います。料理に限定しなくても、人間が働いている動画は結構あるので、ここからラフでもいいから力覚を取り出して、視覚と動作、聴覚をシミュレーションで模倣学習させて、実機で仕上げる。こんなことができればデータ制約がクリアできるんじゃないかと思います。料理ロボではビジネスモデルが成り立たなくても、同じスキームで工場の作業をデジタル化して、ある程度汎用化させた上でロボットに移植できたらと思います。棚から部品を取り出したりしまう動作で、物と物のすきまに手を入れて奥から取り出し、しまう。コンビニや物流に協力してもらって棚ピッキングの動画を集めたら汎用的なデータインフラにならないのかなと思います。動画とラフなデータだけでは心許ないのでNEDOプロのちゃんと計測したデータで補正する。その結果、狭小工場にありがちな天井まで届く密密の部品棚から物を取り出せたらエポックです。ロボットが大手のための自動化技術でなく、中小の現場を変える技術になるかもしれません。

ニュースイッチ