会話の文脈から命令内容を理解して動くロボット、米MITが開発

トヨタ系の米TRIも研究資金協力

2017年09月06日テクノロジー

話の内容から命令を理解して箱を持ち上げようとする双腕ロボット「バクスター」（Tom Buehler/MIT CSAIL）

「私が置いた箱を持ち上げてみて」。ロボットに音声でこう命令すると、ロボットハンドが目的の箱をつかんで持ち上げる音声命令システムを、米マサチューセッツ工科大学（MIT）コンピューター科学・人工知能研究所（CSAIL）が開発した。話の文脈を理解しながら命令を実行するもので、自然な会話で人と交流するロボットの実現に向けた一歩になるという。

このシステムは、文脈（コンテキスト）中の命令（コマンド）を理解することから「コムテキスト（ComText）」と名付けられ、元CSAIL所長のロドニー・ブルックス氏が創業した米リシンク・ロボティクスの双腕ロボット「バクスター」に実装された。

人間の記憶の一種である「宣言的記憶」には、事実や一般的知識などの「意味記憶」と、ある期間や場所で起こった個人的な出来事についての「エピソード記憶」がある。これまで、音声命令で動作させるロボットのほとんどが意味記憶に焦点を当てた認識システムだったため、自然な対話だと前後の文脈が理解できず、そのつど詳細な別の命令を与える必要があった。

それに対し、コムテキストでは、カメラによる画像と自然言語で、対象となる物体の大きさ、形、位置、種類、誰のものか、といった情報をエピソード記憶として蓄える知識ベースを構成。命令に対してその意味を推論した上で反応できる。実験によれば、コムテキスト付のバクスターは９０％の正確さで命令を実行したという。

研究チームでは今後、さらに複雑な対話での命令の認識を目指す方針。将来、こうした自然対話ベースの音声認識技術が自動運転車や家事用ロボットなどに応用される可能性があるという。

詳細は８月１９－２５日まで豪州メルボルンで開かれた「国際人工知能会議2017」で論文発表された。研究には、米トヨタ・リサーチ・インスティテュート（TRI）や全米科学財団（NSF）、米陸軍ロボティクス共同技術アライアンス、米空軍研究所などが資金提供している。

2017年9月4日付日刊工業新聞電子版

藤元正 Fujimoto Tadashi

アップルのSiriも「質問→答え」という単発での受け答えで、前の話を受けながら人間同士のような会話にならないのが残念な部分。それを表面上取り繕った疑似会話のシステムはあるにしても、しょせんは作り物にすぎない。映画『2001年宇宙の旅』でHAL9000が見せたようなAIとの自然な会話はまだまだ遠い話なのでしょうか。「すいません、デイブ。私にはできません」とHALは言っていますが。