ニュースイッチ

カメラで観測した人の行動を言語に変換するAI、何に使う?

千葉工業大学の竹内彰一主席研究員らは、カメラなどで視覚的に観測された日常の人の行動を認識し言語に変換する技術を開発した。人工知能(AI)を使い「誰が何をしている」といった、動作主や動作内容、動作対象などを認識し、動画に説明文を自動で付けられる。生活を支援するAIに応用できると期待される。

AIが家族の行動を認識し「カギはどこ?」と聞くと「昨日は玄関に置いていた」などと答える質問応答の機構を確立し、それを備えた家庭用ロボットを作製したい考え。

さまざまな産業分野でAIが使われる。少子高齢化が進む社会では、育児や介護など「人」を対象にしたAIの活用が期待されている。AIが人の生活を支援するには人の動きを認識し、その内容を言語化するなどの能力が必要とされる。

研究グループは、AIに学習させるための人の日常生活を撮影した動画集「学習用データセット」を作り、人の動作を認識して言語に変換できるシステムを開発した。「飲む」や「座る」といった100種類の日常動作ラベルのいずれかが付いた10万本の動画を学習させ、動画内の人の動作を認識するモデルを作成した。「Aさんが台所で料理をしている」など、一つの動画の説明文に「誰が、どこで、何をしている」という要素を盛り込むことで、動画中の日常動作を認識させた。

また、40万個の日本語説明文を集めたデータセットを学習させ、自動で動画に説明文を付けることを可能にした。短い動画内の人の動きを認識し、動作を日本語の説明文に変換できるようにした。

さらに、数百時間ある動画内の出来事を学習させ「Bさんは何を食べた?」と質問すると「パンを食べた」などと動画の内容を応答できる仕組みを作った。

日刊工業新聞2020年2月3日

編集部のおすすめ