AIが「動画を動画」として学習し始めた意義

従来は静止画１コマずつの集まりとして処理されてきた

2019年01月31日テクノロジー

スーパーコンピューターを２カ月フル回転して学習させた産総研の動画認識ＡＩの識別例

　人工知能（ＡＩ）技術の動画対応が進んでいる。従来は動画データは静止画一コマずつの集まりとして処理されてきた。最近は時間変化を前提とした、本当の意味の動画としてＡＩがデータを学習できるようになってきた。動画から知識や因果を抽出したりロボットの制御に使ったりと応用範囲が急拡大すると期待される。課題は膨大なデータの処理や収集の効率化だ。

　産業技術総合研究所知能システム研究部門の佐藤雄隆副研究部門長らは、ディープラーニング（深層学習）により認識精度を７４％に高めた動画認識ＡＩを開発した。数にして約３０万の動画データで１５２層からなる学習モデルを訓練した。学習には、産総研のＡＩ用ス―パーコンピューター「ＡＡＩＣ」を２カ月間フル回転させた。佐藤副研究部門長は「静止画の学習は１００万データで成否が分かれた。動画もデータの量が突破口になった」と説明する。

　こうした研究が進めば、動画から知識を取り出す応用が開ける。産総研人工知能研究センターの麻生英樹副研究センター長は「ＡＩがどこに着目して判断したか可視化する技術を、時間軸方向にも応用できる」としている。

　例えば、人が転倒する動画と、しない動画を集めて歩く様子から転倒率を予測し、さらに予測の根拠を逆解析できる。「膝が上がらない歩行者は転びやすい」といった理由を抽出できる可能性がある。製造作業の動画に利用すれば不良発生の理由、スポーツの動画なら好プレーの要因を探せると期待される。

　だが、動画認識ＡＩは人間のように動画の内容を理解しているわけではない。佐藤副研究部門長は映像の中から人間を隠した動画を用意してＡＩに学習させた。それでも７―８割の認識精度だった。佐藤副研究部門長は「テニスと認識した動画でも、ＡＩはプレーする選手を見ていたのではなくコートを見ていた」と説明する。この結果は、静止画の集まりとしてデータを処理するＡＩ研究への反証として注目された。この問題は動画認識ＡＩにも引き継がれる。

　動画から知識を抽出するには「もう一工夫必要」と、同センターの辻井潤一研究センター長は指摘する。背景と人物、動体と静止物を分けて認識しつつ、動画のシーン認識と結びつけて構造化する必要がある。

　またロボット制御に分析結果を応用するには、動画認識の結果を言葉ではなく、ロボシミュレーションや制御用言語などの形で出力する必要がある。辻井研究センター長は「動画処理は知識系とデータ系のＡＩを結ぶ先端領域の一つ。面白くなる」と期待する。

課題はデータだ。動画は情報量が多く、データベース構築にコストがかかる。利用シーンを絞り込むことや、データ収集の効率化のために日常の作業に収集作業を埋め込む、といった戦略が重要になる。
（文＝小寺貴之）

日刊工業新聞2019年１月18日

小寺貴之 Kodera Takayuki 編集局科学技術部記者

動画からの知識抽出はロボット制御やVR（仮想現実）、AR（拡張現実）、自動運転と相性が良いです。機械が現実世界で何が起きているか捉える第一歩になります。特に自動運転やロボットはカメラ以外のセンサーを積んでいるので、距離情報を含めて、何が起きたかより正確にわかります。交通事故の解析など、現在は人間がビデオを見て検証していますが、ある程度自動化できると、重大でない事故やヒヤリハットも検証できるようになるかもしれません。これは交通安全や交通効率化にとって大きなインパクトがあります。カイゼン活動は製造業の工場など、当事者が管理できる空間が中心でしたが、屋外で多様な人が混在する環境でも、全体や部分を定量化しカイゼンできるようになるはずです。産業競争力の観点からも早く日本企業が使いこなせるよう技術を成熟させて欲しいです。