ニュースイッチ

画像説明文は画像より多弁…横浜市立大が実証したこと

画像説明文は画像より多弁…横浜市立大が実証したこと

倒壊しかけているビル(横浜市大提供)

横浜市立大学の有働帆乃璃大学院生(研究当時)と越仲孝文教授らは、人工知能(AI)技術で画像から生成した説明文を用いると画像のみで識別するよりも判定精度が高まることを実証した。災害の分類と被害程度の判定にAIを利用した。説明文生成AIが特徴抽出器として働く。人間にも理解しやすく、説明可能なAI技術として活用できる。

画像を分類するAIと画像から説明文を作るAIを比較する。画像分類AIには地震や洪水などの4種の災害と3段階の被害度のデータを学習させ、どれに該当するか推定させる。説明文生成AIでは画像に写った対象から文章を作り、文章分類AIで推定する。

例えば地震で倒壊しかけているビルの画像から説明文を作ると、「建物の上に群衆、倒壊した建物、燃えている建物、ゾンビゲームの背景、大きな衝撃が加わった建物、地震」などとなる。この説明文から災害の種類を推定すると精度は85%。画像分類AIでは70%だった。

画像から単語を直接推定すると「損傷した建物」が答えになる。文章分類AIで地震という抽象度の高い単語に対応させた。

さらに両方の推定結果を比重を変えながら統合し、精度を検証した。すると、それぞれ5割の重要度で推定した場合に86%と最高になった。統合の増分は小さく、画像分類AIの比重を増やすと精度が下がる。

説明文生成AIには「CLIPインテロゲーター」を用いた。画像を文章化する過程で知識を取り出しているため、人間が判定結果を解釈しやすい。

日刊工業新聞 2023年月7月4日

編集部のおすすめ