障がい者の対話支援へ。読唇術向けデータセット開発

2021年07月28日テクノロジー

文章を読み上げている画像。点は表情認識のための特徴点（九州工大提供）

九州工業大学の斉藤剛史教授と明治大学の森勢将雅専任准教授らはＳＳＳ合同会社（仙台市宮城野区）と共同で、読唇術用のデータセットを開発した。唇の動きと発話文を人工知能（ＡＩ）技術で学習すると、音声のないデータでも何を話したかが読み解けると期待される。無声データの解析や障がい者のコミュニケーション支援などの技術開発の基盤としていく。

小説や記事など４２４の文章を読み上げる３４４４の動画でデータセットを作製した。映像は全部で５時間５０分。唇周辺の動画とテキスト、音素、軽音節、母音を時刻同期してひも付けした。

話者６人のうち３人が声優で、同じ文章に甘い声音や怒った声音などの感情を込めて読んだ。唇の動きに感情の情報が含まれるため、単純にテキストを出力するだけでなく、感情の成分を読み出せる可能性がある。

文章を読むデータセットは、単語を読むデータセットに比べ単語の前後のつながりで表情が変わる。より自然に近い発話データになる。読唇術へのＡＩ利用は読唇精度が５割程度と高くない。これは学習させるデータ量が少ないためで、ＡＩのアルゴリズムよりもデータ量が課題になっているという。

日本語のデータセットは英語のものよりも不足している。英語で読唇精度の高い学習済みモデルができれば、日本語の小さなデータセットでも転移学習で読唇精度を上げられる可能性がある。読唇術は声帯を失った患者のコミュニケーション支援や、フィールドのスポーツ選手の音声復元などの用途がある。

日刊工業新聞2021年7月27日