障がい者の対話支援へ。読唇術向けデータセット開発
九州工業大学の斉藤剛史教授と明治大学の森勢将雅専任准教授らはSSS合同会社(仙台市宮城野区)と共同で、読唇術用のデータセットを開発した。唇の動きと発話文を人工知能(AI)技術で学習すると、音声のないデータでも何を話したかが読み解けると期待される。無声データの解析や障がい者のコミュニケーション支援などの技術開発の基盤としていく。
小説や記事など424の文章を読み上げる3444の動画でデータセットを作製した。映像は全部で5時間50分。唇周辺の動画とテキスト、音素、軽音節、母音を時刻同期してひも付けした。
話者6人のうち3人が声優で、同じ文章に甘い声音や怒った声音などの感情を込めて読んだ。唇の動きに感情の情報が含まれるため、単純にテキストを出力するだけでなく、感情の成分を読み出せる可能性がある。
文章を読むデータセットは、単語を読むデータセットに比べ単語の前後のつながりで表情が変わる。より自然に近い発話データになる。読唇術へのAI利用は読唇精度が5割程度と高くない。これは学習させるデータ量が少ないためで、AIのアルゴリズムよりもデータ量が課題になっているという。
日本語のデータセットは英語のものよりも不足している。英語で読唇精度の高い学習済みモデルができれば、日本語の小さなデータセットでも転移学習で読唇精度を上げられる可能性がある。読唇術は声帯を失った患者のコミュニケーション支援や、フィールドのスポーツ選手の音声復元などの用途がある。
日刊工業新聞2021年7月27日