口腔内の動画で本人の声を合成できる、東大がＡＩ技術

超音波エコー活用

2019年03月27日テクノロジー

超音波エコーで口腔の動きを撮影する

　東京大学の暦本純一教授と木村直紀大学院生は、口腔の超音波エコー動画から本人の声を合成する人工知能（ＡＩ）技術「ソット・ヴォーチェ」を開発した。実際に声を出さなくても口の動きから言葉を生成できる。合成音声でＡＩスピーカーのキーワード検出機能を使うことに成功した。ウエアラブルな超音波エコー端末を開発していく。

　ウエアラブルな超音波エコー端末にすると、身に付けておけばエコー動画と音声を自動収集でき、病気で声を失っても本人の声で話せるようになると期待される。

　現状のシステムは超音波エコーを顎の下にあてて声を出す際の舌や口腔内の動きを撮影する。この動画データに対して発声した音声を正解データとしてディープラーニング（深層学習）を重ねた。１フレーズ当たり、３０動画と３０音声を学習し、本人らしい合成音声を生成できた。

　超音波エコーは唇の動きの撮影が不十分で「マ」や「パ」などの唇を使う発音の再現性は低い。だが、人間は言葉の断片的な音を聞いて文脈を含めて単語を認識するため、コミュニケーション上は大きな問題にならないという。実際にＡＩスピーカーのキーワード認識機能を合成音声で操作できた。

　音声は合成と認識の双方でＡＩ技術が浸透しており機能を補完し合える。キーワード生成と認識は利用シーンや文脈を反映すると識別精度を上げられる。自由文の生成は大量のエコー動画と音声データが必要になる。

日刊工業新聞2019年3月27日