即時通訳が可能に？複数人の会話をすぐ聞き分けるＡＩ

三菱電機が開発

2018年09月16日テクノロジー

２人の会話をリアルタイムで分離し、音声を再現

　三菱電機は複数の人間の会話を聞き取り、ほぼ同時に音声を分離、再現できる人工知能（ＡＩ）技術を開発した。マイクに同時に話しかけた２人の会話を分離し音声出力するまでの時間が１・２秒で済む。今までは発話が終わった後でなければ分離処理ができなかった。自動車内での複数の会話の中からカーナビゲーションシステムへの命令に関わる発話の分離や、即時通訳システムの開発などが期待される。

　ディープラーニング（深層学習）技術を利用し、１００人分の英語の音声とその１００人の音声の中から２人分の音声を抽出し混ぜたデータをＡＩに学習させている。日本語だけでなく、ドイツ語や中国語などの多くの言語で音声分離が可能だという。

　今回、会話を複数のブロックに分け、ブロックの間のつなぎを良くすることで、ほぼリアルタイムでの音声分離が可能になった。従来手法では会話が一通り終わらないと音声の分離・再現作業を始められなかった。さらに音声分離精度が高い従来システムを“教師”とし、“生徒”である新システムとの差を埋める学習システムを導入。音声分離実験の結果、元の音声の再現率９０％以上を維持しつつ、リアルタイムでの音声分離に成功した。

　三菱電機は２０１７年に一つのマイクでとらえた複数人の声を聞き分け、元の音を９０％以上再現できるシステムを開発したと発表。だがこのシステムでは発話が終わるまで音声の分離・再現ができなかった。

日刊工業新聞2018年９月１３日