即時通訳が可能に?複数人の会話をすぐ聞き分けるAI

三菱電機が開発

 三菱電機は複数の人間の会話を聞き取り、ほぼ同時に音声を分離、再現できる人工知能(AI)技術を開発した。マイクに同時に話しかけた2人の会話を分離し音声出力するまでの時間が1・2秒で済む。今までは発話が終わった後でなければ分離処理ができなかった。自動車内での複数の会話の中からカーナビゲーションシステムへの命令に関わる発話の分離や、即時通訳システムの開発などが期待される。

 ディープラーニング(深層学習)技術を利用し、100人分の英語の音声とその100人の音声の中から2人分の音声を抽出し混ぜたデータをAIに学習させている。日本語だけでなく、ドイツ語や中国語などの多くの言語で音声分離が可能だという。

 今回、会話を複数のブロックに分け、ブロックの間のつなぎを良くすることで、ほぼリアルタイムでの音声分離が可能になった。従来手法では会話が一通り終わらないと音声の分離・再現作業を始められなかった。さらに音声分離精度が高い従来システムを“教師”とし、“生徒”である新システムとの差を埋める学習システムを導入。音声分離実験の結果、元の音声の再現率90%以上を維持しつつ、リアルタイムでの音声分離に成功した。

 三菱電機は2017年に一つのマイクでとらえた複数人の声を聞き分け、元の音を90%以上再現できるシステムを開発したと発表。だがこのシステムでは発話が終わるまで音声の分離・再現ができなかった。

日刊工業新聞2018年9月13日

葭本 隆太

葭本 隆太
09月16日
この記事のファシリテーター

会話が一通り終わる前から処理ができるように進化したとのこと。即時通訳システムのほかにどのような製品に生かされるか気になります。

この記事にコメントする

  

ファシリテーター紹介

記者・ファシリテーターへのメッセージ

この記事に関するご意見、ご感想
情報などをお寄せください。