深層学習で人間に近い、リアルな合成音声の作成に成功

英ディープマインド、新しい音声信号処理手法でピアノ曲の作曲・演奏も

 まるで本物の人間を相手にしているように、コンピューターと自由に会話するーーこれはコンピューターエンジニアにとって永年の夢かもしれない。人工知能(AI)プログラムがプロの囲碁棋士を打ち破るなど、AI分野で華々しい成果をあげている英グーグル・ディープマインドが、今度はサンプリングした人間の生の声をもとに、ニューラルネットワークの深層学習技術を使って、自然で人間の声に近いリアルな合成音声を作り出すことに成功した。

 開発されたシステムは「ウェーブネット(WaveNet)」。英語と標準中国語(マンダリン)で、本物の人間にはかなわないものの、現在グーグルが持つ最高レベルのテキスト・トゥー・スピーチ(TTS)システムよりも自然な発話ができるとしている。

 しかも、表情を盛り込んだりアクセントも変えられる。音声信号全般を扱えることから、音楽にも応用でき、クラシック音楽での学習をもとに、即興で作曲した新しいピアノ曲まで披露してみせた。

 深層学習により、Google Voice Searchのように人間が普段しゃべっている会話を聴き取る音声認識技術はここ数年でかなり進化している。一方で、音声合成はいまだに、「コンカテネイティブTTS(concatenative TTS)」という技術に依存しているという。

 同一人物の音声の断片が保存された巨大なデータベース(DB)をもとに、発言する内容に応じて断片をつなぎ合わせ、完全な発話を組み上げる仕組みだ。ただ、この場合、新しいDBを作らない限り、違う人物の声に変えたり、発言を部分的に強調したり、といった芸当ができない弱点がある。

 そこで、DBのモデルを変数化し、さまざまな音声データを生成しやすくした「パラメトリックTTS」という自由度の高い方式も考案されてはいるが、少なくとも英語などではコンカテネイティブTTSに比べて自然さに欠けるという。
米英語:コンカテネイティブTTSの例
米英語:パラメトリックTTSの例
米英語:WaveNetの例

 それに対し、WaveNetは人間の声をはじめ元の音声信号をサンプルごとに直接モデリングする。ニューラルネットワークの深層学習により、自ら作り出した出力を入力に戻しながらトレーニングを重ね、サンプル周波数16kHzという高い品質で自然に聞こえる音声を合成していくという。

 男性、女性を含め、声の種類も変えられ、さらに、テキストがなく言語ですらないものの、息継ぎや唇の動きを再現し、まるでどこか知らない土地の言葉のように聞こえる、意味不明の不気味な合成音声まで作成できた。
テキスト内容のない合成音声

 どのような音声信号でも扱えることから、音楽でも実験を試みた。ただし、音楽の譜面を読み込ませるのではなく、クラシック音楽のピアノ曲のデータセットでトレーニングしたところ、即興でオリジナルのピアノ曲を勝手に作曲・演奏するようになったという。
ピアノ1
ピアノ2
ピアノ3

 WaveNetはTTSはじめ、音楽、音声モデリング全般のレベルを高度化する可能性を秘めているが、処理にはかなりのコンピューターパワーが必要。そのため、すぐに実社会に応用されるわけではなく、商用化にはもうしばらく時間がかかりそうだ。

ニュースイッチオリジナル
WaveNetについての公式ブログ

藤元 正

藤元 正
09月10日
この記事のファシリテーター

サンプルの合成音声を聴く限り、確かにかなり高いレベルに仕上がっている。これと高精度の音声認識を組み合わせ、文脈を理解しながら適切な答えを返して対話できるようにすれば、人間と話しているのか機械と話しているのかわからないような世界が実現できるかもしれない。将来は、アイドルやすでに亡くなった人と本物そっくりの声で、いつでも会話できるようなサービスが登場するのだろうか。それよりも、朝ドラの「あさが来た」のお母さんのように、亡くなった旦那代わりに狸の置物に話しかけているほうが微笑ましくはあるが。

この記事にコメントする

  

ファシリテーター紹介

記者・ファシリテーターへのメッセージ

この記事に関するご意見、ご感想
情報などをお寄せください。