高品質な音声合成をＡＩで手軽に

ソースコードを無償公開

2019年01月05日テクノロジー

　国立情報学研究所のシン・ワン特任研究員と高木信二特任助教、山岸順一准教授は、自然な音声を手軽に合成できる人工知能（ＡＩ）技術を開発した。学習に必要な音声データは約１時間と少ない。ソースコードを無償公開した。ウェブサービスの音声対話機能などへ提案していく。

　音声合成で長く使われてきた「ソースフィルター・ボコーダ法」と脳神経回路を模したニューラルネットワーク型の機械学習を組み合わせた。大規模なニューラルネットワーク型の機械学習に比べて学習データを減らし、ボコーダ法の音声の自然さが反映された。

　合成音声の品質は５段階の主観評価で４以上。他の手法と比較して劣らなかった。学習用データが１時間程度ですむため、多数の人の声を作りやすい。今後、リアルタイム合成技術の開発を進める。

【国立情報学研究所YouTubeチャンネル】自然な音声を高速に合成可能な新手法を開発～古典的手法にニューラルネットワークを導入したニューラル・ソースフィルター・モデル

日刊工業新聞2019年1月4日