高品質な音声合成をAIで手軽に
ソースコードを無償公開
国立情報学研究所のシン・ワン特任研究員と高木信二特任助教、山岸順一准教授は、自然な音声を手軽に合成できる人工知能(AI)技術を開発した。学習に必要な音声データは約1時間と少ない。ソースコードを無償公開した。ウェブサービスの音声対話機能などへ提案していく。
音声合成で長く使われてきた「ソースフィルター・ボコーダ法」と脳神経回路を模したニューラルネットワーク型の機械学習を組み合わせた。大規模なニューラルネットワーク型の機械学習に比べて学習データを減らし、ボコーダ法の音声の自然さが反映された。
合成音声の品質は5段階の主観評価で4以上。他の手法と比較して劣らなかった。学習用データが1時間程度ですむため、多数の人の声を作りやすい。今後、リアルタイム合成技術の開発を進める。
【国立情報学研究所YouTubeチャンネル】自然な音声を高速に合成可能な新手法を開発~古典的手法にニューラルネットワークを導入したニューラル・ソースフィルター・モデル
音声合成で長く使われてきた「ソースフィルター・ボコーダ法」と脳神経回路を模したニューラルネットワーク型の機械学習を組み合わせた。大規模なニューラルネットワーク型の機械学習に比べて学習データを減らし、ボコーダ法の音声の自然さが反映された。
合成音声の品質は5段階の主観評価で4以上。他の手法と比較して劣らなかった。学習用データが1時間程度ですむため、多数の人の声を作りやすい。今後、リアルタイム合成技術の開発を進める。
【国立情報学研究所YouTubeチャンネル】自然な音声を高速に合成可能な新手法を開発~古典的手法にニューラルネットワークを導入したニューラル・ソースフィルター・モデル
日刊工業新聞2019年1月4日