人気推理アニメのよう…特定の人の声で話せる変声機、使い道は?
「こんにちは。今日はいい天気ですね」―。男性が話した言葉がそのまま特定の女性の声に変わってスピーカーから流れた。東京大学大学院情報理工学系研究科システム情報学専攻の猿渡研究室がDMM.com(東京都港区)との社会連携講座(※)を通じて開発した「リアルタイム音声変換システム」だ。これまでは音声変換の処理に時間がかかり、リアルタイムでの音声変換は困難だったが、機械学習技術の活用などによって即時変換を可能にした。イベントやライブ配信といったエンターテインメント領域などでの活用を見込む。
人気アニメ『名探偵コナン』では探偵グッズである「蝶ネクタイ型変声機」を使って事件を推理するのがお約束。そんなアニメの世界を実現する。(取材・葭本隆太)
※社会連携講座:公共性の高い共通の課題について、東京大学と共同研究を実施しようとする民間企業などから受け入れる経費などを活用して設置される講座。DMM.comと16年に開設した連携講座では3年間で約1億円の研究規模で実施した。
<遅延は50ミリ秒>
リアルタイム音声変換システムはまず声の特徴を「高さ」「声色」「かすれ具合」の3成分に分解してそれぞれ数値化し、話者Aから変換する話者Bへの数値の変換ルールを機械学習を使って学習させる。事前に用意した文章を話者A・Bが1―2時間で読み上げて得た音声データを活用する。音声変換は50ミリ秒程度で処理しており、話し手自身が、遅れが気にならないほどの即時性を実現する。
音声変換の処理について音質を保ちながら高速化できたポイントは二つある。話者AとBで声の特徴が同じ部分は変えない機構を取り入れたことと、話者の音声データを人工的に水増ししたことだ。
猿渡研究室の高道慎之介助教は「同じ人でもその日の調子によって声には微妙なブレが生じます。そのブレを人工的に再現して学習させることで話し手の声のブレに頑強かつ高い音質が作れます」と説明する。
この仕組みを拡張すると、音声データを事前に取得していない不特定の人の声を特定の声に変換することもできる。「事前にいろいろな人の声を学習した上で人工的に多様な声を水増しして学習させることで(事前に収録していない人も)特定の声に変換できます」(高道助教)。
<ビジネス化どうする>
このシステムは同研究科がDMMと2016年に開設した社会連携講座を通して開発した。高道助教が研究していた音声変換の技術をベースにした社会需要に応え得る研究開発として「リアルタイム音声変換システム」を設定した。キャラクターを使った動画配信を行う「Vtuber(ブイチューバー)」の活動が盛り上がっており、そうした領域でビジネスとして活用できる期待があった。
DMMは現在、エンタメ領域などでビジネス利用の可能性を検証している。7月には都内のイベントでアニメキャラクターのアフレコ体験ができる仕組みとして紹介した。
また、高道助教は「話者の声をベストな本人の声に変換する用途もあり得ると思います」と提案する。プレゼンテーションする際に風邪をひいていたり緊張していたりしてもベストな声で発信できるといったイメージだ。
ただ、現状はビジネス化に至っていない。DMM会長室の星野雅哉さんは「(リアルタイム音声変換の)技術は素晴らしいが、ビジネスではそのまま利用できない可能性があります。例えば、処理時間は50ミリ秒ほどの即時性は必要なく100ミリ秒でよりよい音質が求められるかもしれないし、逆に50ミリ秒では遅いかもしれません。我々がニーズを見つけて検証していきます」と力を込める。
同研究科とDMMの社会連携講座は8月に2期目に入った。社会連携講座は「東京大学大学院情報理工学系研究科の世界に誇る技術をビジネスとして成立させ(収益を上げて)、資金を還元する循環を起こす」(星野さん)目標を掲げる。「リアルタイム音声変換システム」の事業化は社会連携講座の目的を果たす面でも大きな期待を背負う。
<連載・未来を創るテックプロダクト>
#01 パリティ・イノベーションズ/パリティミラー
#02 東京大学大学院情報理工学系研究科×DMM/リアルタイム音声変換
#03 QDレーザ/RETISSA Display
#04 オトングラス/OTON GLASS