人気推理アニメのよう…特定の人の声で話せる変声機、使い道は？

連載・未来を創るテックプロダクト＃02

2019年12月20日テクノロジー

「こんにちは。今日はいい天気ですね」―。男性が話した言葉がそのまま特定の女性の声に変わってスピーカーから流れた。東京大学大学院情報理工学系研究科システム情報学専攻の猿渡研究室がＤＭＭ．ｃｏｍ（東京都港区）との社会連携講座（※）を通じて開発した「リアルタイム音声変換システム」だ。これまでは音声変換の処理に時間がかかり、リアルタイムでの音声変換は困難だったが、機械学習技術の活用などによって即時変換を可能にした。イベントやライブ配信といったエンターテインメント領域などでの活用を見込む。

人気アニメ『名探偵コナン』では探偵グッズである「蝶ネクタイ型変声機」を使って事件を推理するのがお約束。そんなアニメの世界を実現する。（取材・葭本隆太）

※社会連携講座：公共性の高い共通の課題について、東京大学と共同研究を実施しようとする民間企業などから受け入れる経費などを活用して設置される講座。DMM.comと16年に開設した連携講座では３年間で約1億円の研究規模で実施した。

＜遅延は50ミリ秒＞

リアルタイム音声変換システムはまず声の特徴を「高さ」「声色」「かすれ具合」の３成分に分解してそれぞれ数値化し、話者Ａから変換する話者Ｂへの数値の変換ルールを機械学習を使って学習させる。事前に用意した文章を話者Ａ・Ｂが１―２時間で読み上げて得た音声データを活用する。音声変換は50ミリ秒程度で処理しており、話し手自身が、遅れが気にならないほどの即時性を実現する。

音声変換の処理について音質を保ちながら高速化できたポイントは二つある。話者ＡとＢで声の特徴が同じ部分は変えない機構を取り入れたことと、話者の音声データを人工的に水増ししたことだ。

猿渡研究室の高道慎之介助教は「同じ人でもその日の調子によって声には微妙なブレが生じます。そのブレを人工的に再現して学習させることで話し手の声のブレに頑強かつ高い音質が作れます」と説明する。

この仕組みを拡張すると、音声データを事前に取得していない不特定の人の声を特定の声に変換することもできる。「事前にいろいろな人の声を学習した上で人工的に多様な声を水増しして学習させることで（事前に収録していない人も）特定の声に変換できます」（高道助教）。

＜ビジネス化どうする＞

このシステムは同研究科がＤＭＭと2016年に開設した社会連携講座を通して開発した。高道助教が研究していた音声変換の技術をベースにした社会需要に応え得る研究開発として「リアルタイム音声変換システム」を設定した。キャラクターを使った動画配信を行う「Ｖｔｕｂｅｒ（ブイチューバー）」の活動が盛り上がっており、そうした領域でビジネスとして活用できる期待があった。

ＤＭＭは現在、エンタメ領域などでビジネス利用の可能性を検証している。７月には都内のイベントでアニメキャラクターのアフレコ体験ができる仕組みとして紹介した。

また、高道助教は「話者の声をベストな本人の声に変換する用途もあり得ると思います」と提案する。プレゼンテーションする際に風邪をひいていたり緊張していたりしてもベストな声で発信できるといったイメージだ。

ただ、現状はビジネス化に至っていない。ＤＭＭ会長室の星野雅哉さんは「（リアルタイム音声変換の）技術は素晴らしいが、ビジネスではそのまま利用できない可能性があります。例えば、処理時間は50ミリ秒ほどの即時性は必要なく100ミリ秒でよりよい音質が求められるかもしれないし、逆に50ミリ秒では遅いかもしれません。我々がニーズを見つけて検証していきます」と力を込める。

同研究科とＤＭＭの社会連携講座は８月に２期目に入った。社会連携講座は「東京大学大学院情報理工学系研究科の世界に誇る技術をビジネスとして成立させ（収益を上げて）、資金を還元する循環を起こす」（星野さん）目標を掲げる。「リアルタイム音声変換システム」の事業化は社会連携講座の目的を果たす面でも大きな期待を背負う。

＜連載・未来を創るテックプロダクト＞

＃01　パリティ・イノベーションズ／パリティミラー
　＃02　東京大学大学院情報理工学系研究科×DMM／リアルタイム音声変換
　＃03　QDレーザ／RETISSA Display
　＃04　オトングラス／OTON GLASS

ニュースイッチオリジナル

葭本隆太 Yoshimoto Ryuta デジタルメディア局DX編集部ニュースイッチ編集長

音声変換システムの使い道としてはやはり動画配信などのエンターテインメント分野が浮かびます。DMMは元々その領域が強いので、まずはそこでのビジネス化を模索しているようです。一方で技術開発を主導した東大の高道助教は本人のベストコンディションの声に変換するという使い道の可能性に言及しています。「（プレゼンの場などで）弱々しい声を出してしまうと、それに引きつられて心も弱くなってしまう。リアルタイム音声変換システムによって（ベストコンディションの声を出せるようにすることで）自信を持たせられるのでは」（高道助教）という指摘は面白いと思いました。