ニュースイッチ

“聴く読書”オーディオブック市場の開拓者、苦節4年で音声合成システムを開発した狙い

オトバンクとパークシャテクノロジーが共同開発
“聴く読書”オーディオブック市場の開拓者、苦節4年で音声合成システムを開発した狙い

オーディオブック市場の拡大に向けてより多くの音声コンテンツを生成するため、独自の音声合成システムを開発した

プロの声優などが読み上げた本の音声を楽しむ「オーディオブック」を手がけるオトバンク(東京都文京区)は、PKSHA Technology(パークシャテクノロジー)と共同で、独自のAI(人工知能)音声合成システムを開発した。ニュースなどの即時性の高いコンテンツを適時に音声化するツールとして利用する。将来はオーディオブック作品の制作での活用を目指す。音声コンテンツは、ワイヤレスイヤホンの普及などで消費しやすい環境が整い、需要が拡大している。オトバンクは音声合成システムを活用して多様なテキストを音声化できる環境を整備し、音声配信サービス「audiobook.jp」の充実につなげる。

新システムは「カタリテ」。テキスト情報を入力すると、人気の声優である浅野真澄さんの声で音声化される。収録から編集に必要な制作時間の短縮につながる。

同システムはパークシャの音声合成技術に、オトバンクが持つオーディオブックの音声データを学習させて実現した。パークシャの音声合成技術は、独自のアクセント推定技術「tdmelodic(ティディメロディック)」などを持ち、一般的な音声合成ソフトでは難しいアクセントの制御ができる。こうした技術を活用しつつ、オトバンクに所属するオーディオブックの制作ディレクターが監修に関わることで、自然で聴き心地がよく、長時間聞いても疲れにくい音声を生成できるようにした。

オトバンクは新聞社と連携し、カタリテを活用してニュースを基に生成した音声コンテンツを「audiobook.jp」で配信する実証実験を14日に始める。今後、連携媒体を増やす。カタリテを活用して音声化するコンテンツの対象について、オトバンクの久保田裕也社長は「あらゆるテキストです。まずは(比較的短いコンテンツで)すぐに耳に入れたい需要があるものから取りかかります。新聞はそうした需要に沿うコンテンツだと考えていますが、それに絞りません。将来は(カタリテを活用して制作した)オーディオブック作品を出すことを目指しています」と力を込める。

オトバンクは2004年に創業し、それまでほとんどなかったオーディオブック市場の開拓を進めてきた。同社の「audiobook.jp」は現在、オーディオブック作品やニュースなど数万点の音声コンテンツを配信している。音声コンテンツ需要の高まりなどを背景に会員数が増えており、2021年6月に200万人を突破した。

オトバンク・久保田社長に聞く

オトバンクの久保田裕也社長に「カタリテ」開発の経緯と将来展望を聞いた。

―独自の音声合成システムを構築したきっかけは。
 (毎月数多くの書籍が出版される中で、)あらゆる作品をスタジオを使って(人の力で)オーディオブック化していくのは無理だという課題認識が始まりです。オーディオブック市場の拡大に向けては、利用者があらゆる作品を聞ける環境を整えた方がいいので、(音声合成技術を活用した音声化は)難しいですが、挑戦する価値があると考えました。それが4年前です。

「カタリテ」はあくまで我々が音声コンテンツを生成するために開発したので、サービスとして外部に提供する考えは現時点でありません。

オトバンクの久保田社長(取材はオンラインで実施。撮影=20年10月)

―なぜ共同開発の相手がパークシャだったのですか。
 我々は、(単純に作品を音声化するのではなく)長時間聞き続けられる音源にすることを目指しています。そのクオリティを実現するための技術を持ち、大量のテキストと音源を学習させていく作業に協力してくれたのがパークシャでした。

―目指すクオリティに向けた現状の水準は。
 そこ(目指すクオリティ)に一定程度、近づいてきたため実用化したのが今回です。7-8割程度でしょうか。

―現状で足りていない部分はどこですか。
 全体的に流ちょうに聞こえるからこそ、一部の少しのアクセントの違いが気になってしまう場合があります。また、テキスト情報を入力してもリアルタイムに音声化できるわけではなく、一定時間がかかる課題もあります。

―ニュースを音声化して配信する実証実験を始めます。
 (カタリテを活用する対象として)ニュースにこだわっているわけではありません。それ以外のテキストも今後、実証実験していきますし、あらゆるテキストが対象になります。

―オーディオブック制作にカタリテを活用できるのはいつ頃になりそうでしょうか。
 オーディオブックの制作を(音声合成技術で)実現したいという目標のもとで研究開発を進めてはいますが、現時点で具体的な時期を掲げてはいません。そう遠くない未来と言っておきます。

―カタリテを活用してオーディオブック制作が可能になった未来の、声優さんとの役割分担はどのように考えていますか。
 (声優さんに依頼して)スタジオで制作する本数は増えていますし、今後も増やしていきます。ただ、(より多くのコンテンツを制作していきたいと考えたときに、声優さんだけでなく)制作陣を含めて人手が足りない部分を(カタリテで)解決したいです。

ニュースイッチオリジナル
葭本隆太
葭本隆太 Yoshimoto Ryuta デジタルメディア局DX編集部 ニュースイッチ編集長
実際に音声化したコンテンツを聞くと、とても滑らかで自然に感じます。今回の実用化までに4年の研究期間を要したということで、クオリティーへのこだわりがうかがえます。全体で数十時間の長さになるオーディオブック作品に活用するには、もう少し時間がかかりそうとのこと。ローンチできると判断した未来にどのようなクオリティが実現されるのか楽しみです。

編集部のおすすめ