ＡＩ活用で瞬時に字幕生成、ＴＢＳがシステム開発

2019年11月23日テクノロジー

ＴＢＳテレビ（東京都港区）は生放送の字幕をリアルタイム生成する音声認識システム「もじぱ」を開発した。５００時間分のニュースの音声とテキストを人工知能（ＡＩ）に学習させた。ＴＢＳアナウンサーの話法を反映した字幕を生成できる。地上波放送の字幕生成に利用していく。

１００％の認識精度の音声認識ＡＩは存在しない。数％のエラーを人の手で修正しながら生放送に字幕を表示する。エラー修正で１秒の遅れが積み重なると、番組に字幕が収まらなくなる。

そこでエラーを減らすためにＴＢＳアナウンサーの音声データをＡＩに学習させた。アナウンサーの平均値にはなるが、ＴＢＳ特有の言い回しなどを加味できる。認識精度はグーグルの９５％程度の音声認識ＡＩを上回ったという。ＡＩ技術はソニービジネスソリューション（東京都港区）と開発。アルバイトの１人分程度のライセンス料で利用できるという。

認識エラーの修正作業は１文を単語に細かく区切り、ピンポイントで直す仕組みを開発した。ゲーム感覚で誰でも修正作業に当たれる。来年度の地上波放送に活用するため、準備を進めていく。現在は速記者が３人でリレーしながら音声を聞いて文字を起こしている。