AI活用で瞬時に字幕生成、TBSがシステム開発

TBSテレビ(東京都港区)は生放送の字幕をリアルタイム生成する音声認識システム「もじぱ」を開発した。500時間分のニュースの音声とテキストを人工知能(AI)に学習させた。TBSアナウンサーの話法を反映した字幕を生成できる。地上波放送の字幕生成に利用していく。 100%の認識精度の音声認識AIは存在しない。数%のエラーを人の手で修正しながら生放送に字幕を表示する。エラー修正で1秒の遅れが積み重なると、番組に字幕が収まらなくなる。 そこでエラーを減らすためにTBSアナウンサーの音声データをAIに学習させた。アナウンサーの平均値にはなるが、TBS特有の言い回しなどを加味できる。認識精度はグーグルの95%程度の音声認識AIを上回ったという。AI技術はソニービジネスソリューション(東京都港区)と開発。アルバイトの1人分程度のライセンス料で利用できるという。 認識エラーの修正作業は1文を単語に細かく区切り、ピンポイントで直す仕組みを開発した。ゲーム感覚で誰でも修正作業に当たれる。来年度の地上波放送に活用するため、準備を進めていく。現在は速記者が3人でリレーしながら音声を聞いて文字を起こしている。

続きを読む

関連する記事はこちら

特集