AIは人間を超えたのか?音声認識技術を“ガチで”競わせてみた
チェスの世界王者を破った人工知能(AI)ディープ・ブルーの登場以来、さまざまな分野で「AIが人間を超えた」との報告が相次いだ。音声入力に使われる自動音声認識技術でも同様の報告が出始めているが本当にそうか?音声認識の現時点での到達点を正確に知り、さらなる性能向上のために何が必要かを探るため人間と“ガチで”競わせてみた。
AI側の代表選手は我々が開発し無償公開する多言語音声翻訳アプリ「VoiceTra」である。自動音声認識部は一般に利用可能な商用アプリとおおむね同等の精度であることを確認している。人間側は日本語音声書き起こしの熟練者3人と校正者1人の体制とした。校正者はAI側では原理的に生じ得ないタイプミスを修正する役割で加わった。
課題は情報通信研究機構(NICT)の音声認識評価用公開データセット「SPREDS2」所収の日本語音声700文の文字起こし。速さと正確さの両面を競う。速さは所要時間(各音声の持続時間長に対する相対時間で定義)、正確さは単語正解率が指標だ。
まず、人間もAIも音声を1回だけ再生聴取しただけで書き起こした場合、所要時間はAIの1・1(700音声の平均値。以下同じ)に対して人間は3人の平均が2・3で2倍以上かかった。正確さにおいてもAI(97・9%)は人間の平均値(88・5%)をしのぐ結果となり、この厳密に公平な条件では速さと正確さの両方でAIが人間の能力を超えたことが示された(図)。
次に、人間に複数回の音声聴取を許した場合、所要時間は当然長くなった(平均4・4)ものの、正確さでは人間(99・7%)がわずかにAIを上回った。通常の文字起こし同様時間をかけて何度も聞き直せたなら、正確さではなお人間が優れるということだ。
AIが人間に至らない部分は、「送信者にユーザーが含まれている場合オンにします」という音声を「―本にします」と間違えるなど、音響的に近く文法的にも正しいが意味的にあり得ない例が多い。人間なら常識的にあり得ないと分かる候補を常識のないAIが拾ってしまった結果だ。AIに常識を植え付ける研究に期待がかかる。
◇ユニバーサルコミュニケーション研究所・先進的音声翻訳研究開発推進センター 先進的音声技術研究室 主任研究員 加藤宏明 99年神戸大院自然科学研究科博士課程修了。国際電気通信基礎技術研究所(ATR)で勤務後、11年より現職。一貫して聴覚と音声を介したコミュニケーションに関わる基礎的研究に従事。博士(工学)。