ＡＩは人間を超えたのか？音声認識技術を“ガチで”競わせてみた

2021年12月22日テクノロジー

チェスの世界王者を破った人工知能（ＡＩ）ディープ・ブルーの登場以来、さまざまな分野で「ＡＩが人間を超えた」との報告が相次いだ。音声入力に使われる自動音声認識技術でも同様の報告が出始めているが本当にそうか？音声認識の現時点での到達点を正確に知り、さらなる性能向上のために何が必要かを探るため人間と“ガチで”競わせてみた。

人間は１回だけの聴取（太実線）ではＡＩ（破線）に速さ・正確さともにかなわないが、複数回の聴取（細実線）なら正確さで優れる（ＮＩＣＴ提供）

ＡＩ側の代表選手は我々が開発し無償公開する多言語音声翻訳アプリ「ＶｏｉｃｅＴｒａ」である。自動音声認識部は一般に利用可能な商用アプリとおおむね同等の精度であることを確認している。人間側は日本語音声書き起こしの熟練者３人と校正者１人の体制とした。校正者はＡＩ側では原理的に生じ得ないタイプミスを修正する役割で加わった。

課題は情報通信研究機構（ＮＩＣＴ）の音声認識評価用公開データセット「ＳＰＲＥＤＳ２」所収の日本語音声７００文の文字起こし。速さと正確さの両面を競う。速さは所要時間（各音声の持続時間長に対する相対時間で定義）、正確さは単語正解率が指標だ。

まず、人間もＡＩも音声を１回だけ再生聴取しただけで書き起こした場合、所要時間はＡＩの１・１（７００音声の平均値。以下同じ）に対して人間は３人の平均が２・３で２倍以上かかった。正確さにおいてもＡＩ（９７・９％）は人間の平均値（８８・５％）をしのぐ結果となり、この厳密に公平な条件では速さと正確さの両方でＡＩが人間の能力を超えたことが示された（図）。

次に、人間に複数回の音声聴取を許した場合、所要時間は当然長くなった（平均４・４）ものの、正確さでは人間（９９・７％）がわずかにＡＩを上回った。通常の文字起こし同様時間をかけて何度も聞き直せたなら、正確さではなお人間が優れるということだ。

ＡＩが人間に至らない部分は、「送信者にユーザーが含まれている場合オンにします」という音声を「―本にします」と間違えるなど、音響的に近く文法的にも正しいが意味的にあり得ない例が多い。人間なら常識的にあり得ないと分かる候補を常識のないＡＩが拾ってしまった結果だ。ＡＩに常識を植え付ける研究に期待がかかる。

◇ユニバーサルコミュニケーション研究所・先進的音声翻訳研究開発推進センター　先進的音声技術研究室　主任研究員　加藤宏明９９年神戸大院自然科学研究科博士課程修了。国際電気通信基礎技術研究所（ＡＴＲ）で勤務後、１１年より現職。一貫して聴覚と音声を介したコミュニケーションに関わる基礎的研究に従事。博士（工学）。

日刊工業新聞2021年11月23日