ニュースイッチ

【ディープテックを追え】AIが文章を「作成」。日本語の自然言語処理にイノベーション

#40 ELYZA

深層学習(ディープラーニング)の登場により、人工知能(AI)による“人間越え”の記録が数々達成されてきた。特に画像認識の分野でのAI活用はめざましい。製造業での不良品検出だけでなく、医療診断や無人コンビニでも活用されている。

そんな人間をしのぐ性能を持つAIでも、日本語のテキスト分野においては話が変わる。平仮名やカタカナ、漢字に加え、多様な文法を持つ日本語のテキストを汎用的に理解し、フィードバックできる自然言語処理AIは実現が難しい。ELYZA(イライザ、東京都文京区)はこの難題に取り組む東京大学発のスタートアップだ。

英語に比べ難しい日本語の自然言語処理

AIにとって日本語テキストの理解が難しい理由は主に二つだ。一つは文字の種類の多さと文法の多様性だ。実際、アルファベット1種類を扱う英語においては、米グーグルが2018年に発表した自然言語処理モデル「BERT」以降、類似のAIの精度が向上している。種類や文法がシンプルな英語に比べ、日本語の難易度が高いのは当然と言える。

曽根岡CEO

もう一つが日本語テキストの教師データが圧倒的に少ない点だ。イライザの曽根岡侑也最高経営責任者(CEO)は「英語であればデータ量の多さもさることながら、研究者同士のつながりで質の良いデータが共有されている」と話す。また、インターネット上のテキストはウィキペディアのコピーが多く、教師データとして適切なものが少ないという事情もある。これによりAIの精度が高められなかった。

このため、これまで実装されてきたのは、ニュースなどの“きれいな”日本語からテキストを抜き出すことに特化した「抽出型」が中心だった。会話などの意味を理解した上で要約したり、重要な部分のみをピックアップしたりすることが難しかった。

文章を生成

音声認識のミスなどがある場合も要約できる

イライザが開発した日本語特化AIエンジン「ELYZA Brain」はこの課題を解決するものだ。先行する英語の自然言語処理モデルをベースに独自の日本語データを読み込ませ、文章から重要な情報を整理し、文章を作成する「生成型」のAIを実現した。生成型のAIは音声認識の誤りや誤字脱字がある場合でも、一から新しい文章を作成するため使いやすい。

顧客の業務に合わせて、数千から数万のデータを学習することで適応可能にした。同社はこのエンジンで、さまざまな業務で発生する文章の「読む、書く、話す」を代替する。

社会実装に向けて、実証実験を重ねている。一例が損害保険ジャパンと共同で進めるコールセンターでのAI活用だ。顧客とオペレーターの対話内容をAIが要約し、代理店や営業店に連携する業務を効率化する。同時に、毎日大量に生まれるオペレーターの対話を教師データにする考えだ。22年度中の実用化を目指す。

森・濱田松本法律事務所とは、法律業務で活用できるAIを共同開発する。イライザとしては、技術の社会実装に向けて業界のノウハウを持つパートナー企業の知見は不可欠だ。曽根岡CEOは「我々には技術がある。ただ、普及に向けたサービスをいかに作っていくかが重要だ。そのためにパートナー企業との連携は不可欠だ」と話す。

「イライザ ダイジェスト」のサービス画面。写真は議事録を3行に要約したもの

一方で課題も口にする。それは自然言語処理AIの実力が認知されていない点だ。「自然言語処理の分野は急速に進化している。これまでできなかった要約などが可能になっていることを感じてもらうしかない」(曽根岡CEO)。その思いでリリースした、どんな文章でも3行に要約する「イライザ ダイジェスト」。そのキャッチーさも相まって話題を呼んだ。今後は実用性を訴求しながら、適用業界を広げる構えだ。

〈関連記事〉これまでの【ディープテックを追え】
ニュースイッチオリジナル
小林健人
小林健人 KobayashiKento 経済部 記者
日本語の自然言語処理が難しい理由について、曽根岡CEOが「日本語はマイナースポーツみたいなもんですよ」と説明してくれました。英語や中国語は話者が多く、大量のデータを確保しやすいためという例えです。その点において、同社の取り組みは異質です。事業会社との連携数を増やし、データの質、量を確保できるかがカギを握るのではないでしょうか。

特集・連載情報

ディープテックを追え VOL.6
ディープテックを追え VOL.6
宇宙船を開発する米スペースX、バイオベンチャーのユーグレナ-。いずれも科学的発見や技術革新を通じて社会問題の解決につなげようとする企業で、こうした取り組みはディープテックと呼ばれる。日本でディープテックに挑戦する企業を追った。

編集部のおすすめ