【ディープテックを追え】ＡＩが文章を「作成」。日本語の自然言語処理にイノベーション

＃４０　ＥＬＹＺＡ

2021年12月09日スタートアップ

【ディープテックを追え】ＡＩが文章を「作成」。日本語の自然言語処理にイノベーション

深層学習（ディープラーニング）の登場により、人工知能（ＡＩ）による“人間越え”の記録が数々達成されてきた。特に画像認識の分野でのＡＩ活用はめざましい。製造業での不良品検出だけでなく、医療診断や無人コンビニでも活用されている。

そんな人間をしのぐ性能を持つＡＩでも、日本語のテキスト分野においては話が変わる。平仮名やカタカナ、漢字に加え、多様な文法を持つ日本語のテキストを汎用的に理解し、フィードバックできる自然言語処理ＡＩは実現が難しい。ＥＬＹＺＡ（イライザ、東京都文京区）はこの難題に取り組む東京大学発のスタートアップだ。

英語に比べ難しい日本語の自然言語処理

ＡＩにとって日本語テキストの理解が難しい理由は主に二つだ。一つは文字の種類の多さと文法の多様性だ。実際、アルファベット１種類を扱う英語においては、米グーグルが２０１８年に発表した自然言語処理モデル「ＢＥＲＴ」以降、類似のＡＩの精度が向上している。種類や文法がシンプルな英語に比べ、日本語の難易度が高いのは当然と言える。

もう一つが日本語テキストの教師データが圧倒的に少ない点だ。イライザの曽根岡侑也最高経営責任者（ＣＥＯ）は「英語であればデータ量の多さもさることながら、研究者同士のつながりで質の良いデータが共有されている」と話す。また、インターネット上のテキストはウィキペディアのコピーが多く、教師データとして適切なものが少ないという事情もある。これによりＡＩの精度が高められなかった。

このため、これまで実装されてきたのは、ニュースなどの“きれいな”日本語からテキストを抜き出すことに特化した「抽出型」が中心だった。会話などの意味を理解した上で要約したり、重要な部分のみをピックアップしたりすることが難しかった。

文章を生成

イライザが開発した日本語特化ＡＩエンジン「ＥＬＹＺＡ　Ｂｒａｉｎ」はこの課題を解決するものだ。先行する英語の自然言語処理モデルをベースに独自の日本語データを読み込ませ、文章から重要な情報を整理し、文章を作成する「生成型」のＡＩを実現した。生成型のＡＩは音声認識の誤りや誤字脱字がある場合でも、一から新しい文章を作成するため使いやすい。

顧客の業務に合わせて、数千から数万のデータを学習することで適応可能にした。同社はこのエンジンで、さまざまな業務で発生する文章の「読む、書く、話す」を代替する。

社会実装に向けて、実証実験を重ねている。一例が損害保険ジャパンと共同で進めるコールセンターでのＡＩ活用だ。顧客とオペレーターの対話内容をＡＩが要約し、代理店や営業店に連携する業務を効率化する。同時に、毎日大量に生まれるオペレーターの対話を教師データにする考えだ。２２年度中の実用化を目指す。

森・濱田松本法律事務所とは、法律業務で活用できるＡＩを共同開発する。イライザとしては、技術の社会実装に向けて業界のノウハウを持つパートナー企業の知見は不可欠だ。曽根岡ＣＥＯは「我々には技術がある。ただ、普及に向けたサービスをいかに作っていくかが重要だ。そのためにパートナー企業との連携は不可欠だ」と話す。

一方で課題も口にする。それは自然言語処理ＡＩの実力が認知されていない点だ。「自然言語処理の分野は急速に進化している。これまでできなかった要約などが可能になっていることを感じてもらうしかない」（曽根岡ＣＥＯ）。その思いでリリースした、どんな文章でも３行に要約する「イライザ　ダイジェスト」。そのキャッチーさも相まって話題を呼んだ。今後は実用性を訴求しながら、適用業界を広げる構えだ。

〈関連記事〉これまでの【ディープテックを追え】

ニュースイッチオリジナル

小林健人 KobayashiKento 第一産業部記者

日本語の自然言語処理が難しい理由について、曽根岡ＣＥＯが「日本語はマイナースポーツみたいなもんですよ」と説明してくれました。英語や中国語は話者が多く、大量のデータを確保しやすいためという例えです。その点において、同社の取り組みは異質です。事業会社との連携数を増やし、データの質、量を確保できるかがカギを握るのではないでしょうか。