【ディープテックを追え】AIが文章を「作成」。日本語の自然言語処理にイノベーション

#40 ELYZA

  • 3
  • 11

深層学習(ディープラーニング)の登場により、人工知能(AI)による“人間越え”の記録が数々達成されてきた。特に画像認識の分野でのAI活用はめざましい。製造業での不良品検出だけでなく、医療診断や無人コンビニでも活用されている。

そんな人間をしのぐ性能を持つAIでも、日本語のテキスト分野においては話が変わる。平仮名やカタカナ、漢字に加え、多様な文法を持つ日本語のテキストを汎用的に理解し、フィードバックできる自然言語処理AIは実現が難しい。ELYZA(イライザ、東京都文京区)はこの難題に取り組む東京大学発のスタートアップだ。

英語に比べ難しい日本語の自然言語処理

AIにとって日本語テキストの理解が難しい理由は主に二つだ。一つは文字の種類の多さと文法の多様性だ。実際、アルファベット1種類を扱う英語においては、米グーグルが2018年に発表した自然言語処理モデル「BERT」以降、類似のAIの精度が向上している。種類や文法がシンプルな英語に比べ、日本語の難易度が高いのは当然と言える。

曽根岡CEO

もう一つが日本語テキストの教師データが圧倒的に少ない点だ。イライザの曽根岡侑也最高経営責任者(CEO)は「英語であればデータ量の多さもさることながら、研究者同士のつながりで質の良いデータが共有されている」と話す。また、インターネット上のテキストはウィキペディアのコピーが多く、教師データとして適切なものが少ないという事情もある。これによりAIの精度が高められなかった。

このため、これまで実装されてきたのは、ニュースなどの“きれいな”日本語からテキストを抜き出すことに特化した「抽出型」が中心だった。会話などの意味を理解した上で要約したり、重要な部分のみをピックアップしたりすることが難しかった。

文章を生成

音声認識のミスなどがある場合も要約できる

イライザが開発した日本語特化AIエンジン「ELYZA Brain」はこの課題を解決するものだ。先行する英語の自然言語処理モデルをベースに独自の日本語データを読み込ませ、文章から重要な情報を整理し、文章を作成する「生成型」のAIを実現した。生成型のAIは音声認識の誤りや誤字脱字がある場合でも、一から新しい文章を作成するため使いやすい。

顧客の業務に合わせて、数千から数万のデータを学習することで適応可能にした。同社はこのエンジンで、さまざまな業務で発生する文章の「読む、書く、話す」を代替する。

社会実装に向けて、実証実験を重ねている。一例が損害保険ジャパンと共同で進めるコールセンターでのAI活用だ。顧客とオペレーターの対話内容をAIが要約し、代理店や営業店に連携する業務を効率化する。同時に、毎日大量に生まれるオペレーターの対話を教師データにする考えだ。22年度中の実用化を目指す。

森・濱田松本法律事務所とは、法律業務で活用できるAIを共同開発する。イライザとしては、技術の社会実装に向けて業界のノウハウを持つパートナー企業の知見は不可欠だ。曽根岡CEOは「我々には技術がある。ただ、普及に向けたサービスをいかに作っていくかが重要だ。そのためにパートナー企業との連携は不可欠だ」と話す。

「イライザ ダイジェスト」のサービス画面。写真は議事録を3行に要約したもの

一方で課題も口にする。それは自然言語処理AIの実力が認知されていない点だ。「自然言語処理の分野は急速に進化している。これまでできなかった要約などが可能になっていることを感じてもらうしかない」(曽根岡CEO)。その思いでリリースした、どんな文章でも3行に要約する「イライザ ダイジェスト」。そのキャッチーさも相まって話題を呼んだ。今後は実用性を訴求しながら、適用業界を広げる構えだ。

この連載では、「ディープテック」と呼ばれる先端テクノロジーの事業化を目指す企業を掲載します。
また、自薦、他薦を問わず情報提供も受け付けております。
情報提供の際は、ニュースイッチ deeptech情報提供窓口  deeptech@media.nikkan.co.jpまでメールをお送りください。
メール送付時に、会社の概要を記した資料またはHPのURLをご記載ください。
「 ディープテックを追え VOL.1」はこちらから
「 ディープテックを追え VOL.2」はこちらから
「ディープテックを追え VOL.3」はこちらから
「 ディープテックを追え VOL.4」はこちらから
「ディープテックを追え VOL.5」はこちらから

ニュースイッチオリジナル

特集記事

【ディープテックを追え】電子回路を印刷。持続可能なモノづくりの実現へ (2021年12月06日公開)
【ディープテックを追え】AIが文章を「作成」。日本語の自然言語処理にイノベーション (2021年12月09日公開)
【ディープテックを追え】光源に革新。用途広がるナノの世界に照準 (2021年12月13日公開)
【ディープテックを追え】「ダヴィンチ」の独壇場に東工大発スタートアップが挑む (2021年12月16日公開)
【ディープテックを追え】糖尿病患者の血糖管理の課題解決。その手法は? (2021年12月20日公開)
【ディープテックを追え】情報保護と利用を両立。秘密計算って何? (2021年12月23日公開)
【ディープテックを追え】マイクロ波で化学製品のゲームチェンジャーを狙う (2021年12月27日公開)
【ディープテックを追え】さよなら“断線”。給電の常識を変える (2022年01月10日公開)

COMMENT

小林健人
デジタルメディア局DX編集部
記者

日本語の自然言語処理が難しい理由について、曽根岡CEOが「日本語はマイナースポーツみたいなもんですよ」と説明してくれました。英語や中国語は話者が多く、大量のデータを確保しやすいためという例えです。その点において、同社の取り組みは異質です。事業会社との連携数を増やし、データの質、量を確保できるかがカギを握るのではないでしょうか。

関連する記事はこちら

特集