専門領域特化のLLM構築へ、顕在化するデータ不足問題
当面は検索拡張生成活用
大規模言語モデル(LLM)に専門知識を学習させる際にデータ不足の問題が顕在化している。専門領域に特化したLLMを構築するには論文や教科書などのテキストを翻訳などで増幅する必要がある。ねつ造論文を量産するペーパーミル(論文工場)の論文でさえ、文法や論理の観点ではましなデータとされる。業界としてLLMを運用していくなら対応が求められる。
「以前はペーパーミルの論文は文章としてもおかしかった。それが人工知能(AI)のおかげで上達している」と東京大学の川原圭博教授はため息をつく。以前は一読すれば論旨もデータも支離滅裂とはじくことができた。現在はストーリーや文章が巧妙化し論文の査読者を煩わせている。雑誌編集者をペーパーミルが買収する事案もあり、AIに学習させる論文は精査が必要になっている。間違った知識を学べば間違った推論をしてしまうためだ。
東京工業大学の畠山歓助教は「現在のLLMの学習データは驚くほどテキストとしての質が低い」と指摘する。米メタが公開しているLLM「Llama2」に化学論文を追加学習させ、化学特化型のLLMを開発している。現状のLLMはウェブページの玉石混淆(こんこう)のテキストを学習している。約半分が販促サイトで同じようなキャッチフレーズが大量に並んでいたりする。LLMの基礎力を鍛える学習データの中では、文法や論理水準の観点でペーパーミルの論文は「まだましな方」に位置付けられる。
Llama2の実験では専門領域外の論文を学習させるほど、回答の性能が低下した。領域を絞ってデータの量を確保する必要があり、多言語翻訳でデータをかさ増しした。
この実験は特化型LLMを開発する前の探索実験に当たる。より大きなモデルを開発するには専門知識のテキスト不足が課題だ。畠山助教は「日本語のオープンアクセスの学術論文が極めて少ない」と説明する。
短期的には検索拡張生成(RAG)という技術が期待されている。LLMの外部に教科書となるデータベースを置き、LLMがそれを検索しながら回答を作る技術だ。データベースとして知識を管理するため検証や更新がしやすい。LLMの流ちょうさも生かせる。既存のデータベースを活用できると営業するITベンダーが多い。
このRAGもデータが増えれば管理業務が膨らむ。今後、日本語の特化型モデルを運用していくならば学習データの文法や知識をそれぞれ品質保証する仕組みが必要になるかもしれない。運用やサービスモデルを視野に入れておく必要がある。(随時掲載)
*次回は5月9日に掲載予定