ニュースイッチ

化学の専門知識を学んだLLM開発、東工大が見出したこと

化学の専門知識を学んだLLM開発、東工大が見出したこと

イメージ

東京工業大学の畠山歓助教と早川晃鏡教授らは、化学の専門知識を学んだ大規模言語モデル(LLM)を開発した。6万5000報の論文データセットを構築した。学習データでは、論文の要約よりもイントロダクションが性能向上に役立った。論文の結論の学習は、性能面でネガティブに働いた。小さなLLMにとっては結論の内容が専門的過ぎた可能性がある。専門知識を備えたLLMを構築するための知見になる。

米メタが公開しているLLM「Llama2」に化学論文を追加学習させた。モデルのパラメーター数は70億―700億。低ランク適応(LoRA)という手法で計算コストを抑えた。研究室で始めやすい構成になる。

モデルの性能は論文を元に作成した問題で評価した。模範解答とLLMの回答の類似度を計る。すると異分野の論文を学習させるほど性能が落ちた。利用したい専門領域に絞ってデータ量を確保する必要がある。

論文は要約とイントロ、結論を抽出してLLMに学習させた。性能への寄与度を検証するとイントロが最大の貢献をし、要約はイントロの3分の1程度、結論は性能を下げる方に働いた。

イントロには研究背景が記述され、その分野の歴史を含めて知識が体系的にまとめられている。対して結論はその論文の結果と限界などが記述され個別性が高い。今回の手法では専門性の高い各論を理解するにはデータが足りなかったと考えられる。専門を絞った上でより多くのデータを用意する必要がある。

化学に限らず、各研究分野で専門性を備えたLLMの構築が進む。研究室や学科などで研究支援ツールとしてLLMを運用していくための知見になる。


【関連記事】 パワー半導体の規模拡大に消極的だった富士電機が攻めに転じたワケ
日刊工業新聞 2024年2月27日

編集部のおすすめ