負担大きいデータ整理…期待高まる「LLM」
研究開発に人工知能(AI)などを取り入れるデジタル変革(DX)が進んでいる。ただAI活用の前段階となるデータ整理が大きな負担になっている。DXはいつしかデータ整理を自動化するか、別の誰かに負担させるビジネスモデル開発を指す言葉になった。だが研究開発で扱うデータは専門性が高く、研究者自身が担う必要がある。そこで大規模言語モデル(LLM)への期待が高まっている。
「AI活用の前のデータ整理が負荷の7―9割を占める。これを軽減できる技術があれば、みな導入するだろう」とレゾナックの藤森貴大チーフリサーチャーは苦笑いする。化学やガラス、金属など、材料各社にとって研究開発にAI技術などを駆使するマテリアルズ・インフォマティクス(MI)は標準になった。
どの会社も苦労しているのがデータの前処理だ。多部門のデータを集めて解析するにはフォーマットを決める必要がある。この調整や空欄の確認・入力が膨大な作業になっている。一度フォーマットを決めても開発途中で追加項目が必ず出てくる。各部門を回って入力支援ツールを配るなど負荷は大きい。
社内の部門間調整でさえ大変なのに同業他社とのデータ連携となると、その労力は計り知れない。そこまでして得られる成果が見えないこともあり、連携は進まなかった。
ここでAIでデータを名寄せする技術に期待が集まっている。藤森チーフリサーチャーは「論文ベースではLLMを応用する研究が出てきた。うまくいけば画期的だ」と期待する。例えば論文や実験ノートと測定データをLLMに学習させ、測定データの数値列がどの物性を指すのか整理させるような使い方が想定されている。LLMのテキスト解釈能力を生かして数値の意味を推定する試みだ。
研究者が忘れていたり、量が多過ぎて捌ききれなかったりするデータを処理できる可能性がある。膨大な死蔵データを復活させられればインパクトは大きい。文部科学省マテリアル先端リサーチインフラ事業の伊藤聡サブプログラムディレクターは「日本の戦略は全国の研究設備から集まるデータと研究プロジェクトから生み出されるデータの2種類を蓄積すること」と説明する。前者は分野が広く、生データに近いデータだ。後者は特定分野で研究目的に沿って集められたデータになる。論文や実験ノートの知識と数値列を対応させやすい。
これらを組み合わせLLMで数値列への意味付けを支援しデータの管理運用を効率化できる可能性がある。伊藤サブプログラムディレクターは「成功例はまだない。AI研究者にとって非常に面白い挑戦になる」と指摘する。この問題が解ければ産業界からは引く手あまただ。企業同士のデータ連携を促し、産業競争力につながる。