ニュースイッチ

負担大きいデータ整理…期待高まる「LLM」

基盤モデルと研究自動化(2)

研究開発に人工知能(AI)などを取り入れるデジタル変革(DX)が進んでいる。ただAI活用の前段階となるデータ整理が大きな負担になっている。DXはいつしかデータ整理を自動化するか、別の誰かに負担させるビジネスモデル開発を指す言葉になった。だが研究開発で扱うデータは専門性が高く、研究者自身が担う必要がある。そこで大規模言語モデル(LLM)への期待が高まっている。

「AI活用の前のデータ整理が負荷の7―9割を占める。これを軽減できる技術があれば、みな導入するだろう」とレゾナックの藤森貴大チーフリサーチャーは苦笑いする。化学やガラス、金属など、材料各社にとって研究開発にAI技術などを駆使するマテリアルズ・インフォマティクス(MI)は標準になった。

どの会社も苦労しているのがデータの前処理だ。多部門のデータを集めて解析するにはフォーマットを決める必要がある。この調整や空欄の確認・入力が膨大な作業になっている。一度フォーマットを決めても開発途中で追加項目が必ず出てくる。各部門を回って入力支援ツールを配るなど負荷は大きい。

社内の部門間調整でさえ大変なのに同業他社とのデータ連携となると、その労力は計り知れない。そこまでして得られる成果が見えないこともあり、連携は進まなかった。

ここでAIでデータを名寄せする技術に期待が集まっている。藤森チーフリサーチャーは「論文ベースではLLMを応用する研究が出てきた。うまくいけば画期的だ」と期待する。例えば論文や実験ノートと測定データをLLMに学習させ、測定データの数値列がどの物性を指すのか整理させるような使い方が想定されている。LLMのテキスト解釈能力を生かして数値の意味を推定する試みだ。

研究者が忘れていたり、量が多過ぎて捌ききれなかったりするデータを処理できる可能性がある。膨大な死蔵データを復活させられればインパクトは大きい。文部科学省マテリアル先端リサーチインフラ事業の伊藤聡サブプログラムディレクターは「日本の戦略は全国の研究設備から集まるデータと研究プロジェクトから生み出されるデータの2種類を蓄積すること」と説明する。前者は分野が広く、生データに近いデータだ。後者は特定分野で研究目的に沿って集められたデータになる。論文や実験ノートの知識と数値列を対応させやすい。

これらを組み合わせLLMで数値列への意味付けを支援しデータの管理運用を効率化できる可能性がある。伊藤サブプログラムディレクターは「成功例はまだない。AI研究者にとって非常に面白い挑戦になる」と指摘する。この問題が解ければ産業界からは引く手あまただ。企業同士のデータ連携を促し、産業競争力につながる。

日刊工業新聞 2024年03月22日
小寺貴之
小寺貴之 Kodera Takayuki 編集局科学技術部 記者
もっと創造的でキラキラした何かをAIは期待されていることは承知の上で、データ整理が最も適用しやすく、市場も便益も大きいのではないかと思います。10年近くAIすごいぞ。データが生命線だ。と言われてきて、とりあえずデータをとっておいてある企業は多いです。その大部分が死蔵されていて、死蔵データを蘇生できたらインパクトは大きいです。帳簿の上でも研究データの価値が上がるんじゃないかと思います。LLMのコールセンター支援と同じで、地味に大きな市場は大切にしたいです。そんなAIの開発環境として日本のアカデミアは悪くない構造をしています。生に近いデータと知識と結びついたデータの両方があり、どんどん流れるフロー型と選んで貯めていくストック型も両方あります。海外の若手は独立後の10年で打ち込む研究テーマに市場があるのか真剣に考えて選ぶそうです。だからチャンスが目の前を通ったらどんどん飛び移り、起業も早いそうです。データ整理のニーズはアカデミアで顕在化していて、基礎も応用も自分の手でできて、化石資源のように大量に眠っています。全然キラキラしていないことも魅力なのかもしれません。

編集部のおすすめ