ニュースイッチ

研究DXが新ステージ…生命線は学習データの再現性

基盤モデルと研究自動化(1)

研究開発のデジタル変革(DX)が次のステージに進もうとしている。大量のデータを学ばせた基盤モデルや大規模言語モデル(LLM)で分散したデータをつなぐ試みが始まっている。データ整形やフォーマットの標準化の手間が連携の壁となってきたが、巨大な人工知能(AI)ならバラバラなデータも飲み込めるという期待がある。だが同時に問題の先送りではないのかという懸念もある。DXの実現に向け、基盤モデルや標準化、自動化が複雑に絡み合っている。)

「実験のプロトコルを守る。記録に残す。これはAIうんぬん以前の問題だ。再現性のないデータは学習させても意味がない」―。ソニーAI(東京都港区)の北野宏明最高経営責任者(CEO)・沖縄科学技術大学院大学(OIST)教授は断言する。OISTでラボの完全自動化を進めている。患者の遺伝子配列や代謝因子、たんぱく質、腸内細菌などを網羅的に解読する。このデータをAIで解析しノーベル賞級の発見に挑戦している。

データの品質や再現性を標準化するために進めるのが、試料調製などのロボット化だ。ロボットが作業することでプロトコルが固定され、細かな作業も記録される。

生命科学分野ではヒトゲノムなど膨大のデータが公開されているが、計測項目や品質がまちまちなため研究者はデータを自分で取り直したいと考える。理化学研究所は人工多能性幹細胞(iPS細胞)を利用して細胞応答の基盤モデルを開発する。iPS細胞を分化誘導した100種類の細胞に5000種の刺激を与えて経時変化を計測する。細胞の数や計測頻度を掛け合わせるとデータは数千万から数億規模になる。

理研生命機能科学研究センター(BDR)の泰地真弘人副センター長は「iPS細胞なら分化誘導の過程を含めて品質を保証できる」と説明する。海外には3000万データを学習させた基盤モデルがあるが、予測精度に難があった。泰地副センター長は「データ量に対して幅が狭かったのではないか」と指摘する。ただ実際のところは分からない。理研は自前でのデータ整備を決めた。これができるのはiPS細胞の分化誘導や単細胞解析、AI技術、スパコンなど、生命科学とAIの研究インフラを備えているからだ。

基盤モデルを品質保証するには学習データやそのデータの元となる細胞にまでさかのぼる必要がある。ソニーAIの北野CEOは「理研は基盤モデルとともにプロトコルも公開してほしい」と要望する。データ連携の要と期待される基盤モデルだが、その学習データの再現性や品質保証が生命線になっている。

日刊工業新聞 2024年03月21日
小寺貴之
小寺貴之 Kodera Takayuki 編集局科学技術部 記者
いまのLLMは自分の専門でない領域では案内役になるけど、自分の専門領域ではほぼ参考にならないと言われています。まともな基盤モデルを作りたかったら、まともなデータが必要で、まともなデータを大量に作るにはまともな研究者とよく働くロボットが必要になります。この競争原理のままだとお金がかかり過ぎます。実際に実験すると高いのでシミュレーションをぶん回してデータが作られています。例えばGoogle DeepMindとUC Berkeleyは220万個の結晶構造を予測して、その内38万個が安定して存在しうる。その内58個の合成を試みて41個は合成できたと報告しています。計算と合成で桁が違いすぎていて、それだけ計算しても、いい材料が出てこんのか、ネイチャーに載せるなら材料を作るよりも、金を積んで方法論をアピールする方が確実だな、と半笑いしている材料研究者の顔が浮かびます。それでもロボットや計算機をぶん回す研究は続きます。クラウドプラットフォーマーにとってはシミュレーションやAIは利益率の高いニーズで、今後も研究の規模はより大きく、より複雑に、多様な活用が広がるはずです。成功例を出して計算資源の活用を促す。経営合理性は成り立ちました。こうした成功例が政策やメディアを導いていくことを前提に、地に足ついた研究を進めねばなりません。日本の強みは実際にモノを作っている製造業や製薬会社がいくつもあることです。基盤モデルの活用普及は産と学のすり合わせが必要になります。この1-2年はまともな基盤モデル作りを進めつつ、並行して使い方や協業モデルを考える必要があります。何度も袖にされてきたデータ連携ですが、もう一度提案してもいいタイミングではないかと思います。

編集部のおすすめ