研究DXが新ステージ…生命線は学習データの再現性
研究開発のデジタル変革(DX)が次のステージに進もうとしている。大量のデータを学ばせた基盤モデルや大規模言語モデル(LLM)で分散したデータをつなぐ試みが始まっている。データ整形やフォーマットの標準化の手間が連携の壁となってきたが、巨大な人工知能(AI)ならバラバラなデータも飲み込めるという期待がある。だが同時に問題の先送りではないのかという懸念もある。DXの実現に向け、基盤モデルや標準化、自動化が複雑に絡み合っている。)
「実験のプロトコルを守る。記録に残す。これはAIうんぬん以前の問題だ。再現性のないデータは学習させても意味がない」―。ソニーAI(東京都港区)の北野宏明最高経営責任者(CEO)・沖縄科学技術大学院大学(OIST)教授は断言する。OISTでラボの完全自動化を進めている。患者の遺伝子配列や代謝因子、たんぱく質、腸内細菌などを網羅的に解読する。このデータをAIで解析しノーベル賞級の発見に挑戦している。
データの品質や再現性を標準化するために進めるのが、試料調製などのロボット化だ。ロボットが作業することでプロトコルが固定され、細かな作業も記録される。
生命科学分野ではヒトゲノムなど膨大のデータが公開されているが、計測項目や品質がまちまちなため研究者はデータを自分で取り直したいと考える。理化学研究所は人工多能性幹細胞(iPS細胞)を利用して細胞応答の基盤モデルを開発する。iPS細胞を分化誘導した100種類の細胞に5000種の刺激を与えて経時変化を計測する。細胞の数や計測頻度を掛け合わせるとデータは数千万から数億規模になる。
理研生命機能科学研究センター(BDR)の泰地真弘人副センター長は「iPS細胞なら分化誘導の過程を含めて品質を保証できる」と説明する。海外には3000万データを学習させた基盤モデルがあるが、予測精度に難があった。泰地副センター長は「データ量に対して幅が狭かったのではないか」と指摘する。ただ実際のところは分からない。理研は自前でのデータ整備を決めた。これができるのはiPS細胞の分化誘導や単細胞解析、AI技術、スパコンなど、生命科学とAIの研究インフラを備えているからだ。
基盤モデルを品質保証するには学習データやそのデータの元となる細胞にまでさかのぼる必要がある。ソニーAIの北野CEOは「理研は基盤モデルとともにプロトコルも公開してほしい」と要望する。データ連携の要と期待される基盤モデルだが、その学習データの再現性や品質保証が生命線になっている。