ニュースイッチ

いよいよ進むぞオープンサイエンス、政府が予算100億円確保

日本のオープンサイエンスが前進する。オープンサイエンスは研究成果の共有や公開を推進力に、研究の加速や知識の創造を促す取り組みだ。政府は補正予算として100億円を確保し、大学などの機関リポジトリ(電子保存システム)を強化する。オープン化は論文から始まり研究データへと広がっていく。その先には人工知能(AI)が控える。(小寺貴之)

データのオープン化のイメージ

「長く政策を議論してきてようやく資金を確保できた」と、内閣府総合科学技術・イノベーション会議の上山隆大議員は一息つく。オープンアクセス加速化事業として文部科学省2023年度補正予算で100億円を確保した。機関リポジトリを強化して収載論文を増やして発信力を向上させる。産学連携で大学に資金が循環すれば研究力強化につながる。

次は研究データが政策立案の焦点になる。失敗データや実験ノートなどを含めて研究データを共有し活用する方法が模索されている。試金石となるのはムーンショット型研究開発事業などの国プロだ。例えば大阪大学石黒浩教授が率いるプロジェクトでは日本語の日常対話コーパスを公開した。100件弱のクローンが作られたと推定され、水面下で活用されている。ムーンショット事業では3月時点で約1100件のデータセットが作られ、880件が共有または公開されている。

学術界では論文同様にデータが重視されている。経済学では発表と引き換えにデータ公開を義務づける国際誌もある。量子科学技術研究開発機構の小安重夫理事長は「生命科学では研究公正を理由に出版社から試薬のロット番号まで記すように求められている。論文執筆と同じくらいの文書作成業務が発生している」と指摘する。

細かな実験条件やデータの内容を説明するメタデータなどを求める試みは、研究者へのストレステストのようだ。データ整理業務は研究者、データを保存するストレージ代は研究機関が負担し、データ活用のインターフェースを握るためのメタデータは半ば強制的に収集される。学術出版社のビジネスモデル開発が進んでいる。

日本としては研究者にメタデータ整備を呼びかけるも、負担増となるため強引には進めてこなかった。国プロの中で事例を作っている段階だ。足元の機関リポジトリ強化は予算を確保できたが、出版社が学術市場を支配する構造に変化はない。文科省科学技術・学術政策研究所の赤池伸一上席フェローは「市場構造を覆す技術が出てきた時がチャンス」と指摘する。

ここで生成AIが注目されている。大量の論文やデータを学ばせたAIを研究のキュレーターのように使う試みが始まっている。このAIに学習させる論文の選定やデータの質を担保する作業が重要になる。捕食出版と論文工場などの研究不正がすでにビジネスとして成立しており、むやみに論文を学習させると正しくない情報を生成してしまうためだ。将来、学習データの選定作業は論文の査読に匹敵する活動になる可能性がある。科学AIの構築は学術活動を映す鏡となりえる。日本として戦略を打ち出せるか注目される。

日刊工業新聞 2023年11月23日
小寺貴之
小寺貴之 Kodera Takayuki 編集局科学技術部 記者
研究者にとって一人では読み切れないほどの論文が生産されるようになり、どの論文を読むべきかをAIに聞く日が近づいています。すでに論文の査読にはGPT-4は欠かせないツールになりつつあります。研究者にとって自分の専門と少し離れた領域を査読する際に論点の洗い出しや文献探しに有用だそうです。自分の専門分野について質問すると間違いもかなり返ってきますが、そこは質問の仕方でどうにかなる。知の海を泳ぐ際に、これほど頼りになるツールはないそうです。あくまでも情報の中身を精査するのは研究者自身。どの文献を参照するかでAIの助けを借りる。まっとうな使い方だと思います。とはいえ、他人の意思決定に介入するチャンスを見逃さないのが人間なので、将来どんな仕組みが入り込むかわかりません。学術界として丁寧に見ていく必要があると思います。ちなみに試薬のロット番号はほとんどが一回使い切りだったり、サンプルを残していなかったりするため、研究不正を止める効果はないと断言されてしまいました。ストレスをかけてから本当の目的にところにコミュニティーを誘導するという原則に従うと、まずロット番号を求めてから、ありそうなロット番号を生成するAIサービスを提供して、利用ログから不正をしている研究者を特定する作戦なのかな。まさかグループ会社のサイドビジネスにならないよな。などともやもや考えてしまいます。

編集部のおすすめ