研究不正防止でも注目、NIIの研究データ基盤が本格稼働

  • 4
  • 0

国立情報学研究所(NII)による研究データ基盤「NII リサーチ・データ・クラウド(NII―RDC)」が2022年度から本格稼働した。ビッグデータ(大量データ)活用で科学技術を切り拓く「データ駆動型研究」や、研究不正防止などで期待される。情報ネットワーク基盤「SINET(サイネット)6」の高度化と相まって、日本の研究インフラとしての立ち位置が固まりつつある。(編集委員・山本佳世子)

駆動型科学 社会課題解決に力発揮

学術研究の世界では理論、実験、計算に次ぐ第4の科学的研究手法として、データ科学の注目が高まっている。ビッグデータを集めて人工知能(AI)などで解析することで新たな知を導く、データ駆動型科学だ。

NII―RDCは多様な研究ビッグデータを集めて「管理」し、多くの人がそのデータを活用できるよう「公開」し、どのようなデータがあるのか探す「検索」を可能にする三つの基盤システムから成る。ビッグデータをやりとりする“基幹道路”であるSINETと合わせ、全体が「学術研究プラットフォーム」となる。

NII―RDCとSINETがつながることで「遠隔手術や全国各地をつないだ地震研究、大型実験施設のより進んだ活用が可能になる」とNIIの漆谷重雄副所長は説明する。遠隔手術を札幌の医師と福岡の患者の間で手がける場合、往復で4000キロメートルの間を手術に必要な情報や画像などデータが動き、繊細な施術が可能になる。その実証が可能なのは、通信能力の高いSINETを持つ日本だけだという。

データ駆動型研究は新型コロナ感染症でも注目された。20年春ごろに話題になったのは、携帯電話基地局や全地球測位システム(GPS)などで集まるビッグデータを解析した研究だ。これを受けて、自治体などが人混みを避けるメッセージを発し、人々が外出を取りやめるといった“行動変容”を促すことができた。

データ解析の研究はこのように防災や地球環境、医療など、社会課題解決で広く力を発揮する。学術研究や企業のビジネスに限らないのが魅力だ。そのため政府や民間からの新たな資金支援も期待できるとみられている。

研究不正防止 生データ管理で後押し

データ駆動型研究は分野によるデータの種類や管理方法が異なるのが難しい。中でも生命科学系は研究対象の個体差に加え、ゲル電気泳動やセルソーターの写真が多いなどの特色がある。そのため公開前提の生データを管理する仕組みを整えることで、不正防止の後押しになるとの期待が高い。

東京大学定量生命科学研究所は、前身の分子細胞生物学研究所で2件の大きな研究不正が起きて改組・再出発になった背景がある。そのため再現性の高い“定量的”な手法を、この分野で実現することがミッションの一つとなっている。

同研究所は米グーグルのサービスを活用した独自システムで、論文となった研究の生データなどを保存し、所内公開とする仕組みを4年ほど運用。論文約200報で実証し、大きな問題がないことを確認していた。

そこで定量研における画像データの不正検知の仕組みなどのノウハウを生かし、NIIのデータ管理基盤上に適用した汎用システムをNIIと共同で開発。他大学・研究機関も使える仕組みとして、このほど完成させた。

定量研の白髭克彦所長は「重要なのは、データの再現性が問題になった時に、元のデータが公開されていて誰でも見られるという点だ」と強調する。不正が疑われても、研究ノートの紛失やハードディスクの破損などでうやむやとなるケースが、従来は分野を問わず見られたからだ。

しかし昨今は、生データが出てこないとそれだけで、アウトと判定されるように変わってきている。そのため「研究者のデータ保管義務に対し、新システムを使ってバックアップすれば安心・安全を確保できる」と、システム構築をリードした須谷尚史准教授は研究者目線で説明する。

同システムは不正防止が最初の目的だったが、「得られた研究データを皆で共有して議論する」(白髭所長)のが理想の姿。今後は各分野ごとにデータの癖や特性を把握した取り組みが期待される。

インタビュー/NII所長・喜連川優氏 異分野融合、予想外の成果引き出す

―NIIの研究データ基盤の整備によって、どのような研究が期待できるのですか。

「各大学や研究機関から生まれる多様な研究データがここ1カ所に集まるようになれば、“紐づけ”が容易になる。タイプの違うデータを掛け合わせた異分野融合研究が進み、予想外の研究成果を引き出せる可能性が出てくる」

―具体例を。

「例えば半導体の研究者と気象の研究者は普段、つながりがないものだ。しかし半導体を使った太陽電池パネルの開発で、太陽光の季節変動など気象データを取り入れると、従来にない効率的な電池開発が進むかもしれない」

―SINETの企業利用は「大学などと共同研究する場合のみ」だったのを、6から開放しました。その理由はなんでしょう。

「産業界の先端的な研究開発をSINETで支えたい。例えば理化学研究所の大型放射光施設『SPring―8』のビームラインのうち、いくつかは企業が使っており、放射光の測定によるビッグデータが理研のサーバーに蓄えられる。これをSINETで理研のスーパーコンピューター『富岳』へ送り、解析して企業に渡したらどうだろうか。産業界の目を付けどころに関心を持っている」

【キーワード/SINET】

NIIが整備する学術情報のための超高速通信ネットワークの基盤。全国の大学など約1000機関の300万人以上が利用する。大型実験施設やスーパーコンピューターにつながるため、大量の情報を安全性高くやりとりできる仕様だ。商用ネットワークのように回線が混んでつながらない問題は生じない。

“基幹道路”としての定期的なアップグレードで、22年度にこれまでの5から6となった。全国を毎秒100ギガビット(ギガは10億)でつないでいたのが毎秒400ギガビットに高速化。全国規模での整備網で世界最速だ。接続点のノードも増やした。

関連記事:研究不正の温床…生命科学研究データ、東大定量研が対応システム開発

日刊工業新聞 2022年5月3日

COMMENT

山本佳世子
編集局科学技術部
論説委員兼編集委員

オープンサイエンス、つまり研究者など専門家だけでなく、一般人もサイエンスに深く関わる活動でも、データ管理・公開は重要になってくるのだろう。研究論文のチェックも近年は、少数の査読者と きめ細かにやりとりをする伝統のスタイルではなく、ウェブでオープンに意見をかわす例が出てきている。「SNSのように激しく攻撃され、若い研究者がダメにされないだろうか」と不安になるが、オープン化は社会のあらゆる場面で進んでいる。研究不正が疑われた時には、NII-東大定量研の基盤で管理している研究データなどをまな板に載せて、大勢の目で判断することが、一般的になってくるのかもしれない。

関連する記事はこちら

特集

このサイトでは、アクセス状況の把握や広告配信などのためにクッキー(Cookie)を使用しています。オプトアウトを含むクッキーの設定や使用の詳細についてはプライバシーポリシーページをご覧ください。

閉じる