「統計数理」から見たAIブームをすべて話そう
樋口知之統計数理研究所所長に聞く
統計数理研究所は大学共同利用機関として統計やデータ科学の人材を養成し、研究基盤を支えてきた。近年のビッグデータ(大量データ)と人工知能(AI)ブームで日本の人材不足が鮮明になっている。樋口知之所長に打開策を聞いた。
-AIブームをどう見ますか。
「AI技術が日々進化する状況だ。年や月ではなく、日単位でアイデアが共有され、技術が更新されている。従来の研究や学術界を揺るがしかねない流れだが止まらないだろう。この背景には三つの要因がある。まずディープラーニング(深層学習)が圧倒的なパフォーマンスを実現したことだ。深層学習の中身はブラックボックスになるが、それを上回る利点があった。画像やテキスト、音声データの学習はめどが立ち、動画への対応が進む。人間がコミュニケーションする情報のほとんどを機械で扱えるようになった。情報系研究者は誰でも使えるほど使い勝手が良い」
「次に計算プラットフォームが広く提供された。グーグルの『テンソルフロー』など基本的な深層学習フレームワークや計算ライブラリーが提供され、計算環境は買えば手に入る状況になった。最後は米コーネル大の論文共有サイト『アーカイブ』(arXiv)だ。もともと物理学分野で論文の査読が終わる前のペーパーを共有するために始まったが、コンピューターサイエンスの研究者が投稿するようになり投稿が爆発的に増えている」
「この三つがそろったことで、研究開発が飛躍的に加速した。アーカイブで論文を読んで、良いアイデアをみつけたらプログラムを書いて一晩計算機を回す。翌朝、良い結果が出ていたら2-3時間で論文を書いて投稿する。そしてアーカイブで次のアイデアを探す。研究者が知恵を絞って書いた論文は次の日にはキャッチされている。数日後には、その先の論文が投稿される。こんなことが日常的に行われている。もう老人にはついていけない」
-プログラムは開発共有サービスの「ギットハブ」(GitHub)をはじめオープンソースも整いました。
「使えるオープンソースはどんどん広がっていく。SNSで『いいね』ボタンを押すかのようだ。プログラミング自体も変わり、コピペ感覚で作られるようになった。いまの若い世代はコードを自分で書くというよりも、コードを検索してコピペする。探して見つからなければ、また探す。プログラミング言語の『パイソン』(Python)が広く使われるのはコピペしやすいからだ。二次元的に展開され、見た目で構造がわかりやすい。慣れると使えそうなコードがぱっと見でわかる」
「私が若い頃は図書館で論文を探し、プログラムは自分で書いた。図書館のどの棚の、どの雑誌にこの情報はあるはずと、いわば構造化された考え方をしていた。いまの世代は初めから検索だ。知識はフラットで、必要な情報は検索し、足りないものは集めてくる。自分が不得意な分野は、得意な人から力を借りる。借り物であることに抵抗はない。シェアリングの考え方だ。分野の垣根なくつながり、高速にアイデアを試していく。今回のAIブームは若い世代の強みが表れている。正直、学会や論文はどうなるのだろうと考えさせられる。学術界は論文を査読し、科学として体系立ててきたが、いまの流れに追いつけるとは思えない。だが学会を含め、コミュニティーは人が作るものだ。この流れは止められないだろう」
-研究者が先端を走り続けるのは大変ですね。研究環境がオープン化することは教育環境もオープン化しているといえます。ですが日本はAIやデータ科学の人材が足りないとされています。
「英語が読めれば無尽蔵に勉強できる環境だ。私自身、研究所の所長をしていると自由な時間はほとんどない。だが通勤電車の隙間時間で十分勉強できてしまう。アーカイブ論文のハイライトが日々ツイートされ、解説や要点がスライドシェアで共有される。スマートフォンだけで技術解説を読み、論文チェックができてしまう。すべて無料だ。オープン化は学術にとって一つの理想ではあるが、大学や教員の役割はどうなるのかと考えてしまう」
-上限のない環境はトップ人材と中間層が乖離します。中間層への要求レベルが上がる中で人材不足に応えないといけません。
「統数研では大企業でデータサイエンティストやAI技術者を指導統括できるリーダーレベルの人材を育てている。大学学部生のリテラシー教育や、大学院修士卒の見習いレベル、研究者として独り立ちするレベルの教育は大学で体制整備が進んでいる。その上の指揮統括できる人材を狙う。人材育成を担う統計思考院で養成コース『リーディングDAT』を進めている。ベイズモデリングや機械学習、データ科学などを集中的にトレーニングする。大学共同利用機関として長く続けてきた蓄積を生かす」
-社会から要請される人数に比べて養成できる人数は一桁から二桁小さいです。教育は教師の育成がボトルネックになり、簡単に規模を拡大できない課題がありました。
「そこは悲観していない。社会人の学び直しやリカレント教育を広げる。統数研としてデータサイエンティストの育成メソッドを企業に提供していく。企業が社内で人材育成できるよう講座や演習を企画する。17年度にトヨタグループの社内研修に協力し、教材整備やデータ解析の演習問題作り、指導役育成を支援した。企業が人材育成する上で自社のデータで、現場の課題を演習問題として解いてみるのが一番効率が良い」
「まずデータの意味がわかる。ただの数字の羅列に向き合っても、手法は身につくが、その結果が何なのかぴんとこない。また現場に聞けばデータの欠けている部分やセンサーのノイズの入り方など、データのクセがわかる。そして演習の成果は現場で使えるためモチベーションが上がる。統数研は現場主義で重んじてきた。やはり現場は楽しい。私もタイヤ工場で、センサーのクセや生産工程における意味を教えてもらい、こんなデータは採れないのかと議論してきた。我々がデータ分析でみつける法則が何を意味するのか、現場に聞くと即答されることもある。現場のエキスパートとすぐにつながる環境で人材育成できれば効率的だ。統数研で講座を企画し、企業の指導役候補と教材を作る中で指導ノウハウを伝えていく。大学の講師も紹介する」
-企業にビッグデータが整っているものなのでしょうか。
「製造業はトレーサビリティーのために大量のデータを保管してきている。ただ何か起きたときに追跡するためのデータであり、各部署にバラバラに保管されデータが寸断されてきた。最近は最高データ責任者や最高デジタル責任者などCDOを置いて組織横断的にデータを管理する企業が増えてきた。データ活用の環境整備と人材育成は一体的に進める企業は多く、心配していない」
-医療や材料開発、宇宙観測など、異分野の研究者がAI技術やデータ科学を当然のように使うようになりました。融合人材の育成は。
「地頭がいいと自分で勉強できてしまう。4月1日に『医療健康データ科学研究センター』を設立した。日本には長らく生物統計を体系的に教える組織がなかった。16年に東京大学と京都大学に講座ができたが、それまでは研究室単位の取り組みに留まっていた。新センターは東大と京大の上のレベルを狙う。統計解析に加え機械学習や臨床試験とエビデンス統合の方法論を研究し、人材を育成していく」
-大学経営の評価にもデータ科学が取り入れられるようになっています。
「技術誌と科学論文の大規模データを解析できる環境を用意した。産業界の評価を加味して大学の研究を評価する手法を研究している。大学の戦略策定を担うIR人材の育成も進めており、研究と教育の両方で貢献していく」
-AIブームの中で統数研は裏方に回っていたように思います。
「少し前は深層学習の喧噪に埋もれてしまっていた。だが深層学習は統計的機械学習だ。統計数理がその基盤を支えている。その重要性が認識され、製造業からの相談が増えている。以前はEC(電子商取引)系の企業との連携が多かった。また社会として米国の自動運転車の事故やSNSからの個人情報流出、AI技術を駆使した世論工作の疑惑で、データやテクノロジーへの風向きが変わった。一旦立ち止まり考える時期といえる。AIが生活に入り込み、AIスピーカーやスマホからデータを吸い上げることをどう考えるか。一方で産業界には使われていないデータがたくさんあり、バリューチェーンを少しでも効率化できると、元の規模が大きいため効果も大きい。公的機関のデータをうまく使えば社会課題の解決につながる。AIベンチャーにとってはアイデアだけで起業できる時代になった。データと計算機は外から調達でき、アイデアの有用性を示せば事業を始められる。ただAIも万能ではなく、有限のデータを学習する以上、探索範囲が有限に限定される。いくらビッグデータといっても有限と無限は根本的に違う。端的にいうとあらゆる状況に対応するAIは作れない。こうした制約は常に考えていないといけない問題だ。我々はサポートしていける」
-AIブームをどう見ますか。
「AI技術が日々進化する状況だ。年や月ではなく、日単位でアイデアが共有され、技術が更新されている。従来の研究や学術界を揺るがしかねない流れだが止まらないだろう。この背景には三つの要因がある。まずディープラーニング(深層学習)が圧倒的なパフォーマンスを実現したことだ。深層学習の中身はブラックボックスになるが、それを上回る利点があった。画像やテキスト、音声データの学習はめどが立ち、動画への対応が進む。人間がコミュニケーションする情報のほとんどを機械で扱えるようになった。情報系研究者は誰でも使えるほど使い勝手が良い」
「次に計算プラットフォームが広く提供された。グーグルの『テンソルフロー』など基本的な深層学習フレームワークや計算ライブラリーが提供され、計算環境は買えば手に入る状況になった。最後は米コーネル大の論文共有サイト『アーカイブ』(arXiv)だ。もともと物理学分野で論文の査読が終わる前のペーパーを共有するために始まったが、コンピューターサイエンスの研究者が投稿するようになり投稿が爆発的に増えている」
「この三つがそろったことで、研究開発が飛躍的に加速した。アーカイブで論文を読んで、良いアイデアをみつけたらプログラムを書いて一晩計算機を回す。翌朝、良い結果が出ていたら2-3時間で論文を書いて投稿する。そしてアーカイブで次のアイデアを探す。研究者が知恵を絞って書いた論文は次の日にはキャッチされている。数日後には、その先の論文が投稿される。こんなことが日常的に行われている。もう老人にはついていけない」
-プログラムは開発共有サービスの「ギットハブ」(GitHub)をはじめオープンソースも整いました。
「使えるオープンソースはどんどん広がっていく。SNSで『いいね』ボタンを押すかのようだ。プログラミング自体も変わり、コピペ感覚で作られるようになった。いまの若い世代はコードを自分で書くというよりも、コードを検索してコピペする。探して見つからなければ、また探す。プログラミング言語の『パイソン』(Python)が広く使われるのはコピペしやすいからだ。二次元的に展開され、見た目で構造がわかりやすい。慣れると使えそうなコードがぱっと見でわかる」
「私が若い頃は図書館で論文を探し、プログラムは自分で書いた。図書館のどの棚の、どの雑誌にこの情報はあるはずと、いわば構造化された考え方をしていた。いまの世代は初めから検索だ。知識はフラットで、必要な情報は検索し、足りないものは集めてくる。自分が不得意な分野は、得意な人から力を借りる。借り物であることに抵抗はない。シェアリングの考え方だ。分野の垣根なくつながり、高速にアイデアを試していく。今回のAIブームは若い世代の強みが表れている。正直、学会や論文はどうなるのだろうと考えさせられる。学術界は論文を査読し、科学として体系立ててきたが、いまの流れに追いつけるとは思えない。だが学会を含め、コミュニティーは人が作るものだ。この流れは止められないだろう」
-研究者が先端を走り続けるのは大変ですね。研究環境がオープン化することは教育環境もオープン化しているといえます。ですが日本はAIやデータ科学の人材が足りないとされています。
「英語が読めれば無尽蔵に勉強できる環境だ。私自身、研究所の所長をしていると自由な時間はほとんどない。だが通勤電車の隙間時間で十分勉強できてしまう。アーカイブ論文のハイライトが日々ツイートされ、解説や要点がスライドシェアで共有される。スマートフォンだけで技術解説を読み、論文チェックができてしまう。すべて無料だ。オープン化は学術にとって一つの理想ではあるが、大学や教員の役割はどうなるのかと考えてしまう」
-上限のない環境はトップ人材と中間層が乖離します。中間層への要求レベルが上がる中で人材不足に応えないといけません。
「統数研では大企業でデータサイエンティストやAI技術者を指導統括できるリーダーレベルの人材を育てている。大学学部生のリテラシー教育や、大学院修士卒の見習いレベル、研究者として独り立ちするレベルの教育は大学で体制整備が進んでいる。その上の指揮統括できる人材を狙う。人材育成を担う統計思考院で養成コース『リーディングDAT』を進めている。ベイズモデリングや機械学習、データ科学などを集中的にトレーニングする。大学共同利用機関として長く続けてきた蓄積を生かす」
-社会から要請される人数に比べて養成できる人数は一桁から二桁小さいです。教育は教師の育成がボトルネックになり、簡単に規模を拡大できない課題がありました。
「そこは悲観していない。社会人の学び直しやリカレント教育を広げる。統数研としてデータサイエンティストの育成メソッドを企業に提供していく。企業が社内で人材育成できるよう講座や演習を企画する。17年度にトヨタグループの社内研修に協力し、教材整備やデータ解析の演習問題作り、指導役育成を支援した。企業が人材育成する上で自社のデータで、現場の課題を演習問題として解いてみるのが一番効率が良い」
「まずデータの意味がわかる。ただの数字の羅列に向き合っても、手法は身につくが、その結果が何なのかぴんとこない。また現場に聞けばデータの欠けている部分やセンサーのノイズの入り方など、データのクセがわかる。そして演習の成果は現場で使えるためモチベーションが上がる。統数研は現場主義で重んじてきた。やはり現場は楽しい。私もタイヤ工場で、センサーのクセや生産工程における意味を教えてもらい、こんなデータは採れないのかと議論してきた。我々がデータ分析でみつける法則が何を意味するのか、現場に聞くと即答されることもある。現場のエキスパートとすぐにつながる環境で人材育成できれば効率的だ。統数研で講座を企画し、企業の指導役候補と教材を作る中で指導ノウハウを伝えていく。大学の講師も紹介する」
-企業にビッグデータが整っているものなのでしょうか。
「製造業はトレーサビリティーのために大量のデータを保管してきている。ただ何か起きたときに追跡するためのデータであり、各部署にバラバラに保管されデータが寸断されてきた。最近は最高データ責任者や最高デジタル責任者などCDOを置いて組織横断的にデータを管理する企業が増えてきた。データ活用の環境整備と人材育成は一体的に進める企業は多く、心配していない」
-医療や材料開発、宇宙観測など、異分野の研究者がAI技術やデータ科学を当然のように使うようになりました。融合人材の育成は。
「地頭がいいと自分で勉強できてしまう。4月1日に『医療健康データ科学研究センター』を設立した。日本には長らく生物統計を体系的に教える組織がなかった。16年に東京大学と京都大学に講座ができたが、それまでは研究室単位の取り組みに留まっていた。新センターは東大と京大の上のレベルを狙う。統計解析に加え機械学習や臨床試験とエビデンス統合の方法論を研究し、人材を育成していく」
-大学経営の評価にもデータ科学が取り入れられるようになっています。
「技術誌と科学論文の大規模データを解析できる環境を用意した。産業界の評価を加味して大学の研究を評価する手法を研究している。大学の戦略策定を担うIR人材の育成も進めており、研究と教育の両方で貢献していく」
-AIブームの中で統数研は裏方に回っていたように思います。
「少し前は深層学習の喧噪に埋もれてしまっていた。だが深層学習は統計的機械学習だ。統計数理がその基盤を支えている。その重要性が認識され、製造業からの相談が増えている。以前はEC(電子商取引)系の企業との連携が多かった。また社会として米国の自動運転車の事故やSNSからの個人情報流出、AI技術を駆使した世論工作の疑惑で、データやテクノロジーへの風向きが変わった。一旦立ち止まり考える時期といえる。AIが生活に入り込み、AIスピーカーやスマホからデータを吸い上げることをどう考えるか。一方で産業界には使われていないデータがたくさんあり、バリューチェーンを少しでも効率化できると、元の規模が大きいため効果も大きい。公的機関のデータをうまく使えば社会課題の解決につながる。AIベンチャーにとってはアイデアだけで起業できる時代になった。データと計算機は外から調達でき、アイデアの有用性を示せば事業を始められる。ただAIも万能ではなく、有限のデータを学習する以上、探索範囲が有限に限定される。いくらビッグデータといっても有限と無限は根本的に違う。端的にいうとあらゆる状況に対応するAIは作れない。こうした制約は常に考えていないといけない問題だ。我々はサポートしていける」
日刊工業新聞2018年5月10日