ニュースイッチ

速報性と網羅性に優れた「オルタナティブデータ」、その巨大な可能性

<情報工場 「読学」のススメ#102> 『入門オルタナティブデータ』 -経済の今を読み解く (渡辺 努/辻中 仁士 編著)

POS、クレジットカード利用履歴、衛星画像から見えてくるもの

新型コロナウイルス感染症の流行以降、「渋谷の夜の人出は、感染拡大前に比べて〇%増加…」といった情報を見聞きする機会が増えた。このような情報は、サンプリングした標本を対象にアンケートなどを行い集計するような、従来型の調査方法では収集できない。

位置情報、スーパーやコンビニのレジで収集されるPOS(販売時点情報管理)データ、クレジットカードデータ、衛星画像といった、ほぼリアルタイムで収集・蓄積・集計されるデータは、財務情報や経済統計などの伝統的に使われてきたデータに対し、「オルタナティブデータ」(代替データ)と呼ばれる。活用が始まったばかりで、呼称や定義は明確に定まっていないようだが、そのポテンシャルが注目されているという。

オルタナティブデータの性質や有効性、課題などを、具体的な活用事例を紹介しながら解説するのが、『入門オルタナティブデータ』(日本評論社)だ。編著者の渡辺努さんは、データ・ビジネスを展開する株式会社ナウキャスト創業者・技術顧問で東京大学大学院経済学研究科教授。辻中仁士さんは同社の代表取締役CEOだ。このほか、多方面の関係者の対談や鼎談、寄稿がまとめられており、オルタナティブデータについて多面的に理解できる一冊だ。

政府統計の「不正」を監視する役割も

オルタナティブデータの活用には、どんなメリットがあるのだろうか。

経済や金融の動向を計るのに、いわば“定番”とされてきたGDP(国内総生産)や消費者物価指数などは、統計をとってから公表までに1カ月以上のタイムラグがあることが多い。また、例えば電子商取引の額が反映されていないなど、網羅性の課題も指摘できる。

その点、オルタナティブデータは速報性に優れ、幅広く詳細な分析根拠が得られる網羅性も期待できる。さらに、POSデータやクレジットカードの利用データをはじめとする、自動的に収集されているデータを活用するケースが多く、アンケートや調査票を作成・回収・集計するといった手間と時間がかかるプロセスは不要だ。

例えば「SIRモデル」と呼ばれる感染症数理モデルに、感染拡大状況、携帯電話位置情報による人々の動き、POSデータやクレジットカードデータによる消費の動きといったオルタナティブデータをかけ合わせたモデルをつくることで、感染状況と経済の先行きを見通すシミュレーション分析を行うことができるという。

正確なシミュレーションができれば、需要や、それに伴う生産活動や物流などについての予測をもとにした、効率的な経済活動が可能になる。こうしたシミュレーションは、タイムラグが大きいと難しい。速報性のあるオルタナティブデータだからこそ実現できるのだ。

また本書では、オルタナティブデータの少し意外な利点も指摘されている。

2018年、厚生労働省の「毎月勤労統計調査」に不正が発覚した。国の基幹統計である雇用、給与、労働時間などの動向を明らかにする調査について、本来500人以上の大規模事業所はすべて調べるところを、厚労省が無断で、2004年から3分の1ほどの抽出調査とし、データの補正もせずに結果を公表していたのだ。

これについて本書編著者の渡辺努さんは、「毎月勤労統計調査」と比較できる別の指標が存在しなかったことが、問題に気付くのが遅れた理由の一つだと指摘している。もし民間で似た調査を実施していれば、双方のデータのズレから、不正に気付けた可能性がある。すなわち、オルタナティブデータには「政府統計の監視」という役割も持たせられるのだ。

渡辺さんはまた、太平洋戦争中の「大本営発表」に触れ、現在のように人工衛星からの画像をAIで処理して戦況を伝える民間企業がたくさんあれば、誤報は防げるだろうとの指摘もしている。現在のウクライナの戦況について、各国政府や軍の情報を、民間企業の衛星画像や一般人のSNSの投稿が補完、あるいは監視する役割を果たしていることから考えれば、理解しやすいだろう。

活用方法、バイアス・ノイズの除去、個人情報の扱いに課題

一方で現状、オルタナティブデータは「需要不足」なのだそうだ。

IoTなどが普及し、データ自体は膨大に集まるようになった。ただし、データの「量」そのものには必ずしも価値はない。データの意味や、そこから取り出せる知見こそが価値になる。ところが、意味や知見を引き出すプロセスが未熟なために、せっかくのデータをどう役立てていいかわからない、というケースが珍しくないという。

つまり、何のためにオルタナティブデータを集めるのかがわからない、というのが「需要不足」の意味だ。オルタナティブデータの課題は、いかに集めるかではなく、加工の仕方や用途の多様化、使う側の技術の向上などにある。

データに不可避に含まれるバイアス(偏り)やノイズ(ばらつき)の回避や除去も課題の一つだ。また、用途が特定されていないデータの場合、ある時点からデータが更新されなくなるといった懸念もある。個人が特定されないにしても個人情報の提供に抵抗のある人も少なくないなど、データの収集時に問題が発生することももちろんある。

これらの課題を解決する前提として、まず一般にオルタナティブデータが「役に立っている」という認識が広まることが肝要ではないか。そうすれば、データ提供者の抵抗感も減るし、顧客がデータを購入する動機も増えるだろう。

ビジネスだけでなく社会課題の解決に役立てることが、オルタナティブデータの活用事例を増やすかもしれない。具体的には、データやシミュレーションによって、地球温暖化への最適な対策や計画の検討、効率的な物流やエネルギー使用、また、衛星画像を使った森林保護の監視などが考えられる。

さまざまな可能性を秘めた膨大なデータが、今後、より便利で快適、あるいは持続可能な社会の実現へつながっていくことを期待したい。

(文=情報工場「SERENDIP」編集部 前田真織)

『入門オルタナティブデータ』
-経済の今を読み解く
渡辺 努/辻中 仁士 編著
日本評論社
272p 1,980円(税込)
情報工場 「読学」のススメ#102
吉川清史
吉川清史 Yoshikawa Kiyoshi 情報工場 チーフエディター
速報性に優れたオルタナディブデータは、状況が目まぐるしく変わり、予測も困難なコロナ禍中にこそ、威力を発揮するに違いない。情報が人々の生活や国の経済、人命にまで関わるのであれば、オルタナティブデータはもはや「必須のインフラ」といっても過言ではないのかもしれない。ただし、バイアスやノイズの除去、個人情報の扱いなどの手法が確立している伝統的なデータとは違い、オルタナティブデータは、それらの手法をこれから開発していく必要があるのではないだろうか。そうであれば、新たな収集や活用を試しながら、「経験」から学んでいかなければならない。そんなオルタナティブデータの多様な“挑戦”に注目していきたい。

編集部のおすすめ