バイアス可視化で精度向上…お茶の水女子大学が挑むビッグデータ研究
混沌(こんとん)とした大量データ(ビッグデータ)の中から意味ある情報を浮かび上がらせる“情報の可視化”。お茶の水女子大学の伊藤貴之教授はジェンダーや、文化芸術など人文科学系の事柄を対象に、この切り口でのデータサイエンス(DS)研究に取り組む。学内の肩書きは複数学部や研究センターなど多岐にわたり、ここから大学の期待も高いことが見て取れる。(編集委員・山本佳世子)
DSによる情報分析は人工知能(AI)の機械学習を使うが、基になるビッグデータの扱い方が重要だ。伊藤教授は「全体の中に潜んでいるものを見つけ、意味のあるDSにつなげるために、データの可視化が必要だ」と説明する。
混沌としたビッグデータの中に、時間軸で少しずつだが変化する思いも寄らぬ、重要なデータが潜んでいることがある。また全体の中では見失いがちでも、局所的に差が激しい部分があれば、そこに問題があると考えて対処すべきだからだ。
切り口の一つはジェンダーや人種、職業などであるバイアス(偏見)の可視化だ。AIはウェブ上の過去の情報を学習するため、伝統社会における偏った見方を強めてしまう。
それでもデータ手配や動作検証をする人材が多様であれば、偏りに気づきやすい。しかし多数派が圧倒的に多い場合は、バイアスに気づかないままになる。
例えば映画のコンテンツ推薦システム。ユーザーの鑑賞履歴を使って機械学習をし、ユーザーに次の候補作品を推薦する仕組みだ。属性が偏るデータからは推薦結果も偏り、ユーザーが多様なコンテンツに触れる機会が失われてしまう。
![](https://images.newswitch.jp/images/6f50e4d1-b5df-45d3-909b-07f88c03143d.jpg)
伊藤教授らはマイクロソフトリサーチアジアと連携。推薦システムによる約4000本の映画と、6000人超のユーザー属性で、複数の可視化要素を組み合わせて分析した。
その結果、女性や子どもなどの少数派や視聴数が少ない人は、多数派と異なり、好みと推薦結果が大きくずれた。また恋愛ものに特化した女性ユーザー層がいる一方、アクションをよく見るユーザーは男女とも恋愛ものを含め多様なジャンルを鑑賞するといった傾向が分かった。
音楽も分析対象だ。J―POPのサウンドは近年、スマートフォンなどで移動中に聞くことが増え、室内鑑賞と異なる楽曲作りになっている。楽器音より聞きやすいデジタル音が増え、音量の幅は小さくなっている。
その中で10年たっても変化が少ない曲や音楽家の特徴は、何なのか分析した。流行を振り返って将来を予想したり、目標とする歌い方を明らかにしたり。従来は聞き手の感性頼みだったことが、DSによって明らかになってきそうだ。
これまで伊藤教授は理学部情報科学科の学生を指導してきたが、4月に新設された共創工学部の文化情報工学科も兼担となった。「楽曲のDSと歴史の文献調査を組み合わせるといった、文理融合を進めていきたい」と意気込んでいる。
![山本佳世子](https://images.newswitch.jp/images/764e89d8-6fb1-4e5a-8cf2-4a768d141c64.png)