不正解から正解を学習するAIはどんな技術？

理研と東大が開発、文字認識や画像識別など幅広く応用へ

2017年06月28日トピックス

　理化学研究所革新知能統合研究センターの杉山将センター長（東京大学教授）と東大大学院新領域創成科学研究科の石田隆大学院生らは、不正解から正解を学習する人工知能（ＡＩ）技術を開発した。既存のＡＩは大量の正解データを学習させる必要があるが、正しいデータを集めるにはコストがかかる。不正解データも活用すれば、従来より少ない作業量で高レベルのＡＩが開発可能。ＡＩによる文字認識や画像識別など幅広く応用できる。

　実験では正解データを教える学習法と同等かそれ以上の精度を確認した。手書き文字認識では８８％の精度だった。

　一般的には、がん細胞をＡＩで探す場合、がん細胞や内皮細胞、筋細胞などの正しいデータをＡＩに学習させる。ＡＩは正解からの誤差を最小化して正解率を高める。

　杉山センター長らは不正解データを与え、不正解からの誤差を最小化した。この結果「これはがん細胞ではない」「これは内皮細胞でない」といったデータから学習し、がん細胞を特定できるようになる。

　データを１０種類に分類する場合は正解データの１０倍の不正解データが必要になる。だが不正解のデータは正解データよりも集めやすい。例えば生体組織画像の中に、特定の細胞が含まれていなければ画像に含まれるすべての細胞画像が不正解データとして使える。さらに正解データを作るには検証して特定する作業が必要だが、不正解データは否定するだけですむ。

　開発したＡＩ技術は、ニューラルネットワークモデルや線形モデルなど学習モデルを選ばない。自動運転の歩行者認識、病変識別、顧客のプロファイル推定など幅広いＡＩへの基盤技術になる。

日刊工業新聞2017年6月27日

小寺貴之 Kodera Takayuki 編集局科学技術部記者

不正解なら何でもいいわけではなくて、正解と不正解のデータを相補的なラベルとして学習するところが今回の学習アルゴリズムのすごい点です。例えばがん組織の顕微鏡写真ＤＢなら、写真に写っているのはがん細胞や普通の細胞に限られるので「がん細胞ではない」という不正解データで学習できます。この世のすべてのモノを画像認識させようとすると、この世のすべてのモノの不正解データが必要になります。医療データや店舗の来店客など、ある程度対象を絞り込んだり、識別したい粒度を大きくすれば、必要なデータ量を抑えられます。また「●●である」データより「●●じゃない」データの方が直感的に判断しやすく、日常の生活インターフェースに埋め込みやすいです。セキュリティ認証のマイクロタスクなどに埋め込み、データ収集をすると良いと思います。