不正解から正解を学習するAIはどんな技術?
理研と東大が開発、文字認識や画像識別など幅広く応用へ
理化学研究所革新知能統合研究センターの杉山将センター長(東京大学教授)と東大大学院新領域創成科学研究科の石田隆大学院生らは、不正解から正解を学習する人工知能(AI)技術を開発した。既存のAIは大量の正解データを学習させる必要があるが、正しいデータを集めるにはコストがかかる。不正解データも活用すれば、従来より少ない作業量で高レベルのAIが開発可能。AIによる文字認識や画像識別など幅広く応用できる。
実験では正解データを教える学習法と同等かそれ以上の精度を確認した。手書き文字認識では88%の精度だった。
一般的には、がん細胞をAIで探す場合、がん細胞や内皮細胞、筋細胞などの正しいデータをAIに学習させる。AIは正解からの誤差を最小化して正解率を高める。
杉山センター長らは不正解データを与え、不正解からの誤差を最小化した。この結果「これはがん細胞ではない」「これは内皮細胞でない」といったデータから学習し、がん細胞を特定できるようになる。
データを10種類に分類する場合は正解データの10倍の不正解データが必要になる。だが不正解のデータは正解データよりも集めやすい。例えば生体組織画像の中に、特定の細胞が含まれていなければ画像に含まれるすべての細胞画像が不正解データとして使える。さらに正解データを作るには検証して特定する作業が必要だが、不正解データは否定するだけですむ。
開発したAI技術は、ニューラルネットワークモデルや線形モデルなど学習モデルを選ばない。自動運転の歩行者認識、病変識別、顧客のプロファイル推定など幅広いAIへの基盤技術になる。
実験では正解データを教える学習法と同等かそれ以上の精度を確認した。手書き文字認識では88%の精度だった。
一般的には、がん細胞をAIで探す場合、がん細胞や内皮細胞、筋細胞などの正しいデータをAIに学習させる。AIは正解からの誤差を最小化して正解率を高める。
杉山センター長らは不正解データを与え、不正解からの誤差を最小化した。この結果「これはがん細胞ではない」「これは内皮細胞でない」といったデータから学習し、がん細胞を特定できるようになる。
データを10種類に分類する場合は正解データの10倍の不正解データが必要になる。だが不正解のデータは正解データよりも集めやすい。例えば生体組織画像の中に、特定の細胞が含まれていなければ画像に含まれるすべての細胞画像が不正解データとして使える。さらに正解データを作るには検証して特定する作業が必要だが、不正解データは否定するだけですむ。
開発したAI技術は、ニューラルネットワークモデルや線形モデルなど学習モデルを選ばない。自動運転の歩行者認識、病変識別、顧客のプロファイル推定など幅広いAIへの基盤技術になる。
日刊工業新聞2017年6月27日