電子機器製造工場が検品ＡＩ活用で陥った「精度９割」の落とし穴

AIは幻想か―導入現場のリアル＃03　「９割の精度を目指せ」編

2021年05月20日テクノロジー

電子機器製造工場からの相談

ほんの数年前を思い返すと、クライアントといえばAIを初めて導入する企業がほとんどだった。だが、ここ最近は、AIの導入を経験済みの企業からの相談も珍しくなくなった。これを裏返してわかりやすく言うと、「失敗した案件」の相談だ。これは、ある電子機器の製造工場のデジタル化推進担当者からの支援要請だった。

「1年ほど前にAIを搭載した検品システムを導入しました。ですが、思ったように精度がでないのです。うちの工場では1日に1万個の製品を製造し、このうち10個ほどの不良品が発生します。AIが完璧でないことは理解しています。なので、100％の不良品検出はできないとしても、せめて９割の目標を達成したいと考えています。当初発注したAIベンダーにもそうお願いしていたのですが・・、やはり９割という精度は現実的ではないのでしょうか。」

確かに９割の精度目標というのは、技術的にはかなり難しいレベルのように聞こえる。だがこの案件には、それ以前の問題が潜んでいる。それは、そもそも「９割」が何を意味しているかであり、伴ってAIでどのような問題を解決すべきかが不明瞭になっていることだ。

AI開発には必ずPoCがある

「PoC（ポック）死」という言葉がある。PoCとは、Proof of Conceptの略語で「概念実証」と訳される。わかりやすく言えば、「実験的な検証」である。通常のITシステムと違い、AIはやってみないと上手くいくかがわからないという宿命がある。ITシステムは、身近なところでは表計算ソフトがわかりやすい例だが、決まったルールに基づいて、決まった答えを出すため、少なくとも技術的な観点でのリスクは小さい。（もちろん業務に組み込んだ段階で工数が何割減らせるか、みたいな側面ではITシステムもPoCが必要な場合もある。）

一方、AIはどのようなデータを学習させるかで答えが変わってくる。そのため、AI開発ではいきなりビジネス現場に導入するということはできない、というか導入するものがスタート時点では存在しない。本開発の前にテストモデルを作り、PoCという実験を必ず実施することで、AIが役に立つ目処が立ちそうかを事前に検証する手順が必須になる。

PoC死とは、このPoCで失敗した案件、つまり導入を目指して開発したものの、実験段階で“使えない”ことが判明した案件を意味する。この電子機器工場は、PoC死してもおかしくない状態のAIを、現場にまで導入してしまったものであり、より深刻な問題を抱えた状態だったと言える。

余談だが、当社にはこうしたPoC死案件の相談が少なくない。このとき当然ながら感じるのは、PoC死を想像できながら開発を進めた残念なAIベンダーの存在である。依頼する企業にとってみればAIベンダーの見極めはかなり難しいところではあるが、一つ言えるのは、「できます」と言い切るベンダーは怪しいと疑った方が良い。その理由は上に書いた通り、AIはできることが事前にわかるはずがないからだ。

「精度９割」の曖昧さ

さて、話を元の相談の内容に戻そう。工場のデジタル化推進担当者が言っていた「９割」という目標は、なぜ曖昧なのか。

実は当社でAI導入に向けたコンサルティングを行う際、「どれくらいの精度が出ると実用化できそうでしょうか？」と聞くと、大抵返ってくるのがこの「９割」もしくは「8割」という答えである。恐らくそこに理由はなく、「（なんとなく）大体できているレベル」という感覚で「９割」、「ちょっとなら間違えてもいいよ」という感覚で「8割」という数値を連想するのだろうと想像している。しかし、この数字は何を意味するのか、もっと厳密に考える必要がある。比率なのだから、分母と分子があるはずだが、この場合それは何なのか。

ヒアリングを進めると、まず出てきたのが、「生産数の１万個のうち、正しく判定できる割合」としての９割である。だがこの工場、以前の回で紹介した化粧品メーカー同様、日本企業らしい高い生産品質を保有しており、不良品は1万分の10個と少ない。

つまり、悪知恵を働かせれば、どれが不良品かがわからなくても、とりあえず全てを「良品だ」とAIに判定させてしまえば、良品の9,990個は正解していることになるので、精度はなんと99.9%という高い数値を達成してしまう。しかし、当然これでは意味がないだろう。わざわざAIを導入する意味はなくなってしまう。

次に担当者が言う。「不良品を漏らしてしまっては意味がない。良品、不良品、それぞれの判定で９割を目指してほしいのです」。これは、良品の9割を正しく「良品だ」と判定した上で、それ以外の「不良品」とされた製品の中から９割を正しく「不良品だ」と判定するということだ。専門的には前者を特異度（Specificity：良品を正しく「良品」と判定する確率）、後者を感度（Sensitivity：不良品を正しく「不良品」として判定する確率）または再現率（Recall rate）と呼ぶ。今回のケースのように、不良品が10個、全体の0.1％しかない状態で、この特異度と感度の両方が９割というのは、次のような状態である。

まず、10個の不良品の内、9個は正しく不良品として判定できている。ここまでは良い。一方、良品について、9,990個の良品の内、999個は誤って不良品として判定してしまっているという事になる。見方を変えると、AIが「不良品だ」として判定した1,008個の内、本当の不良品はわずか9個しか無く、正解率は1%未満という事態だ。これではとても使い物にならない。

上記の数値は、AIが「不良品だ」と判定した中で、本当に不良品だった製品の個数を表し、適合率（Precision rate）と呼ばれる。この説明をすると、ここでまた担当者。「では、適合率９割を目指しましょう」。しかしこれは、特異度99.99%、つまり9,990個の良品うちの9,989個を「良品だ」と正しく判定できることが前提になる。

これは技術的に相当難しい。この記事では深入りは避けるが、このレベルを本当に実現しようとすると、そもそもの教師データの質、つまり「今人間が手作業でやっている結果は本当に正しいのか」という点に踏み込む必要がある。これは社内政治が関わる話にもなり、ほとんどの場合上手くいかない。

AIの壁

世の中には「精度９割」などを謳ったAIプロダクトも少なくない。だが、上のやり取りを見ればわかるが、この「９割」が何を指しているかは十分に確認した方が良い。今回のケースの場合、恐らく、担当者が最終的に望んだ適合率９割を実現することは技術的に難しい。

しかし、ビジネス観点での問題としては、技術的なできる・できないではなく、こうした難しさや必要な検討事項を事前に想定した上で、AIの活用余地を考えられていたかどうかだ。後悔先に立たずではあるが、このAI導入プロジェクトが開始する段階でこうした議論をするタイミングはあっただろうし、PoCでそれを検証することもできた。

例えば上の例では、適合率が1%だとしても、人が目検で全数チェックしている現状と比べると、その範囲を狭められるだけで意味がある活用方法もあったかもしれない。しかし、実際にはこうした検討が行われないまま、100%完全自動化の想定で業務オペレーションに組み込まれてしまった。

前AIベンダー側の責任も大きい。恐らく担当者が言う「９割」の意味を正確に把握しないまま、自分が思う「９割」で突き進んでしまったのだろう。PoCの前の段階でこうした基準を精緻化し、目標が達成されたらどうオペレーションを変えていくのか、あらかじめ社内外の関係者で合意をとる動きをしていれば、こうした事態は避けられていたはずだ。

AIだけでなく新しいテクノロジーを導入する際には、どうしても技術や性能、精度に注目が行きがちだが、ビジネスで用いる以上は、どのような問題に対して、どのようなアプローチで挑み、何を達成するのか、こうした要件の決定と共有が先立っていなければいけない。

（文＝株式会社Laboro.AI　代表取締役CTO・藤原弘将／マーケティングディレクター・和田崇）

※記事内でご紹介している相談内容は、企業が特定できないよう実際の内容をヒントに改変したものです。また、特定の企業様を意図して記載するものでもございません。

オンラインセミナーのご案内

ニュースイッチでは、オンラインイベント「失敗パターンから学ぶ製造業AI導入のカギ〜AIプロジェクトのリベンジを目指して〜」を開催します。
本セミナーでは、特集「AIは幻想かー導入現場のリアル」の執筆を手がけた、AI開発スタートアップLaboro.AIの代表取締役CTO 藤原弘将氏が、製造業の代表的なAI導入ケースである異常検出、需要予測、故障予知、安全管理、工程スケジューリングをテーマに取り上げ、それぞれのアンチパターンを紹介し、AI導入プロジェクトを成功に導くためのヒントを提供します。

2021/10/20(水) 14:00 ～ 15:30
＜＜申し込みはこちらから＞＞
参加料：￥7,700(税込)
申し込み締切　2021年10月19日（火）12：00

ニュースイッチオリジナル