郵便物の住所をAIが判別。東芝、英・仏語にも対応
9割以上の精度で認識。自社の仕分けシステムとセットで
東芝は人工知能(AI)を使って郵便や小包に英語やフランス語の手書き文字で書かれた住所を認識する技術を開発した。文字や単語ごとの候補を抽出しつつ住所データベースと照らして住所を9割以上の精度で認識する。東芝は郵便番号や宛名を高速で読み取って仕分けするシステムに強く、海外展開を進めている。多言語対応を進めて多くの国での採用につなげる。
海外、特に新興国では宛先を書く際に郵便番号を書かなかったりストリートだけ書いてあったりなど、人手でも仕分けに苦労するケースが多い。筆記体も読み取り難い。仕分けの自動化には、従来の光学式文字読み取り装置(OCR)より的確に手書き文字を読み取る技術が必須となる。
今回、AIの技術であるディープラーニング(深層学習)と、事後確率という手法のアルゴリズムを読み取りに使った。
まず筆記体で書かれた住所や宛名を丸ごと読み取る。そこからノイズを省き住所と思われる箇所を抽出。そこから当てはまると思われる単語の候補と確率を出し、一つに絞り込まないまま文字一つ一つの認識作業に入る。
文字認識では、1文字をマス目状に分解して深層学習により特徴を割り出す。ここでもa、q、o、uなど、そう読める確率がある候補はその確率ごと残し、文字認識、単語認識の作業を進める。ここでは事後確率の手法で認識率を高めつつ、各データベースとの照合で10秒以内に住所を割り出していく。
2017年にはフランス語、スウェーデン語、ロシア語などでも認識精度9割以上での対応を目指す。中国語など他の言語も都度対応していく。将来は帳票読み取りなど他の用途への応用も進めたいという。
(東芝のあて名読み取り装置)
海外、特に新興国では宛先を書く際に郵便番号を書かなかったりストリートだけ書いてあったりなど、人手でも仕分けに苦労するケースが多い。筆記体も読み取り難い。仕分けの自動化には、従来の光学式文字読み取り装置(OCR)より的確に手書き文字を読み取る技術が必須となる。
今回、AIの技術であるディープラーニング(深層学習)と、事後確率という手法のアルゴリズムを読み取りに使った。
まず筆記体で書かれた住所や宛名を丸ごと読み取る。そこからノイズを省き住所と思われる箇所を抽出。そこから当てはまると思われる単語の候補と確率を出し、一つに絞り込まないまま文字一つ一つの認識作業に入る。
文字認識では、1文字をマス目状に分解して深層学習により特徴を割り出す。ここでもa、q、o、uなど、そう読める確率がある候補はその確率ごと残し、文字認識、単語認識の作業を進める。ここでは事後確率の手法で認識率を高めつつ、各データベースとの照合で10秒以内に住所を割り出していく。
2017年にはフランス語、スウェーデン語、ロシア語などでも認識精度9割以上での対応を目指す。中国語など他の言語も都度対応していく。将来は帳票読み取りなど他の用途への応用も進めたいという。
(東芝のあて名読み取り装置)
日刊工業新聞2016年9月21日