6000万データを40分で計算できる。NTTの類似検索DB構築技術がスゴイ
NTTコミュニケーション科学基礎研究所の藤原靖宏特別研究員らは、類似検索データベース(DB)を高速で構築する技術を開発した。データを検索する際に用いるハッシュ値の計算負荷を5分の1に抑えた。6000万データの計算を約40分で終えることが可能。医療検査画像やサイバー攻撃といった膨大なデータが日々蓄えられる分野のデータ分析などに提案していく。
NTTは「アンカーグラフハッシング」という手法を高速化した。アンカーグラフでは数千万のデータをネットワーク状に並べ、そのうち数百のデータをアンカーとして利用する。このアンカーからの距離を基にハッシュ値を求める。
ハッシュ値計算では数千万×数百の行列を計算する。この大規模な行列を数百×数百の密行列に変換し、固有値を求めてハッシュ値を計算している。
研究により大規模な行列から三重対角行列を経由してハッシュ値を計算する方法を確立した。三重対角行列の高速計算法も提案し、それぞれ計算負荷を3分の1と3分の2に圧縮した。計算負荷を抑えることで設備投資などを減らせる。
サイバー攻撃を受けた際、その日初めて観測された攻撃をデータベース化して対策を採るといった利用が可能になる。
日刊工業新聞2021年8月18日