NTTのAIは音で空間にあるモノの種類や位置を把握する

研究開発成果を一般公開

2018年06月01日テクノロジー

マイクで収音したプラレールの音で予測した画像を作成

　ＮＴＴは３１日、ＮＴＴ京阪奈ビル（京都府精華町）で最新の研究開発成果を一般公開する「オープンハウス２０１８」を開いた。騒がしい環境下でも声の特徴に基づいて特定の声のみを抽出する技術、マイクで収音した音から物体の種類や形状を予測する技術などＮＴＴグループの人工知能（ＡＩ）技術群「コレボ」を用いた２９件の研究成果を展示した。ＡＩを使った新サービスにもつながりそうだ。

　「テレビの音声や子どもの泣き声に邪魔されてうまく反応しないＡＩスピーカー」―。現在の音声認識技術では特定人物の声に注目してその声だけを聞き取ることが難しい。だが、ＮＴＴコミュニケーション科学基礎研究所の音響処理技術「スピーカービーム」を用いれば、雑音下でも特定人物だけに反応するＡＩスピーカー、雑音に邪魔されずに会話を続けられるロボットを構築できる。

　同技術は特定したい人物の声だけを事前に１０秒程度登録。その音声の特徴を抽出することで人間の脳を模した機械学習モデル「ニューラルネットワーク」の処理を制御し、特定人物だけの音声を取り出せる。２人の声が混ざった音声から目的の音声だけを抽出する認識率は従来技術で約２０％だったが、同技術を用いれば８０％超になったという。

　ＡＩで音を分析する新技術はまだある。マイクで収音した音だけを使って、まるで画像認識したかのように「どこにどんな物体があるのか」を推定できる技術だ。収音した音の特徴から空間にある物体の種類や位置を予測する深層学習モデルを構築した。さまざまな音響の特徴を分析・統合して予測画像を生成処理できるようにした。

　同技術を用いればトイレや浴室、暗室などカメラで写したくない（写らない）空間の様子も分かりやすくリアルタイムに確認できるようになる。プライバシー性の高い空間の見守りや防犯への活用を見込む。

日刊工業新聞2018年６月１日