ニュースイッチ

「ニューラル機械翻訳」を高品質に、NICTの挑戦

ニューラル機械翻訳は、ニューラルネットワークを用いて翻訳を実現する仕組みである。そのモデルは、特定の言語対のデータを使用して訓練される。しかし、高品質な翻訳を実現するには数百万文の翻訳の実例データが必要であり、翻訳の実例が小規模(例えば数千文)しか存在しない言語間の翻訳は非常に難しい。

この低資源言語対の問題に対して、ニューラル機械翻訳の訓練時に複数の言語対のデータを使用して翻訳品質を向上させる多言語翻訳のアプローチがある。多言語のデータを効果的に使用することは困難であることが知られていたが、我々はニューラル機械翻訳のモデルを段階的に訓練することによってこの問題に対処している(図を参照)。

複数の言語対のデータを使用する多言語多段階学習(NICT提供)

最初に(1)英語―中国語のような十分に大きなデータを持つ言語対のデータを用いてモデルを訓練する。この事前訓練は、後の工程でデータが少ない言語間の翻訳に役立つ初期知識を得るための方法である。次に(2)新しいN個の言語対(例えば英語―ベンガル語や英語―クメール語など)の少量のデータを導入し、(N+1)言語対のモデルの訓練を継続する。これは多言語のモデル洗練として知られている。

最後に(3)特定の言語対のデータのみを使用して訓練を継続し、その言語対に専用のモデルを取得する。このような段階的な訓練によって、より高い品質の翻訳が可能になる。

我々は図のように英語-中国語のデータと新たに追加した英語とアジアの七つの言語のデータを用いてモデルを段階的に訓練することで、英語からアジアの七つの言語への翻訳品質を向上させた。性能の改善幅のほとんどは、2段目の多言語のモデル洗練によるものだった。また、段階的な訓練によって訓練の工程を管理が容易な小さな工程に分解することで、難易度を軽減できた。これらは、少量のデータのみで困難な問題に対処するよりも、複数の言語を使用しながら、より小規模で管理しやすい工程を通じて対処する方が良いことを示している。

◇ユニバーサルコミュニケーション研究所・先進的音声翻訳研究開発推進センター 先進的翻訳技術研究室 有期研究員 ダブレ・ラジ 18年京大院博士後期課程修了。同年NICTに着任、現在に至る。以来、低資源言語対の機械翻訳、多言語機械翻訳の品質向上に関する研究に従事。博士(情報学)。
日刊工業新聞2021年11月16日

編集部のおすすめ