機械翻訳を「真の翻訳」に近づける研究の世界
機械翻訳(MT)の技術は、翻訳を「起点言語のテキストを目標言語のテキストに変換する問題」とみなして研究されてきた。しかし実際には、テキストが表す内容が等価であるだけでは翻訳とはなりえない。例えば、製品のマニュアルや特許の出願書類、企業のプレスリリースなどを翻訳する場合、対象分野の慣習、既存の用語の訳出方法、掲載媒体に応じて定められた句読法の仕様など、テキストの外側にある情報を適切に参照する必要がある。
MT技術の(テキスト変換の意味での)品質の向上に伴い、産業としての翻訳の現場においても、MTの出力を人間が修正して納品する、という作業工程が用いられるようになってきた。この修正の過程では、(1)MTによるテキスト変換の誤訳の修正と(2)テキストの外側の情報に照らした修正という2種類の修正がなされる。
私は、ニュース記事の英日翻訳を題材としてMTの修正事例を収集し、正しい訳出のために参照すべきテキストの外側の情報の種類を分析した。これらは表に示す4種類に大別される。
(a)は文字の使い分けの必要性を示す例だが、他にも語句、句読法、記号の用法など、細かい仕様に従う必要がある。(b)のMT訳は正しそうに見えるが、ローマ教皇に関する記事であったため、既訳に修正された。(c)は米大リーグの投手の戦績についての言及であったため、点数ではなく勝敗が正しい。(d)は起点文書中の表現の曖昧性(兄か弟か)を解消できなかった例である。修正担当者は、言及されている人物に関する(信頼できる)文書を入手することで初めてこの曖昧性を解消できた。
MTを真の翻訳に近づけるべく、私たちは現在、このような情報を適切に参照する技術について研究を進めている。
◇ユニバーサルコミュニケーション研究所・先進的音声翻訳研究開発推進センター 先進的翻訳技術研究室 主任研究員 藤田篤 05年奈良先端大博士後期課程修了。国内の大学に研究員、教員として9年間勤務後、14年より現職。計算言語学、自然言語処理の研究に従事。特に、同義の言語表現(言い換え・翻訳)の認識・生成処理に関心を持つ。博士(工学)。
日刊工業新聞2021年11月9日