研究課題
本研究課題の目的は、長期文脈を適切に利用しながら連続音声を漸進的に翻訳するストリーミング同時音声翻訳技術の確立である。長さに限りのない連続音声を翻訳するためには、音声を翻訳処理単位に自動分割する必要があり、この音声分割の精度は翻訳精度にも大きく影響するため重要である。そこで初めに、事前学習済みの音声モデルwav2vec2.0に基づく最新の音声分割モデルを改良し、音声翻訳の処理速度と翻訳精度の向上を達成した。この手法では、音声分割モデルが約20秒未来の音声情報を参照して分割境界を予測する。そのため、音声を1秒程度の短いチャンク単位に区切って漸進的に処理する同時音声翻訳に適さない。そこで、次の研究では、音声分割モデルを漸進的な音声分割に適応させるための学習手法を提案した。具体的には、音声分割モデルが参照できる未来の音声情報に制約をかけることで、学習効率を低下させない漸進的な音声分割の学習を実現した。作成した音声分割モデルと同時音声翻訳モデルを組み合わせ、連続音声を処理するストリーミング同時音声翻訳システムを構築し、高い精度で翻訳を行えることを確認した。同時音声翻訳システム構築を行った上記の研究に加えて、システムを評価するためのデータ作成にも取り組んだ。原発話に忠実な訳出を低遅延で行う英日同時翻訳システムを実現するため、高品質な英日順送り訳データを作成した。データの作成手順は、まず英語の原発話をより短いチャンクに分割し、その後チャンク単位で順次翻訳するというものである。同時通訳者の経験に基づくルールを用いてチャンク化を自動化し、翻訳作業は翻訳者に依頼した。チャンク化ツールおよび作成した順送り訳データは公開しているため、今後の同時音声翻訳システム開発に役立てられることが期待される。
すべて 2024 2023
すべて 雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件) (うち国際学会 1件)
IEEE/ACM Transactions on Audio, Speech, and Language Processing
巻: 32 ページ: 906~916
10.1109/TASLP.2023.3343614