2023 Fiscal Year Annual Research Report

発話履歴を適切に保持する機能を備えたストリーミング同時音声翻訳

Research Project

Project/Area Number	23KJ1583
Research Institution	Nara Institute of Science and Technology
Principal Investigator	福田りょう奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)
Project Period (FY)	2023-04-25 – 2024-03-31
Keywords	同時音声翻訳 / 機械翻訳 / ストリーミング音声機械翻訳 / 同時通訳
Outline of Annual Research Achievements	本研究課題の目的は、長期文脈を適切に利用しながら連続音声を漸進的に翻訳するストリーミング同時音声翻訳技術の確立である。長さに限りのない連続音声を翻訳するためには、音声を翻訳処理単位に自動分割する必要があり、この音声分割の精度は翻訳精度にも大きく影響するため重要である。そこで初めに、事前学習済みの音声モデルwav2vec2.0に基づく最新の音声分割モデルを改良し、音声翻訳の処理速度と翻訳精度の向上を達成した。この手法では、音声分割モデルが約20秒未来の音声情報を参照して分割境界を予測する。そのため、音声を1秒程度の短いチャンク単位に区切って漸進的に処理する同時音声翻訳に適さない。そこで、次の研究では、音声分割モデルを漸進的な音声分割に適応させるための学習手法を提案した。具体的には、音声分割モデルが参照できる未来の音声情報に制約をかけることで、学習効率を低下させない漸進的な音声分割の学習を実現した。作成した音声分割モデルと同時音声翻訳モデルを組み合わせ、連続音声を処理するストリーミング同時音声翻訳システムを構築し、高い精度で翻訳を行えることを確認した。同時音声翻訳システム構築を行った上記の研究に加えて、システムを評価するためのデータ作成にも取り組んだ。原発話に忠実な訳出を低遅延で行う英日同時翻訳システムを実現するため、高品質な英日順送り訳データを作成した。データの作成手順は、まず英語の原発話をより短いチャンクに分割し、その後チャンク単位で順次翻訳するというものである。同時通訳者の経験に基づくルールを用いてチャンク化を自動化し、翻訳作業は翻訳者に依頼した。チャンク化ツールおよび作成した順送り訳データは公開しているため、今後の同時音声翻訳システム開発に役立てられることが期待される。

Research Products
(4 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Improving Speech Translation Accuracy and Time Efficiency With Fine-Tuned wav2vec 2.0-Based Speech Segmentation2024
- Author(s)
  Fukuda Ryo、Sudoh Katsuhito、Nakamura Satoshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 32 Pages: 906～916
- DOI
  10.1109/TASLP.2023.3343614
- Peer Reviewed
[Presentation] 原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成2024
- Author(s)
  福田りょう, 土肥康輔, 須藤克仁, 中村哲
- Organizer
  情報処理学会第259回自然言語処理研究発表会
[Presentation] 漸進的な音声分割を用いたストリーミング同時音声翻訳2024
- Author(s)
  福田りょう, 須藤克仁, 中村哲
- Organizer
  言語処理学会第30回年次大会
[Presentation] NAIST Simultaneous Speech Translation System for IWSLT 20232023
- Author(s)
  Ryo Fukuda, Yuta Nishikawa, Yasumasa Kano, Yuka Ko, Tomoya Yanagita, Kosuke Doi, Mana Makinae, Sakriani Sakti, Katsuhito Sudoh and Satoshi Nakamura
- Organizer
  Proceedings of the 20th International Conference on Spoken Language Translation
- Int'l Joint Research

2023 Fiscal Year Annual Research Report

発話履歴を適切に保持する機能を備えたストリーミング同時音声翻訳

Principal Investigator

福田 りょう 奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)

Research Products

[Journal Article] Improving Speech Translation Accuracy and Time Efficiency With Fine-Tuned wav2vec 2.0-Based Speech Segmentation2024

Author(s)

Journal Title

DOI

[Presentation] 原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成2024

Author(s)

Organizer

[Presentation] 漸進的な音声分割を用いたストリーミング同時音声翻訳2024

Author(s)

Organizer

[Presentation] NAIST Simultaneous Speech Translation System for IWSLT 20232023

Author(s)

Organizer

福田りょう奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)