発話履歴を適切に保持する機能を備えたストリーミング同時音声翻訳

研究課題

研究課題/領域番号	23KJ1583
研究種目	特別研究員奨励費
配分区分	基金
応募区分	国内
審査区分	小区分61010:知覚情報処理関連
研究機関	奈良先端科学技術大学院大学
研究代表者	福田りょう奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)
研究期間 (年度)	2023-04-25 – 2024-03-31
研究課題ステータス	中途終了 (2023年度)
配分額 *注記	2,000千円 (直接経費: 2,000千円) 2024年度: 1,000千円 (直接経費: 1,000千円) 2023年度: 1,000千円 (直接経費: 1,000千円)
キーワード	同時音声翻訳 / 機械翻訳 / ストリーミング音声機械翻訳 / 同時通訳
研究開始時の研究の概要	同時音声翻訳は、発話終了前に通訳を開始する同時通訳の自動化を目指した、リアルタイム性の高い機械翻訳であり、言語の壁を越えた迅速な情報伝達を可能にする技術として期待されている。しかし既存の方法は各発話を個別に翻訳するため、一つ前の発話などの文脈を考慮できず、同時通訳者のような話の流れに沿った訳語選択が行えない。そこで本研究は、話の流れに適応した訳出を行える同時音声翻訳システムの実現を目指す。初めに、過去の発話を参照しながら漸進的に翻訳を行う、ストリーミング同時音声翻訳システムを作成する。その後、長期的な文脈を参照する仕組みをシステムに加えることで、高精度な同時音声翻訳を実現する。
研究実績の概要	本研究課題の目的は、長期文脈を適切に利用しながら連続音声を漸進的に翻訳するストリーミング同時音声翻訳技術の確立である。長さに限りのない連続音声を翻訳するためには、音声を翻訳処理単位に自動分割する必要があり、この音声分割の精度は翻訳精度にも大きく影響するため重要である。そこで初めに、事前学習済みの音声モデルwav2vec2.0に基づく最新の音声分割モデルを改良し、音声翻訳の処理速度と翻訳精度の向上を達成した。この手法では、音声分割モデルが約20秒未来の音声情報を参照して分割境界を予測する。そのため、音声を1秒程度の短いチャンク単位に区切って漸進的に処理する同時音声翻訳に適さない。そこで、次の研究では、音声分割モデルを漸進的な音声分割に適応させるための学習手法を提案した。具体的には、音声分割モデルが参照できる未来の音声情報に制約をかけることで、学習効率を低下させない漸進的な音声分割の学習を実現した。作成した音声分割モデルと同時音声翻訳モデルを組み合わせ、連続音声を処理するストリーミング同時音声翻訳システムを構築し、高い精度で翻訳を行えることを確認した。同時音声翻訳システム構築を行った上記の研究に加えて、システムを評価するためのデータ作成にも取り組んだ。原発話に忠実な訳出を低遅延で行う英日同時翻訳システムを実現するため、高品質な英日順送り訳データを作成した。データの作成手順は、まず英語の原発話をより短いチャンクに分割し、その後チャンク単位で順次翻訳するというものである。同時通訳者の経験に基づくルールを用いてチャンク化を自動化し、翻訳作業は翻訳者に依頼した。チャンク化ツールおよび作成した順送り訳データは公開しているため、今後の同時音声翻訳システム開発に役立てられることが期待される。

報告書

(1件)

2023 実績報告書

研究成果
(4件)

すべて 2024 2023

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (3件) (うち国際学会 1件)

[雑誌論文] Improving Speech Translation Accuracy and Time Efficiency With Fine-Tuned wav2vec 2.0-Based Speech Segmentation2024
- 著者名/発表者名
  Fukuda Ryo、Sudoh Katsuhito、Nakamura Satoshi
- 雑誌名
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  巻: 32 ページ: 906-916
- DOI
  10.1109/taslp.2023.3343614
- 関連する報告書
  2023 実績報告書
- 査読あり
[学会発表] 原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成2024
- 著者名/発表者名
  福田りょう, 土肥康輔, 須藤克仁, 中村哲
- 学会等名
  情報処理学会第259回自然言語処理研究発表会
- 関連する報告書
  2023 実績報告書
[学会発表] 漸進的な音声分割を用いたストリーミング同時音声翻訳2024
- 著者名/発表者名
  福田りょう, 須藤克仁, 中村哲
- 学会等名
  言語処理学会第30回年次大会
- 関連する報告書
  2023 実績報告書
[学会発表] NAIST Simultaneous Speech Translation System for IWSLT 20232023
- 著者名/発表者名
  Ryo Fukuda, Yuta Nishikawa, Yasumasa Kano, Yuka Ko, Tomoya Yanagita, Kosuke Doi, Mana Makinae, Sakriani Sakti, Katsuhito Sudoh and Satoshi Nakamura
- 学会等名
  Proceedings of the 20th International Conference on Spoken Language Translation
- 関連する報告書
  2023 実績報告書
- 国際学会

発話履歴を適切に保持する機能を備えたストリーミング同時音声翻訳

研究代表者

福田 りょう 奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)

2,000千円 (直接経費: 2,000千円)

報告書

研究成果

[雑誌論文] Improving Speech Translation Accuracy and Time Efficiency With Fine-Tuned wav2vec 2.0-Based Speech Segmentation2024

著者名/発表者名

雑誌名

DOI

関連する報告書

[学会発表] 原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] 漸進的な音声分割を用いたストリーミング同時音声翻訳2024

著者名/発表者名

学会等名

関連する報告書

[学会発表] NAIST Simultaneous Speech Translation System for IWSLT 20232023

著者名/発表者名

学会等名

関連する報告書

福田りょう奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)