発話履歴を適切に保持する機能を備えたストリーミング同時音声翻訳

Research Project

Project/Area Number	23KJ1583
Research Category	Grant-in-Aid for JSPS Fellows
Allocation Type	Multi-year Fund
Section	国内
Review Section	Basic Section 61010:Perceptual information processing-related
Research Institution	Nara Institute of Science and Technology
Principal Investigator	福田りょう奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)
Project Period (FY)	2023-04-25 – 2024-03-31
Project Status	Discontinued (Fiscal Year 2023)
Budget Amount *help	¥2,000,000 (Direct Cost: ¥2,000,000) Fiscal Year 2024: ¥1,000,000 (Direct Cost: ¥1,000,000) Fiscal Year 2023: ¥1,000,000 (Direct Cost: ¥1,000,000)
Keywords	同時音声翻訳 / 機械翻訳 / ストリーミング音声機械翻訳 / 同時通訳
Outline of Research at the Start	同時音声翻訳は、発話終了前に通訳を開始する同時通訳の自動化を目指した、リアルタイム性の高い機械翻訳であり、言語の壁を越えた迅速な情報伝達を可能にする技術として期待されている。しかし既存の方法は各発話を個別に翻訳するため、一つ前の発話などの文脈を考慮できず、同時通訳者のような話の流れに沿った訳語選択が行えない。そこで本研究は、話の流れに適応した訳出を行える同時音声翻訳システムの実現を目指す。初めに、過去の発話を参照しながら漸進的に翻訳を行う、ストリーミング同時音声翻訳システムを作成する。その後、長期的な文脈を参照する仕組みをシステムに加えることで、高精度な同時音声翻訳を実現する。
Outline of Annual Research Achievements	本研究課題の目的は、長期文脈を適切に利用しながら連続音声を漸進的に翻訳するストリーミング同時音声翻訳技術の確立である。長さに限りのない連続音声を翻訳するためには、音声を翻訳処理単位に自動分割する必要があり、この音声分割の精度は翻訳精度にも大きく影響するため重要である。そこで初めに、事前学習済みの音声モデルwav2vec2.0に基づく最新の音声分割モデルを改良し、音声翻訳の処理速度と翻訳精度の向上を達成した。この手法では、音声分割モデルが約20秒未来の音声情報を参照して分割境界を予測する。そのため、音声を1秒程度の短いチャンク単位に区切って漸進的に処理する同時音声翻訳に適さない。そこで、次の研究では、音声分割モデルを漸進的な音声分割に適応させるための学習手法を提案した。具体的には、音声分割モデルが参照できる未来の音声情報に制約をかけることで、学習効率を低下させない漸進的な音声分割の学習を実現した。作成した音声分割モデルと同時音声翻訳モデルを組み合わせ、連続音声を処理するストリーミング同時音声翻訳システムを構築し、高い精度で翻訳を行えることを確認した。同時音声翻訳システム構築を行った上記の研究に加えて、システムを評価するためのデータ作成にも取り組んだ。原発話に忠実な訳出を低遅延で行う英日同時翻訳システムを実現するため、高品質な英日順送り訳データを作成した。データの作成手順は、まず英語の原発話をより短いチャンクに分割し、その後チャンク単位で順次翻訳するというものである。同時通訳者の経験に基づくルールを用いてチャンク化を自動化し、翻訳作業は翻訳者に依頼した。チャンク化ツールおよび作成した順送り訳データは公開しているため、今後の同時音声翻訳システム開発に役立てられることが期待される。

Report

(1 results)

2023 Annual Research Report

Research Products
(4 results)

All 2024 2023

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Journal Article] Improving Speech Translation Accuracy and Time Efficiency With Fine-Tuned wav2vec 2.0-Based Speech Segmentation2024
- Author(s)
  Fukuda Ryo、Sudoh Katsuhito、Nakamura Satoshi
- Journal Title
  
  IEEE/ACM Transactions on Audio, Speech, and Language Processing
  
  Volume: 32 Pages: 906-916
- DOI
  10.1109/taslp.2023.3343614
- Related Report
  2023 Annual Research Report
- Peer Reviewed
[Presentation] 原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成2024
- Author(s)
  福田りょう, 土肥康輔, 須藤克仁, 中村哲
- Organizer
  情報処理学会第259回自然言語処理研究発表会
- Related Report
  2023 Annual Research Report
[Presentation] 漸進的な音声分割を用いたストリーミング同時音声翻訳2024
- Author(s)
  福田りょう, 須藤克仁, 中村哲
- Organizer
  言語処理学会第30回年次大会
- Related Report
  2023 Annual Research Report
[Presentation] NAIST Simultaneous Speech Translation System for IWSLT 20232023
- Author(s)
  Ryo Fukuda, Yuta Nishikawa, Yasumasa Kano, Yuka Ko, Tomoya Yanagita, Kosuke Doi, Mana Makinae, Sakriani Sakti, Katsuhito Sudoh and Satoshi Nakamura
- Organizer
  Proceedings of the 20th International Conference on Spoken Language Translation
- Related Report
  2023 Annual Research Report
- Int'l Joint Research

発話履歴を適切に保持する機能を備えたストリーミング同時音声翻訳

Principal Investigator

福田 りょう 奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)

¥2,000,000 (Direct Cost: ¥2,000,000)

Report

Research Products

[Journal Article] Improving Speech Translation Accuracy and Time Efficiency With Fine-Tuned wav2vec 2.0-Based Speech Segmentation2024

Author(s)

Journal Title

DOI

Related Report

[Presentation] 原発話に忠実な英日同時機械翻訳の実現に向けた順送り訳評価データ作成2024

Author(s)

Organizer

Related Report

[Presentation] 漸進的な音声分割を用いたストリーミング同時音声翻訳2024

Author(s)

Organizer

Related Report

[Presentation] NAIST Simultaneous Speech Translation System for IWSLT 20232023

Author(s)

Organizer

Related Report

福田りょう奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)