Project/Area Number |
23KJ1583
|
Research Category |
Grant-in-Aid for JSPS Fellows
|
Allocation Type | Multi-year Fund |
Section | 国内 |
Review Section |
Basic Section 61010:Perceptual information processing-related
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
福田 りょう 奈良先端科学技術大学院大学, 先端科学技術研究科, 特別研究員(DC2)
|
Project Period (FY) |
2023-04-25 – 2024-03-31
|
Project Status |
Discontinued (Fiscal Year 2023)
|
Budget Amount *help |
¥2,000,000 (Direct Cost: ¥2,000,000)
Fiscal Year 2024: ¥1,000,000 (Direct Cost: ¥1,000,000)
Fiscal Year 2023: ¥1,000,000 (Direct Cost: ¥1,000,000)
|
Keywords | 同時音声翻訳 / 機械翻訳 / ストリーミング音声機械翻訳 / 同時通訳 |
Outline of Research at the Start |
同時音声翻訳は、発話終了前に通訳を開始する同時通訳の自動化を目指した、リアルタイム性の高い機械翻訳であり、言語の壁を越えた迅速な情報伝達を可能にする技術として期待されている。しかし既存の方法は各発話を個別に翻訳するため、一つ前の発話などの文脈を考慮できず、同時通訳者のような話の流れに沿った訳語選択が行えない。そこで本研究は、話の流れに適応した訳出を行える同時音声翻訳システムの実現を目指す。初めに、過去の発話を参照しながら漸進的に翻訳を行う、ストリーミング同時音声翻訳システムを作成する。その後、長期的な文脈を参照する仕組みをシステムに加えることで、高精度な同時音声翻訳を実現する。
|
Outline of Annual Research Achievements |
本研究課題の目的は、長期文脈を適切に利用しながら連続音声を漸進的に翻訳するストリーミング同時音声翻訳技術の確立である。長さに限りのない連続音声を翻訳するためには、音声を翻訳処理単位に自動分割する必要があり、この音声分割の精度は翻訳精度にも大きく影響するため重要である。そこで初めに、事前学習済みの音声モデルwav2vec2.0に基づく最新の音声分割モデルを改良し、音声翻訳の処理速度と翻訳精度の向上を達成した。この手法では、音声分割モデルが約20秒未来の音声情報を参照して分割境界を予測する。そのため、音声を1秒程度の短いチャンク単位に区切って漸進的に処理する同時音声翻訳に適さない。そこで、次の研究では、音声分割モデルを漸進的な音声分割に適応させるための学習手法を提案した。具体的には、音声分割モデルが参照できる未来の音声情報に制約をかけることで、学習効率を低下させない漸進的な音声分割の学習を実現した。作成した音声分割モデルと同時音声翻訳モデルを組み合わせ、連続音声を処理するストリーミング同時音声翻訳システムを構築し、高い精度で翻訳を行えることを確認した。同時音声翻訳システム構築を行った上記の研究に加えて、システムを評価するためのデータ作成にも取り組んだ。原発話に忠実な訳出を低遅延で行う英日同時翻訳システムを実現するため、高品質な英日順送り訳データを作成した。データの作成手順は、まず英語の原発話をより短いチャンクに分割し、その後チャンク単位で順次翻訳するというものである。同時通訳者の経験に基づくルールを用いてチャンク化を自動化し、翻訳作業は翻訳者に依頼した。チャンク化ツールおよび作成した順送り訳データは公開しているため、今後の同時音声翻訳システム開発に役立てられることが期待される。
|