2020 Fiscal Year Annual Research Report
Next generation speech translation research
Project/Area Number |
17H06101
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
中村 哲 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
|
Co-Investigator(Kenkyū-buntansha) |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
戸田 智基 名古屋大学, 情報基盤センター, 教授 (90403328)
森島 繁生 早稲田大学, 理工学術院, 教授 (10200411)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
須藤 克仁 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
SAKTI Sakriani 奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)
吉野 幸一郎 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70760148) [Withdrawn]
田中 宏季 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (10757834)
|
Project Period (FY) |
2017-05-31 – 2022-03-31
|
Keywords | 音声翻訳 |
Outline of Annual Research Achievements |
課題①A)雑音下音声認識及びその前処理の音声強調処理に関し、独立深層学習行列分析(IDLMA)の高精度化に加え、雑多な実環境雑音の空間相関行列を高速に推定して音声を抽出する手法を提案した。B)ストリーム型のEnd-to-End音声認識について研究を行い、500ms以下の時間遅れで認識結果を出力できるようになった。また、深層学習に基づく音声認識・合成システムの開発の他、複数話者、複数言語、コードスイッチング、マルチモーダルタスクに対応するマシンスピーチチェーンの開発、およびincrementalマシンスピーチチェーンの開発に取り組んだ。C)原言語音声から目的言語のテキストへのend-to-end型音声翻訳において音声認識の曖昧性を考慮したマルチタスク学習方式を考案し、翻訳精度が向上することを示した。D)話し言葉の翻訳のために大規模な書き言葉翻訳モデルを知識蒸留によって適応させる手法を考案し、翻訳精度が向上することを示した。 ②A)構造が離れた言語対におけるend-to-end型のSpeech-to-text翻訳システム、翻訳先言語テキストにおけるパラ言語情報の表現方式に関する研究を進めた。B)異なる言語の音声データによる学習を可能とする統計的声質変換技術に着目して、国際的評価会Voice Conversion Challenge 2020を開催し、2種類の国際的ベースラインシステムを構築して公開するなど、音声変換研究分野の活性化および本技術の進展に貢献した。 ③一枚の画像から発話顔生成するシステムと自動音声翻訳システムとの統合を行い、翻訳合成音声に対して表情豊かに発話顔を自動生成するプラットフォームを構築した。 ④同時通訳中の脳計測に関して同時通訳中の選択的注意の定量化に関してASSRが有効であることが示された。 ⑤講演同時通訳および日本語記者会見の同時通訳の累計310時間分を収録した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
①深層学習に基づく漸進的な音声認識と音声合成,構造が離れた言語間においても適応的に翻訳と翻訳待機を行う深層学習に基づく翻訳方法の研究をさらに前進させ,高速化,高精度化を達成した.②原言語音声の強調情報を,LSTMニューラルネットを用いend-to-end型で言語間変換を行う方法を提案し有効性を示した.さらに,対象言語でのパラ言語情報の生成についてテキスト,音声モダリティによる表出方法の基礎検討を行った.さらに,感情を含む音声データの収集を進めており感情の音声翻訳に展開できる状況にある.また,言語の壁を越えて話者性を制御するため,異なる言語の音声データを用いた学習を可能とする統計的声質変換技術の構築,深層波形生成モデルの導入による高品質化を達成した.さらに,国際的評価会Voice Conversion Challenge 2020を開催,国際的ベースラインシステムを構築して公開するなど、音声変換研究分野の活性化および本技術の進展に貢献した.③一枚の画像から発話顔生成するシステムと自動音声翻訳システムとの統合を行い、翻訳合成音声に対して表情豊かに発話顔を自動生成するプラットフォームを構築した。④同時通訳中の選択的注意をASSRにより計測することが有効であることが明らかとなり国際論文誌に採録された.⑤R2年度現在、講演同時通訳および日本語記者会見の同時通訳の合計310時間分を収録した.
|
Strategy for Future Research Activity |
①雑音がある環境での自動音声同時翻訳のためにIDLMA法を音声認識に実装,評価する.また,漸進的音声認識の性能改善,遅延の改善,漸進的音声合成の性能改善,遅延の改善を行い,モジュールを統合し全体最適化を行う.さらに,漸進的機械翻訳の性能,遅延の客観的評価,主観的評価を行う. ②パラ言語音声翻訳については感情音声コーパスを収集し,現在の強調翻訳方式をベースに感情音声の翻訳方法を開発する. ③講義をはじめとするビデオコンテンツの字幕翻訳の研究を進める.事前のコンテンツ情報の利用による改良を進める.音声画像翻訳については,一枚の画像から発話顔生成,声質変換するシステムを自動音声同時翻訳システムに統合する研究を進める. ④同時通訳中の作業負荷を通訳者の処理の選択度により測定する研究をさらに発展させ,文構造との関係を明らかにしてゆく.また,通訳者の負荷,通訳者の熟達度などの計測の研究を行う. ⑤90時間の同時通訳データ収集を行う.これまで収録したデータのアノテーションを含んだ整備を行う.並行して, Open subtitle等の多数話者の発話を含む映画データの字幕の研究を進める.また,最終年度として自動音声同時翻訳システム,ビデオコンテンツ字幕翻訳システムのプロトタイプシステムの構築,評価と改良を行う.
|
Research Products
(68 results)