2019 Fiscal Year Annual Research Report
Next generation speech translation research
Project/Area Number |
17H06101
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
中村 哲 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
|
Co-Investigator(Kenkyū-buntansha) |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
戸田 智基 名古屋大学, 情報基盤センター, 教授 (90403328)
森島 繁生 早稲田大学, 理工学術院, 教授 (10200411)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
松本 裕治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (10211575)
須藤 克仁 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
サクリアニ サクティ 奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)
吉野 幸一郎 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70760148)
田中 宏季 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (10757834)
|
Project Period (FY) |
2017-05-31 – 2022-03-31
|
Keywords | 音声翻訳 |
Outline of Annual Research Achievements |
課題①A)雑音下音声認識及びその前処理の音声強調処理に関し、独立深層学習行列分析(IDLMA)を提案した。B)単語単位のEnd-to-End音声認識を提案し、従来比30倍以上の高速化を実現した。また,音声認識と音声合成を人間の聴覚と発声器官のように連携させてモデル学習するMachine Speech Chainを提案し有効性を示した.さらに深層学習ベースの新たな漸進的音声認識,音声合成を提案した.C)入力に対して適応的な訳出遅延が可能な新しい方式を考案し,漸進的翻訳の実現可能性を示した.また同時通訳調の順送りの翻訳文を生成する方式を考案し,翻訳結果を順送りの訳に近づけられることを示した.D)機械翻訳の評価において訳出の長さを制御することで字幕等制約のある状況下での翻訳の実現や訳抜けや重複訳の解消を目指す手法の検討を行い,効果を確認した.E)対話制御に関わる多様なモダリティの情報を処理する研究開発を行った. 課題②A)パラ言語情報を保持したまま音声翻訳を実現するため新たな原言語音声から対象言語音声へ直接翻訳する手法について研究した.従来の類似言語間の直接翻訳でなく異なる構造の言語間でも直接音声翻訳を実現する手法を提案した.B)異なる言語の音声データを用いた学習を可能とする統計的声質変換技術を構築するとともに、深層波形生成モデルの導入による高品質化を達成した. 課題③A)奈良先端大の講義アーカイブシステムで翻訳字幕付与の自動化を実現した.B)音声画像翻訳の実現に向けて、特定人物の顔と全身のモデルをインスタントに自動生成し、任意の翻訳言語にシンクロさせて個性を保持したまま発話するアバタ生成技術を発展させた. 課題④同時通訳者の注意に基づく認知負荷の計測に関して取り組んだ. 課題⑤実際の統合システムとして実現するため,パイプ接続型・クライアントサーバ型の2種類のシステムを開発した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
①深層学習に基づく漸進的な音声認識と音声合成,構造が離れた言語間においても適応的に翻訳と翻訳待機を行う深層学習に基づく翻訳方法を構築した.また,これらをつなぎ合わせ第一次の深層学習ベースの自動音声同時翻訳システムプロトタイプを構築した.②強調情報について,LSTMニューラルネットを用いて強調情報を注意情報として目的言語に利用してより自然な強調情報の言語間変換を行う方法を提案し有効性を示した.さらに従来の類似言語間の直接翻訳でなく異なる構造の言語間でも直接音声から音声に翻訳を実現する手法も提案した.感情を含む音声データの収集を進めて感情の音声翻訳に展開できる状況にある.また,言語の壁を越えて話者性を制御するための基盤技術となる音声変換技術に対して、異なる言語の音声データを用いた学習を可能とする統計的声質変換技術を構築するとともに、深層波形生成モデルの導入による高品質化を達成しており,パラ言語音声翻訳の研究は順調である.③大学の講義アーカイブの翻訳字幕付与の自動化を実現し,奈良先端大の授業アーカイブシステムにおいて字幕表示サービスを開始するに至った.また,音声画像翻訳を実現する上でコアな技術となる人物のインスタントモデリング技術に関して、1枚の顔画像のみから顔の3次元形状とアルベド、ディスプレースメント、スペキュラー情報を推定して、新しい照明環境下においてアバタをフォトリアリスティックに実現することを可能とした。④同時通訳中の作業負荷に関して, 作業記憶の認知負荷と関連すると報告されているASSRを同時通訳中に呈示し, ASSRから誘発されるEEG信号の位相同期を用いて条件間を統計的に比較した結果, 同時通訳中の認知負荷の定量化に関して ASSR が有効であることが示唆された.⑤R1年度は講演同時通訳および日本語記者会見の同時通訳の合計262時間分を収録した.
|
Strategy for Future Research Activity |
①雑音がある音声においても自動音声同時翻訳を行うため,IDLMA法を音声認識性能改善に向けて改良する.また,漸進的音声認識の性能改善,遅延の改善,漸進的音声合成の性能改善,遅延の改善を行い,IDLMA法と漸進的音声認識の統合を進める.さらに,漸進的機械翻訳の性能改善,遅延の改善をさらに進め,通訳者の機能モデルを参考に次のフレーズを予測する方法,一発話を複数文に分けて通訳する方法について検討する.また,通訳品質評価法に関する研究を進め,漸進的機械翻訳モデルの最適化を進める. ②パラ言語音声翻訳については感情音声コーパスを収集し,現在の強調翻訳方式をベースに感情音声の翻訳を研究する. ③大学の講義などのビデオコンテンツの字幕翻訳の改良を進める.講義に用いられるプレゼンテーションコンテンツや,講義の事前情報の利用による改良について研究する.また,翻訳に要約を適用し,要点の翻訳字幕生成を研究する.音声画像翻訳については,一枚の画像から発話顔生成するシステムを自動音声同時翻訳システムに統合する研究を進める. ④同時通訳中の作業負荷に関して, 作業記憶の認知負荷の定量化の正確な予測法に関する研究を継続する.この認知負荷を用いて,通訳者の負荷,通訳者の熟達度などの計測の研究を行う.さらに,認知負荷のリアルタイム測定を用いて通訳者の支援を行う研究を進める. ⑤50時間の同時通訳データ収集を行う.多言語の会議の自動通訳に向けたデータ収集,書き起こし,翻訳についての作業を開始する.並行して, Open subtitle 等の多数話者の発話を含む映画データの字幕の研究を進める. また,令和元年度に構築した自動音声同時翻訳システム,ビデオコンテンツ字幕翻訳システムの改良について研究を行い,プロトタイプの評価を進める.
|
Research Products
(99 results)
-
-
[Journal Article] Machine Speech Chain2020
Author(s)
Andros Tjandra, Sakriani Sakti, Satoshi Nakamura
-
Journal Title
IEEE/ACM Transactions on Audio, Speech, and Language Processing
Volume: -
Pages: -
DOI
Peer Reviewed / Open Access / Int'l Joint Research
-
-
-
-
-
-
-
-
-
-
[Journal Article] Independent deeply learned matrix analysis for determined audio source separation2019
Author(s)
Naoki Makishima, Shinichi Mogami, Norihiro Takamune, Daichi Kitamura,Hayato Sumino, Shinnosuke Takamichi, Hiroshi Saruwatari, Nobutaka Ono
-
Journal Title
IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING
Volume: vol. 27, no. 10
Pages: 1601-1615
DOI
Peer Reviewed / Open Access / Int'l Joint Research
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] The Zero Resource Speech Challenge 2019: TTS Without T2019
Author(s)
Ewan Dunbar, Robin Algayres, Julien Karadayi, Mathieu Bernard, Juan Benjumea, Xuan-Nga Cao, Lucie Miskic, Charlotte Dugrain, Lucas Ondel, Alan W. Black, Laurent Besacier, Sakriani Sakti, Emmanuel Dupoux
Organizer
Interspeech2019
Int'l Joint Research
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Book] 次世代音声言語研究シンポジウム2019講演資料集2019
Author(s)
中村哲, 須藤克仁, Sakriani Sakti, 田中宏季, 河原達也, 猿渡洋, 森島繁生, 戸田智基, 高道慎之介, Graham Neubig, Alex Waibel, 松下佳世, 山田優
Total Pages
195
Publisher
-
-
-
-