2017 Fiscal Year Annual Research Report
Next generation speech translation research
Project/Area Number |
17H06101
|
Research Institution | Nara Institute of Science and Technology |
Principal Investigator |
中村 哲 奈良先端科学技術大学院大学, データ駆動型サイエンス創造センター, 教授 (30263429)
|
Co-Investigator(Kenkyū-buntansha) |
河原 達也 京都大学, 情報学研究科, 教授 (00234104)
猿渡 洋 東京大学, 大学院情報理工学系研究科, 教授 (30324974)
森島 繁生 早稲田大学, 理工学術院, 教授 (10200411)
戸田 智基 名古屋大学, 情報基盤センター, 教授 (90403328)
松本 裕治 奈良先端科学技術大学院大学, 先端科学技術研究科, 教授 (10211575)
須藤 克仁 奈良先端科学技術大学院大学, 先端科学技術研究科, 准教授 (00396152)
サクリアニ サクティ 奈良先端科学技術大学院大学, 先端科学技術研究科, 特任准教授 (00395005)
吉野 幸一郎 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (70760148)
田中 宏季 奈良先端科学技術大学院大学, 先端科学技術研究科, 助教 (10757834)
高道 慎之介 東京大学, 大学院情報理工学系研究科, 助教 (90784330)
|
Project Period (FY) |
2017-05-31 – 2022-03-31
|
Keywords | 音声翻訳 |
Outline of Annual Research Achievements |
①A)教師無し手法である独立低ランク行列分析に関して、そのスパース性を制御できるモデル(t分布・一般化ガウス分布)へ拡張し、スパース性付与が雑音抑圧能力向上に寄与することを実証。B)音響モデルと言語モデルをニューラルネットワークで統合的に内包した単語単位のEnd-to-End (Acoustic-to-Word) モデルを実現。MNMFを用いた雑音抑圧法の研究。C)統語的距離がある日英のEnd-to-Endアテンションベースの同時通訳システムを構築。半教師学習が可能なマシンスピーチチェーンを開発。D)多言語機械翻訳における原言語側のデータ欠落を特殊記号で補う手法を提案し、機械翻訳精度を改善。E)対話翻訳のデータセットを構築しIWSLT2017において公開。対話翻訳特有の現象について分析。 ②A)深層学習を用いて強調などの非言語情報に対応した音声翻訳手法を提案し、従来手法を大きく上回る翻訳結果を得た。B)音声波形モデリングに基づく統計的声質変換技術として、信号処理に基づく音声波形加工処理と深層学習に基づく音声波形生成処理に関する研究を進め、基盤技術を大いに改善。 ③口内部の不自然さを払拭すべく、歯形モデルの生成、発話時口内部のビデオシーケンスのデータベース化、リップシンクの口形状と同期した口内部映像の合成により、パッチベースのポアソンイメージエディティングの手法で実写クオリティの表情合成システムを開発。音声信号からリップシンクをリミテッドアニメ風に実現するVoiceAnimatorシステムを実現。 ④リアルタイムのユーザの状態推定を目指し脳波からの違和感を検出。意味違反および統語違反状態を意図的に作り出し、被験者に聞いてもらう実験で、有意な事象関連電位の出現および6割程度での機械学習モデルによる意味違反検出に成功。 ⑤学術シンポジウムの日英講演の同時通訳コーパス約5.5時間分を構築。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
常時音声認識において従来と全く異なる認識方式を考案したことなど、一部、当初の計画以上の進展があったが、それ以外についてはおおむね計画通りに研究が進んでいる。
|
Strategy for Future Research Activity |
①雑音抑制では、事前に用意された音源データを活用するため、独立低ランク行列分析における音源モデルパラメータ推定部をDNNによる推論に置き換える作業を進め、DNNとの融合を行う。スピーチチェーンの改良。英日間の機械翻訳における性能の検証。データ欠落を補う手法のさらなる性能向上。機械翻訳の基本方式の検討。対話翻訳特有の現象を考慮した翻訳手法を検討。翻訳の評価という観点で対話状態を用いるため対話状態付きの対訳データセットを構築。 ② 感情翻訳など新たな特性をシステムに導入する。深層学習に基づく音声波形生成処理の改善に取り組むとともに,声質変換処理へと導入することで,高精度な声質変換システムの構築を目指す。Voice Conversion Challenge 2018に参加し、構築したシステムの性能を明らかにする。③深層学習ベースの音声画像翻訳の手法に取り組む。④違和感検出モデルのさらなる改良、および違和感検出精度の向上を目指す。また同時通訳作業中の聴取負荷の測定実験を始める。⑤大規模な同時通訳コーパス構築のための体制を整備し100時間を超えるコーパス整備を行う。
|
Research Products
(51 results)