• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2016 Fiscal Year Annual Research Report

日本語講義音声の英語字幕付き教材を生成するための音声翻訳に関する研究

Research Project

Project/Area Number 25280062
Research InstitutionToyohashi University of Technology

Principal Investigator

中川 聖一  豊橋技術科学大学, リーディング大学院教育推進機構, 教授 (20115893)

Co-Investigator(Kenkyū-buntansha) 秋葉 友良  豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
井佐原 均  豊橋技術科学大学, 情報メディア基盤センター, 教授 (20358881)
山本 一公  豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (40324230)
土屋 雅稔  豊橋技術科学大学, 情報メディア基盤センター, 准教授 (70378256)
Project Period (FY) 2013-04-01 – 2018-03-31
Keywords音声翻訳 / 音声認識 / 機械翻訳 / 日英翻訳 / 英日翻訳 / 講義音声 / 音声認識誤り
Outline of Annual Research Achievements

講義音声の翻訳には、講義音声の音声認識とその翻訳の二つの部分からなる。まず、音声認識に関しては、話者クラス情報をディープニューラルネットワークに補助情報として入力する方法を提案し、不特定話者の音声認識に関して有効性を示した。次に、ヒトの聴覚機能を模擬するために音声分折用のフィルタバンクのフィルタ形状を学習する方法を提案した。フィルタをディープニューラルネットワークによる音声認識の前処理として用い、識別学習によるフィルタ形状を学習することにより、認識率の向上を得た。
英日翻訳に関しては、音声認識誤りに対処するために、翻訳モデルの学習に用いるテキストベースの英語ー日本語対からなるパラレルコーパスに対して、テキストの代わりに英語コーパスの音声認識結果を使用する方法と、模擬的に英語音声認識を行って音声認識誤りを自動生成した結果を使用する方法を試みた。その結果、両手法とも翻訳精度の改善に役立つことを実証した。特に、音声認識を模擬する手法は、音声データを必要としない利点がある。
最後に、本手法を、本研究の課題である日本語講義音声の英語への翻訳に適用した。しかし、語順の自由な話し言葉である日本語の講義の翻訳は非常に難しく、ベースラインが悪くて、提案手法の有効性を示すには至らなかった。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

講義音声の認識に関しては、話者クラスの導入、フィルタ形状の識別学習など、新たな手法を提案し、有効性を示せた。
英語講義音声の日本語への翻訳に関しては、音声認識誤り対策法を提案し、有効性を示せた。ただし、日本語講義音声の英語への翻訳に関しては、ベースラインが悪くて、提案手法の有効性を示すには至らず、今後の課題として残った。

Strategy for Future Research Activity

英語講義音声の日本語への翻訳に関しては、英語の音声認識用および日本語への翻訳用の言語モデルは、それぞれ英語のNグラム、日本語のNグラムを使用してきた。最近、ニューラルネットワークに基づく言語モデルの有用性が示されていることから、後処理(リスコアリング)に、英語と日本語のLSTM(Long Short Term Memory)に基づく言語モデルを使用することを計画している。
また、日本語の講義音声の英語への翻訳に関しては、今まで考察してきた日本語の前処理(フィラーや言い直しの除去、語順の変更)、高頻度語句の英訳の登録法、音声認識誤りの対処法を見直す。

Causes of Carryover

本研究課題は、日本語講義音声の英語への翻訳が中心であったが、この課題が難しかったため、まず英語講義音声の日本語への翻訳の研究を進めてきた。これに関しては、高頻出句の人手による対訳の利用、音声認識を考慮したパラレルコーパスによる翻訳モデルの学習等により、成果が得られた。
これらの成果に基づき、日本語講義音声の英語への翻訳を試みたが、特段の効果が認められなかった。その理由は、ベースとなら日英翻訳の精度が低いためであると思われた。そのため、1年間研究期間を延長して、ベースとなる日英翻訳の精度を向上させ上で、提案法を適用する計画を立てた。そのため、今後の1年間の延期のための研究費を留保した。

Expenditure Plan for Carryover Budget

日本語講義音声の英語への翻訳のための、日英パラレルコーパスの整備費、評価実験のための謝金、成果発表のための論文校閲費・旅費などの使用を計画している。

  • Research Products

    (11 results)

All 2017 2016

All Journal Article (1 results) (of which Peer Reviewed: 1 results,  Open Access: 1 results) Presentation (10 results) (of which Int'l Joint Research: 5 results)

  • [Journal Article] 話者クラスタリングに基づく短時間発話音声認識2017

    • Author(s)
      関博史、榎並大介、朱発強、山本一公、中川聖一
    • Journal Title

      電子情報通信学会論文誌

      Volume: 100-D Pages: 81, 92

    • DOI

      10.14923/transinfj.2016JDP7063

    • Peer Reviewed / Open Access
  • [Presentation] 音声認識誤りを考慮した英語講義音声の日本語への音声翻訳システムの検討2017

    • Author(s)
      後藤統興、山本一公、中川聖一
    • Organizer
      言語処理学会
    • Place of Presentation
      筑波
    • Year and Date
      2017-03-16
  • [Presentation] DNNに基づくフィルタバンクの再学習による話者クラス適応の検討2017

    • Author(s)
      関博史、山本一公、中川聖一
    • Organizer
      日本音響学会、春季研究発表会
    • Place of Presentation
      川崎
    • Year and Date
      2017-03-15
  • [Presentation] A deep neural network integrated with filterbank learning for speech recognition2017

    • Author(s)
      H. Seki, K. Yamamoto, S. Nakagawa
    • Organizer
      Proc. IEEE ICASSP
    • Place of Presentation
      NewOrleans, USA
    • Year and Date
      2017-03-08
    • Int'l Joint Research
  • [Presentation] 英日講義音声翻訳に対する音声認識誤りを考慮したパラレルコーパスの利用2016

    • Author(s)
      後藤統興、山本一公、中川聖一
    • Organizer
      情報処理学会、音声言語情報処理研究会
    • Place of Presentation
      東京
    • Year and Date
      2016-12-20
  • [Presentation] Domain adaptation of a speech translation system for lectures by utilizing frequently appearing parallel phrases in-domain2016

    • Author(s)
      N. Goto, K. Yamamoto, S. Nakagawa
    • Organizer
      Proc. APSIPA
    • Place of Presentation
      Honkong
    • Year and Date
      2016-12-16
    • Int'l Joint Research
  • [Presentation] Developing corpus of lecture utterances aligned to slide components2016

    • Author(s)
      R. Minamiguchi, M. Tsuchiya
    • Organizer
      Proc. COLING Workshop on Asian Language Resources
    • Place of Presentation
      Osaka, Japan
    • Year and Date
      2016-12-12
    • Int'l Joint Research
  • [Presentation] 音声認識のためのDNNに基づくフィルタバンクの学習の検討2016

    • Author(s)
      関博史、山本一公、中川聖一
    • Organizer
      日本音響学会、秋季研究発表会
    • Place of Presentation
      富山
    • Year and Date
      2016-09-16
  • [Presentation] Effects of class-based statistical machine translation on unknown names2016

    • Author(s)
      H. Mizukami, T. Akiba
    • Organizer
      Proc. ICAICTA
    • Place of Presentation
      Penang, Malaysia
    • Year and Date
      2016-08-18
    • Int'l Joint Research
  • [Presentation] Extraction of phrases useful for machine translation2016

    • Author(s)
      K. Saito, E. Yamamoto, M. Ueno, K. Kanzaki, H. Isahara
    • Organizer
      Proc. ICAICTA
    • Place of Presentation
      Penang, Malaysia
    • Year and Date
      2016-08-17
    • Int'l Joint Research
  • [Presentation] 対象ドメインの高頻出句に対する人手対訳追加による講義音声翻訳の検討2016

    • Author(s)
      後藤統興、山本一公、中川聖一
    • Organizer
      情報処理学会、音声言語情報処理研究会
    • Place of Presentation
      東京
    • Year and Date
      2016-05-06

URL: 

Published: 2018-01-16  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi