• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2019 年度 実績報告書

英語講義音声の音声翻訳と音声要約に基づく日本語字幕付き教材の自動生成に関する研究

研究課題

研究課題/領域番号 18H01062
研究機関中部大学

研究代表者

中川 聖一  中部大学, 工学部, 特任教授 (20115893)

研究分担者 秋葉 友良  豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公  中部大学, 工学部, 准教授 (40324230)
研究期間 (年度) 2018-04-01 – 2022-03-31
キーワード音声認識 / 音声翻訳 / 音声要約 / 字幕 / 英語講義音声 / 英語講演音声
研究実績の概要

本研究は、英語の講義音声を要約して日本語の字幕を生成するシステムを開発するのが目的である。そのために、英語の音声認識、英語の要約、英語から日本語への翻訳の3つの要素技術を開発する必要がある。
英語の音声認識技術に関しては、ディープニューラルネットワークと隠れマルコフモデルを用いたDNN-HMMの枠組みで英語音声認識技術の開発を進めた。認識性能の改善を図るために、特徴抽出のためのフィルタバンク層の適応学習方法の研究を進めた。また、音声認識と機械翻訳を用いて音声翻訳を行う二つの方式による翻訳結果を統合する方式を検討した。一つは従来の音声認識と機械翻訳を縦続接続する方式で、もう一つがEnd-to-End方式である。
機械翻訳技術に関しては、講義や講演音声のような話し言葉の英語文と日本語文のペアからなる大規模パラレルコーパスがないため、書き言葉のパラレルコーパスをもとに翻訳モデルを学習し、これを用いて日本語を英語に逆翻訳して、疑似的な話し言葉の英語ー日本語のパラレルコーパスを作成する基本技術を開発した。
要約技術に関しては、従来の文間の類似度に基づく抽出型要約であるMMR(Maximum Marginal Relevance)法を改善した。すなわち、機械翻訳システムのEncoderの隠れベクトルを文のベクトル表現とし、文間の類似度に使用した。また、最近自然言語処理に有用となっているBERTによる文の分散表現を文間の類似度に使用する方法と、重要文と非重要文の判別に使用する方法を開発した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本研究は、英語の講義音声を要約して日本語の字幕を生成するシステムを開発するのが目的である。そのために、英語の音声認識、英語の要約、英語から日本語への翻訳の3つの要素技術を開発する必要がある。
まず、英語の講義・講演音声の認識に関しては、ディープニューラルネットワークと隠れマルコフモデルを接続したハイブリッド方式を採用して、特に特徴抽出層に対応するフィルタバンクのパラメータの学習法を組み込む方法を検討した。これにより、音声認識モデルを実環境の講義・講演音声の環境に素早く適応することができる。
機械翻訳に関しては、話し言葉の英語文とその日本語訳のペアからなる大規模パラレルコーパスがない状況で、書き言葉の大規模パラレルコーパスから学習した翻訳システムを用いて、話し言葉の日本語を英語へ翻訳することによって疑似的な話し言葉の大規模パラレルコーパスを作成する基本技術を開発した。この操作を繰り返すことによって、翻訳性能が徐々に改善されることを示した。
要約技術に関しては、重要な文を抽出することによって要約を行う抽出型要約の代表的な方法であるMMR(Maximum Merginal Relevance)法を改善した。すなわち、従来の単語の出現頻度に基づく文間の類似度の代わりに、機械翻訳システムやBERTから得られる文の分散表現による文間の類似度を用いるように変更した。
音声翻訳システムに関しては、音声認識と機械翻訳を従属に接続する方式とEnd-to-Endで音声認識と機械翻訳を一体化する方式のそれぞれの翻訳結果を統合する方法を開発した。

今後の研究の推進方策

本研究は、英語の講義音声を要約して日本語の字幕を生成するシステムを開発するのが目的である。そのために、英語の音声認識、英語の要約、英語から日本語への翻訳の3つの要素技術を開発する必要がある。
それぞれの要素技術の開発に関しては、概ね計画通りに進んだと考えている。今後は、話し言葉である英語の講義・講演音声が対象であることを意識した研究を進めていく予定である。例えば、要約に関しては、間投詞や言い直し、言い淀み等の冗長表現の除去、音声認識に関しては、実環境への対処や音声認識誤りの対処、翻訳に関しては、話し言葉のパラレルコーパス不足への対処や翻訳誤りの対処などである。また、各手法の評価でも講義・講演音声を対象としていく予定である。

  • 研究成果

    (11件)

すべて 2021 2020 2019

すべて 学会発表 (11件)

  • [学会発表] Fine-Tuningと混成的な逆翻訳サンプリングに基づくNMTの双方向反復的教師なし適応の改善2021

    • 著者名/発表者名
      森田知、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第27回年次大会
  • [学会発表] NMTの双方向反復的教師なし適応手法における初期対訳コーパスサイズの影響と翻訳モデル獲得に関する調査2021

    • 著者名/発表者名
      藤澤謙太、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第27回年次大会
  • [学会発表] End-to-End音声翻訳のためのデータ拡張の検討2021

    • 著者名/発表者名
      高木景矢、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第27回年次大会
  • [学会発表] ボトルネック特徴量の合成に基づく音声認識のためのデータ拡張の検討2020

    • 著者名/発表者名
      高木景矢、秋葉友良、塚田元
    • 学会等名
      日本音響学会、春季研究発表会
  • [学会発表] End-to-Endとカスケード方式のアンサンブルによる音声翻訳の検討2020

    • 著者名/発表者名
      民谷慎一郎、秋葉友良、塚田元
    • 学会等名
      日本音響学会、春季研究発表会
  • [学会発表] 文の分散表現を利用したMMR法に基づく講義・講演ドキュメントの要約2020

    • 著者名/発表者名
      早川由倭、山本一公、中川聖一
    • 学会等名
      言語処理学会、第26回年次大会
  • [学会発表] 汎用分散表現BERTを用いたニューラル機械翻訳の検討2020

    • 著者名/発表者名
      高橋竜、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第26回年次大会
  • [学会発表] ニューラル機械翻訳における双方向反復的教師なし適応の改善2020

    • 著者名/発表者名
      藤澤謙太、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第26回年次大会
  • [学会発表] 逆翻訳を用いたデータ拡張と転移学習を利用した英日講演字幕翻訳の改善2020

    • 著者名/発表者名
      山岸勇輝、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第26回年次大会
  • [学会発表] English-Japanese Machine Translation for Lecture Subtitles Using Back-Translation and Transfer Learning2020

    • 著者名/発表者名
      Yuuki Yamagishi, Tomoyosi Akiba, Hajime Tsukada
    • 学会等名
      Proc. IEEE 9-th Global Conf. on Consumer Electronics
  • [学会発表] 複数の音声認識結果を用いた系列変換モデルによる音声翻訳システムの検討2019

    • 著者名/発表者名
      民谷慎一郎、秋葉友良、塚田元
    • 学会等名
      日本音響学会、秋季研究発表会

URL: 

公開日: 2021-12-27  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi