• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2020 年度 実績報告書

英語講義音声の音声翻訳と音声要約に基づく日本語字幕付き教材の自動生成に関する研究

研究課題

研究課題/領域番号 18H01062
研究機関中部大学

研究代表者

中川 聖一  中部大学, 工学部, 客員教授 (20115893)

研究分担者 秋葉 友良  豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公  中部大学, 工学部, 教授 (40324230)
研究期間 (年度) 2018-04-01 – 2022-03-31
キーワード英語の音声認識 / 英日音声翻訳 / 音声要約 / 英日機械翻訳 / 講義音声・講演音声 / 字幕
研究実績の概要

本研究課題は、英語による講義・講演音声の認識、翻訳、要約という3つの要素技術からなる。
音声認識に関しては、従来から研究代表者らが開発しているDNN-HMMのハイブリッド方式の特徴抽出部のフィルタバンクのドメイン適応・話者適応の研究を行ってきた。今回は、日本語の音声認識ではあるが、高齢者音声の認識に本手法を適応し有効性を確認した。また、英語の講演音声の認識に関しては、一般ドメイン向きの音声認識システムを、少数の講演音声データにデータ拡張手法を適用し、これを学習データとして適応し、講演音声認識の精度向上を図った。
英語の講演音声の日本語への翻訳に関しては、講演のトピック情報を抽出し、それを翻訳対象文の先頭に追加する方法を試み有用性を示した。また、ニューラル機械翻訳に必要な英語とその日本語訳のペア集合が約22万文と少ないため、英語および日本語の単言語講演データを翻訳(逆翻訳)して、疑似的な英語ー日本語ペアデータを作成し、これを翻訳モデルの学習に利用する方法を開発してきた。2020-2021年度は、この方法を複数回繰り返し、徐々に疑似的なペアの品質を向上させ、翻訳モデルの性能を向上させる方法を実装した。この際、疑似ペアのバリエーションを増加させる手法を提案し、有効性を示した。また、これらの手法の改善理由を明らかにした。
音声要約に関しては、従来から重要文抽出型要約を開発してきた。2020-2021年度は、文の分散表現を用いた重要文/非重要文識別器のための学習データを増加させ、英語の講演・講義文に対して識別性能の向上を図った。また、従来の代表的な抽出型要約手法であるMMRに、文の分散表現と重要文確率を導入し、要約の改善を行った。これとは別の方法として、ニューラルネットワークによる抽象型要約を日本語の議会議事録に適用した。

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

コロナ禍の影響で、研究期間を延長した分、概ね初期の目標を達成した。英語の講演音声の認識に関しては、少量の講演データにデータ拡張法を適用し、学習データを増やすことにより認識率の向上を果たし、今後の更なる改善に見通しを得た。
英語の講演音声の日本語への翻訳に関しては、講演音声の英語ー日本語の対訳ペアが22万対と十分な量でないために、英語および日本語の単一言語の逆翻訳を用いて疑似的な英語ー日本語ペアを作成し、これを22万対に追加して翻訳モデルを学習する方法、講演内容のトピック情報を表す文ベクトルを翻訳対象文の単語列の先頭に付加する方法、講演データでない大量の英語ー日本語対訳データ(100万対)による翻訳モデルを初期値として、講演データで追加学習する方法(transfer learning)、などを試み、いずれも翻訳性能の向上につながることを示した。
英語の講義・講演音声の要約に関しては、BERTとよばれる文の分散表現を用いて、ニューラルネットワークによる重要文/非重要文の識別器を構築し、これによって得られる重要文確率を、従来手法であるMMR法に組み入れる手法を確立し、その有用性を示した。

以上のように、音声認識、翻訳、要約に関して、ほぼ研究計画通り成果を得ることができた。

今後の研究の推進方策

本研究課題は、英語音声の認識、翻訳、要約という3つの要素技術からなる。従って、最終年度もこれらの要素技術の精度向上を目指す。
英語の講演・講義音声の認識に関しては、ドメイン適応や話者適応のために、従来はフィルタの適応を行ってきたが、適応するパラメータ数が極端に少なく(これが利点でもあった)、適応の効果に限界があったので、フィルタと第1隠れ層ユニットとの重み(特徴抽出・特徴変換レベル層)も適応する方法を検討する。
英語の講義・講演音声の翻訳に関しては、トピックの分散表現の利用と逆翻訳によるデータ拡張の併用の効果を上げるために、英日翻訳モデルと日英翻訳モデルを同一の翻訳モデルで行う双方向翻訳モデルを構築し、このモデルにトピック情報やデータ拡張を組み入れる。これにより翻訳モデルの誤りに頑健にし、それぞれの効果を発揮させる。また、翻訳モデルとして最新のモデルであるBERT-fused Transformerモデルを採用し、我々の提案方法を実装する。また、翻訳対象の講義・講演音声に類似な単言語コーパスの収集によるデータ拡張により翻訳性能の向上を図る。
英語の講義・講演音声に対する要約に関しては、重要文抽出で得られる要約文には、話し言葉であるため、間投詞や言いよどみ、繰り返し、倒置などが混入しているため可読性に欠けるので、読みやすい表現に整形する手法を検討する。これには、ニューラルネットワークのBART等による抽象型要約の技術を導入する。

  • 研究成果

    (9件)

すべて 2022 2021

すべて 学会発表 (9件) (うち国際学会 2件)

  • [学会発表] 双方向翻訳モデルと反復的逆翻訳を用いた低資源言語に対するニューラル機械翻訳の性能向上2022

    • 著者名/発表者名
      B. T. Thanh, 秋葉友良、塚田元
    • 学会等名
      言語処理学会、第28回年次大会
  • [学会発表] 入力側単言語資源と転移学習の利用による講演字幕を対象とした英日ニューラル機械翻訳の改善2022

    • 著者名/発表者名
      山岸勇輝、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第28回年次大会
  • [学会発表] 翻訳の品質評価に基づく動的な混成サンプリングによるNMTの双方向反復逆翻訳手法の改善2022

    • 著者名/発表者名
      森田知てる、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第28回年次大会
  • [学会発表] ニューラル機械翻訳のための日本語膠着語的性質を考慮したマルチタスク学習2022

    • 著者名/発表者名
      西田悠斗、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第28回年次大会
  • [学会発表] ラウンドトリップ翻訳を用いたニューラル機械翻訳のデータ拡張2022

    • 著者名/発表者名
      紺谷優志、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第28回年次大会
  • [学会発表] Iterative Back Translationは対訳語彙を獲得できるか?2022

    • 著者名/発表者名
      谷川琢磨、秋葉友良、塚田元
    • 学会等名
      言語処理学会、第28回年次大会
  • [学会発表] Iterative Back Translationと離散音声表現を用いた音声認識のためのデータ拡張2022

    • 著者名/発表者名
      高木景矢、秋葉友良、塚田元
    • 学会等名
      日本音響学会春季研究発表会
  • [学会発表] Improvement of elderly speech recognition using Gammatone filterbank adaptation2021

    • 著者名/発表者名
      K. Yamamoto, A. Ishiki, S. Nakagawa
    • 学会等名
      Global Conference on Consumer Electronics
    • 国際学会
  • [学会発表] Development of political QA systems targeted as assembly minutes based abstractive summarization2021

    • 著者名/発表者名
      T. Kawai, T. Akiba, S. Masuyama
    • 学会等名
      Internatinal Conference on Advanced Informatics: Concepts, Theory and Applications
    • 国際学会

URL: 

公開日: 2022-12-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi