• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Automatic generation of lecture's materials with Japanese caption based on English lecture's speech translation and speech summarization

Research Project

Project/Area Number 18H01062
Research Category

Grant-in-Aid for Scientific Research (B)

Allocation TypeSingle-year Grants
Section一般
Review Section Basic Section 09070:Educational technology-related
Research InstitutionChubu University

Principal Investigator

中川 聖一  中部大学, 工学部, 客員教授 (20115893)

Co-Investigator(Kenkyū-buntansha) 秋葉 友良  豊橋技術科学大学, 工学(系)研究科(研究院), 准教授 (00356346)
山本 一公  中部大学, 工学部, 准教授 (40324230)
Project Period (FY) 2018-04-01 – 2022-03-31
Project Status Granted (Fiscal Year 2021)
Budget Amount *help
¥17,420,000 (Direct Cost: ¥13,400,000、Indirect Cost: ¥4,020,000)
Fiscal Year 2021: ¥3,770,000 (Direct Cost: ¥2,900,000、Indirect Cost: ¥870,000)
Fiscal Year 2020: ¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2019: ¥3,640,000 (Direct Cost: ¥2,800,000、Indirect Cost: ¥840,000)
Fiscal Year 2018: ¥6,500,000 (Direct Cost: ¥5,000,000、Indirect Cost: ¥1,500,000)
Keywords英語の音声認識 / 講義・講演の要約 / 英日機械翻訳 / 英日音声翻訳 / 音声要約 / 講義音声・講演音声 / 字幕 / 音声翻訳 / 音声認識 / 英語講義・講演音声 / 字幕提示 / 英語講義音声 / 英語講演音声
Outline of Annual Research Achievements

本研究課題は、英語による講義・講演音声の認識、翻訳、要約という3つの要素技術からなる。
音声認識に関しては、従来から研究代表者らが開発しているDNN-HMMのハイブリッド方式の特徴抽出部のフィルタバンクのドメイン適応・話者適応の研究を行ってきた。今回は、日本語の音声認識ではあるが、高齢者音声の認識に本手法を適応し有効性を確認した。また、英語の講演音声の認識に関しては、一般ドメイン向きの音声認識システムを、少数の講演音声データにデータ拡張手法を適用し、これを学習データとして適応し、講演音声認識の精度向上を図った。
英語の講演音声の日本語への翻訳に関しては、講演のトピック情報を抽出し、それを翻訳対象文の先頭に追加する方法を試み有用性を示した。また、ニューラル機械翻訳に必要な英語とその日本語訳のペア集合が約22万文と少ないため、英語および日本語の単言語講演データを翻訳(逆翻訳)して、疑似的な英語ー日本語ペアデータを作成し、これを翻訳モデルの学習に利用する方法を開発してきた。2020-2021年度は、この方法を複数回繰り返し、徐々に疑似的なペアの品質を向上させ、翻訳モデルの性能を向上させる方法を実装した。この際、疑似ペアのバリエーションを増加させる手法を提案し、有効性を示した。また、これらの手法の改善理由を明らかにした。
音声要約に関しては、従来から重要文抽出型要約を開発してきた。2020-2021年度は、文の分散表現を用いた重要文/非重要文識別器のための学習データを増加させ、英語の講演・講義文に対して識別性能の向上を図った。また、従来の代表的な抽出型要約手法であるMMRに、文の分散表現と重要文確率を導入し、要約の改善を行った。これとは別の方法として、ニューラルネットワークによる抽象型要約を日本語の議会議事録に適用した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

コロナ禍の影響で、研究期間を延長した分、概ね初期の目標を達成した。英語の講演音声の認識に関しては、少量の講演データにデータ拡張法を適用し、学習データを増やすことにより認識率の向上を果たし、今後の更なる改善に見通しを得た。
英語の講演音声の日本語への翻訳に関しては、講演音声の英語ー日本語の対訳ペアが22万対と十分な量でないために、英語および日本語の単一言語の逆翻訳を用いて疑似的な英語ー日本語ペアを作成し、これを22万対に追加して翻訳モデルを学習する方法、講演内容のトピック情報を表す文ベクトルを翻訳対象文の単語列の先頭に付加する方法、講演データでない大量の英語ー日本語対訳データ(100万対)による翻訳モデルを初期値として、講演データで追加学習する方法(transfer learning)、などを試み、いずれも翻訳性能の向上につながることを示した。
英語の講義・講演音声の要約に関しては、BERTとよばれる文の分散表現を用いて、ニューラルネットワークによる重要文/非重要文の識別器を構築し、これによって得られる重要文確率を、従来手法であるMMR法に組み入れる手法を確立し、その有用性を示した。

以上のように、音声認識、翻訳、要約に関して、ほぼ研究計画通り成果を得ることができた。

Strategy for Future Research Activity

本研究課題は、英語音声の認識、翻訳、要約という3つの要素技術からなる。従って、最終年度もこれらの要素技術の精度向上を目指す。
英語の講演・講義音声の認識に関しては、ドメイン適応や話者適応のために、従来はフィルタの適応を行ってきたが、適応するパラメータ数が極端に少なく(これが利点でもあった)、適応の効果に限界があったので、フィルタと第1隠れ層ユニットとの重み(特徴抽出・特徴変換レベル層)も適応する方法を検討する。
英語の講義・講演音声の翻訳に関しては、トピックの分散表現の利用と逆翻訳によるデータ拡張の併用の効果を上げるために、英日翻訳モデルと日英翻訳モデルを同一の翻訳モデルで行う双方向翻訳モデルを構築し、このモデルにトピック情報やデータ拡張を組み入れる。これにより翻訳モデルの誤りに頑健にし、それぞれの効果を発揮させる。また、翻訳モデルとして最新のモデルであるBERT-fused Transformerモデルを採用し、我々の提案方法を実装する。また、翻訳対象の講義・講演音声に類似な単言語コーパスの収集によるデータ拡張により翻訳性能の向上を図る。
英語の講義・講演音声に対する要約に関しては、重要文抽出で得られる要約文には、話し言葉であるため、間投詞や言いよどみ、繰り返し、倒置などが混入しているため可読性に欠けるので、読みやすい表現に整形する手法を検討する。これには、ニューラルネットワークのBART等による抽象型要約の技術を導入する。

Report

(3 results)
  • 2020 Annual Research Report
  • 2019 Annual Research Report
  • 2018 Annual Research Report

Research Products

(31 results)

All 2022 2021 2020 2019 2018

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (28 results) (of which Int'l Joint Research: 3 results) Book (1 results)

  • [Journal Article] Discriminative Learning of Filterbank Layer within Deep Neural Network Based Speech Recognition for Speaker Adaptation2019

    • Author(s)
      SEKI Hiroshi、YAMAMOTO Kazumasa、AKIBA Tomoyosi、NAKAGAWA Seiichi
    • Journal Title

      IEICE Trans. Inf. & Syst.

      Volume: E102.D Issue: 2 Pages: 364-374

    • DOI

      10.1587/transinf.2018edp7252

      10.1587/transinf.2018EDP7252

    • NAID

      130007588873

    • ISSN
      0916-8532, 1745-1361
    • Related Report
      2018 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] 最近の音声言語処理研究の動向 - 筆者の音声認識、音声翻訳、話者認識の研究を中心として -2019

    • Author(s)
      中川聖一
    • Journal Title

      中部大学工学部紀要

      Volume: 54 Pages: 7-20

    • NAID

      120007116371

    • Related Report
      2018 Annual Research Report
    • Peer Reviewed / Open Access
  • [Presentation] 双方向翻訳モデルと反復的逆翻訳を用いた低資源言語に対するニューラル機械翻訳の性能向上2022

    • Author(s)
      B. T. Thanh, 秋葉友良、塚田元
    • Organizer
      言語処理学会、第28回年次大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] 入力側単言語資源と転移学習の利用による講演字幕を対象とした英日ニューラル機械翻訳の改善2022

    • Author(s)
      山岸勇輝、秋葉友良、塚田元
    • Organizer
      言語処理学会、第28回年次大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] 翻訳の品質評価に基づく動的な混成サンプリングによるNMTの双方向反復逆翻訳手法の改善2022

    • Author(s)
      森田知てる、秋葉友良、塚田元
    • Organizer
      言語処理学会、第28回年次大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] ニューラル機械翻訳のための日本語膠着語的性質を考慮したマルチタスク学習2022

    • Author(s)
      西田悠斗、秋葉友良、塚田元
    • Organizer
      言語処理学会、第28回年次大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] ラウンドトリップ翻訳を用いたニューラル機械翻訳のデータ拡張2022

    • Author(s)
      紺谷優志、秋葉友良、塚田元
    • Organizer
      言語処理学会、第28回年次大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] Iterative Back Translationは対訳語彙を獲得できるか?2022

    • Author(s)
      谷川琢磨、秋葉友良、塚田元
    • Organizer
      言語処理学会、第28回年次大会
    • Related Report
      2020 Annual Research Report
  • [Presentation] Iterative Back Translationと離散音声表現を用いた音声認識のためのデータ拡張2022

    • Author(s)
      高木景矢、秋葉友良、塚田元
    • Organizer
      日本音響学会春季研究発表会
    • Related Report
      2020 Annual Research Report
  • [Presentation] Improvement of elderly speech recognition using Gammatone filterbank adaptation2021

    • Author(s)
      K. Yamamoto, A. Ishiki, S. Nakagawa
    • Organizer
      Global Conference on Consumer Electronics
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Development of political QA systems targeted as assembly minutes based abstractive summarization2021

    • Author(s)
      T. Kawai, T. Akiba, S. Masuyama
    • Organizer
      Internatinal Conference on Advanced Informatics: Concepts, Theory and Applications
    • Related Report
      2020 Annual Research Report
    • Int'l Joint Research
  • [Presentation] Fine-Tuningと混成的な逆翻訳サンプリングに基づくNMTの双方向反復的教師なし適応の改善2021

    • Author(s)
      森田知、秋葉友良、塚田元
    • Organizer
      言語処理学会、第27回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] NMTの双方向反復的教師なし適応手法における初期対訳コーパスサイズの影響と翻訳モデル獲得に関する調査2021

    • Author(s)
      藤澤謙太、秋葉友良、塚田元
    • Organizer
      言語処理学会、第27回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] End-to-End音声翻訳のためのデータ拡張の検討2021

    • Author(s)
      高木景矢、秋葉友良、塚田元
    • Organizer
      言語処理学会、第27回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] ボトルネック特徴量の合成に基づく音声認識のためのデータ拡張の検討2020

    • Author(s)
      高木景矢、秋葉友良、塚田元
    • Organizer
      日本音響学会、春季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] End-to-Endとカスケード方式のアンサンブルによる音声翻訳の検討2020

    • Author(s)
      民谷慎一郎、秋葉友良、塚田元
    • Organizer
      日本音響学会、春季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 文の分散表現を利用したMMR法に基づく講義・講演ドキュメントの要約2020

    • Author(s)
      早川由倭、山本一公、中川聖一
    • Organizer
      言語処理学会、第26回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 汎用分散表現BERTを用いたニューラル機械翻訳の検討2020

    • Author(s)
      高橋竜、秋葉友良、塚田元
    • Organizer
      言語処理学会、第26回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] ニューラル機械翻訳における双方向反復的教師なし適応の改善2020

    • Author(s)
      藤澤謙太、秋葉友良、塚田元
    • Organizer
      言語処理学会、第26回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 逆翻訳を用いたデータ拡張と転移学習を利用した英日講演字幕翻訳の改善2020

    • Author(s)
      山岸勇輝、秋葉友良、塚田元
    • Organizer
      言語処理学会、第26回年次大会
    • Related Report
      2019 Annual Research Report
  • [Presentation] English-Japanese Machine Translation for Lecture Subtitles Using Back-Translation and Transfer Learning2020

    • Author(s)
      Yuuki Yamagishi, Tomoyosi Akiba, Hajime Tsukada
    • Organizer
      Proc. IEEE 9-th Global Conf. on Consumer Electronics
    • Related Report
      2019 Annual Research Report
  • [Presentation] 複数の音声認識結果を用いた系列変換モデルによる音声翻訳システムの検討2019

    • Author(s)
      民谷慎一郎、秋葉友良、塚田元
    • Organizer
      日本音響学会、秋季研究発表会
    • Related Report
      2019 Annual Research Report
  • [Presentation] 局所的トピック情報を利用した論文抄録(ASPEC)の英日機械翻訳2019

    • Author(s)
      渡邊拓斗、高田凌平、佐橋広也、山本一公、秋葉友良、中川聖一
    • Organizer
      言語処理学会、第25回年次大会
    • Related Report
      2018 Annual Research Report
  • [Presentation] 科学技術論文抄録と講義音声の英日機械翻訳のリスコアリングの検討2019

    • Author(s)
      佐橋広也、秋葉友良、中川聖一
    • Organizer
      言語処理学会、第25回年次大会
    • Related Report
      2018 Annual Research Report
  • [Presentation] ニューラル機械翻訳におけるトピック情報の利用2019

    • Author(s)
      高田凌平、秋葉友良、塚田元
    • Organizer
      言語処理学会、第25回年次大会
    • Related Report
      2018 Annual Research Report
  • [Presentation] フィルタバンクと活性化関数の出力値の話者適応に基づくDNN-HMMによる音声認識2019

    • Author(s)
      中島貫太、関博史、山本一公、中川聖一
    • Organizer
      電子情報通信学会、総合大会
    • Related Report
      2018 Annual Research Report
  • [Presentation] Encoder-decoderネットワークの枠組みにおけるフィルタバンク層の雑音適応の検討2019

    • Author(s)
      関博史、山本一公、秋葉友良、中川聖一
    • Organizer
      日本音響学会、春季研究発表会
    • Related Report
      2018 Annual Research Report
  • [Presentation] Rapid speaker adaptation of neural network based filterbank layer for automatic speech recognition2018

    • Author(s)
      Hiroshi Seki, Kazumasa Yamamoto, Tomoyosi Akiba, Seiichi Nakagawa
    • Organizer
      IEEE on Spoken Language Technology Workshop
    • Related Report
      2018 Annual Research Report
    • Int'l Joint Research
  • [Presentation] 統計的機械翻訳とニューラル翻訳による翻訳候補の文の分散表現に基づくリスコアリングの検討2018

    • Author(s)
      佐橋広也、西村友樹、秋葉友良、中川聖一
    • Organizer
      情報処理学会、音声言語情報処理研究会
    • Related Report
      2018 Annual Research Report
  • [Presentation] 双方向の逆翻訳を利用したニューラル機械翻訳の教師なし適応の検討2018

    • Author(s)
      森田知煕、秋葉友良、塚田元
    • Organizer
      情報処理学会、第5回自然言語処理シンポジュウム
    • Related Report
      2018 Annual Research Report
  • [Book] 音声言語処理と自然言語処理(増補)2018

    • Author(s)
      中川聖一(編著)、小林聡、峯松信明、宇津呂武仁、秋葉友良、北岡教英、山本幹雄、甲斐充彦、山本一公、土屋雅稔(共著)
    • Total Pages
      288
    • Publisher
      コロナ社
    • ISBN
      9784339028881
    • Related Report
      2018 Annual Research Report

URL: 

Published: 2018-04-23   Modified: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi