• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2021 Fiscal Year Research-status Report

オンライン講義の学びを活性化するソーシャルアノテーションに基づく講義要約システム

Research Project

Project/Area Number 21K13641
Research InstitutionAnan National College of Technology

Principal Investigator

太田 健吾  阿南工業高等専門学校, 創造技術工学科, 准教授 (80712801)

Project Period (FY) 2021-04-01 – 2024-03-31
Keywords音声認識 / 音声要約 / ソーシャルアノテーション / 教育工学 / オンライン講義 / 講義コンテンツ
Outline of Annual Research Achievements

本研究では、オンライン講義の動画やライブ配信に付与された学生のリアクション(投稿コメントや「いいね」など)と、講師の作成した講義コンテンツ(講義スライドやレジュメなど)を学習データに活用することで、講義音声の音声認識(自動書き起こし)と自動要約(重要な部分の自動抽出)を高精度化することを目指している。2021年度は、以下の研究内容を実施した。
【内容1】講義音声のような話し言葉を対象とする音声認識では、フィラー(「えっと」「あのー」といった、場繋ぎ的に発声される間投詞)や言い淀みをはじめとする非流暢的音響特徴が誤認識の主要な原因の一つになっている。こうした話し言葉特有の問題をEnd-to-End型の音声認識で考慮するために、非流暢ラベルを用いる手法を提案した。具体的には、音声認識モデルの学習に用いる書き起こしデータのうち、フィラーや言い淀みに対応する箇所をそれぞれ単一のシンボルに置き換えた上で、文字単位の音声認識モデルを Joint CTC-Attention Transformer で構築した。これにより、非流暢な入力音声に対し、言い淀みを整形した認識結果を得ることができる。
【内容2】講義音声のような専門性の高い発話内容を含む音声を対象とする音声認識では、認識対象の話題(ターゲットドメイン)に関連した専門用語などを高精度に認識するために、ターゲットドメインの学習データと、一般的なドメインの大規模な学習データをそれぞれ効果的に利用することが重要となる。このようなデータを併用する方法として、ターゲットドメインのデータから学習した言語モデルを音声認識モデルと統合する Shallow Fusion などが提案されてきたが、効果は限定的であった。そこで、Shallow Fusion を確率的に改善した Density Ratio Approach の考え方を応用した手法を提案した。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

オンライン講義の講義音声を対象とする音声認識では、フィラーや言い淀みといった話し言葉特有の問題と、専門性の高い発話内容(専門用語の頻出や数式の読み上げなど)が大きな問題となる。初年度である2021年度は、これら2つの問題に対応する手法を提案し、それぞれ国内会議および査読付き国際会議で発表することができた。話し言葉特有の問題については、非流暢ラベルを用いた手法を導入することで、音声認識モデルがフィラーや言い淀みの出現傾向などを正しく学習できていることが確認できており、この認識結果からラベル部分を削除することで、非流暢発話から言い淀みが整形された目的文を獲得できると考えられる。また、専門性の高い発話に対応するためのターゲットドメインの学習データの活用法については、Density Ratio Approachを応用した手法を導入することで、既存手法とほぼ同等の音声認識精度が得られているが、すでに高精度な認識が可能な評価タスクであったことから、効果が限定的であった可能性があると考えられる。現在、より高難度の認識タスクにおける評価を行う予定であり、その準備が整いつつある。以上より、おおむね順調に進展していると考えられる。 ただし、今後の研究で利用するためのオンライン講義やソーシャルアノテーションのデータ収集については、新型コロナウイルス感染症の感染拡大による影響の予測が難しい状況にあり、柔軟に対応していく必要があると考えている。

Strategy for Future Research Activity

2022年度は、これまでに提案してきた、講義音声を高精度に認識するための基礎技術を、実際の講義音声データを対象とした評価実験によって評価していく。また、ソーシャルアノテーションシステムを用いて、オンライン講義に対する学生のリアクションデータを収集し、それらをEnd-to-End音声認識モデルの学習に組み込む手法について検討する。ただし、前述の通り、新型コロナウイルス感染症の感染拡大による影響によっては、データ収集が困難となる場合が考えられるため、状況に応じて柔軟に研究計画を修正していく。また、これらの成果を、音声言語処理・自然言語処理関連の国内会議および国際会議で発表する。

Causes of Carryover

新型コロナウィルスの感染拡大の影響により、参加予定であった学会の現地開催が中止されたため、旅費の使用額に変更があった。一方で、本研究の実施機関においては対面授業が優先的に実施されたことから、予定していたオンライン講義およびソーシャルアノテーションシステムを用いたデータ収集を行うことができなかった。次年度の学会参加費および旅費、また、データ収集等に活用する予定である。

  • Research Products

    (10 results)

All 2022 2021

All Presentation (10 results) (of which Int'l Joint Research: 2 results)

  • [Presentation] タスク外音響情報を付加したEnd-to-End音声認識モデルの設計2022

    • Author(s)
      森 大輝,太田 健吾,西村 良太,小川厚徳,北岡 教英
    • Organizer
      日本音響学会春季講演論文集,2-3Q-2
  • [Presentation] 非流暢ラベルを用いた言い淀み整形End-to-End音声認識2022

    • Author(s)
      堀井 こはる,福田 芽衣子,太田 健吾,西村 良太,小川厚徳,北岡 教英
    • Organizer
      日本音響学会春季講演論文集,1-3-5
  • [Presentation] 言い淀みを考慮したEnd-to-End音声認識2021

    • Author(s)
      堀井 こはる,福田 芽衣子,太田 健吾,西村 良太,北岡 教英
    • Organizer
      第19回情報学ワークショップ(WiNF2021),S-5-2
  • [Presentation] Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法2021

    • Author(s)
      森 大輝,太田 健吾,西村 良太,北岡 教英
    • Organizer
      第19回情報学ワークショップ(WiNF2021),S-5-5
  • [Presentation] Encoder-Decoder音声認識モデルにおける暗黙的言語情報の置換法2021

    • Author(s)
      森 大輝,太田 健吾,西村 良太,小川 厚徳,北岡 教英
    • Organizer
      日本音響学会秋季講演論文集,1-3-1
  • [Presentation] 言い淀みを考慮した自由発話のEnd-to-End音声認識2021

    • Author(s)
      堀井 こはる,福田 芽衣子,太田 健吾,西村 良太,北岡 教英
    • Organizer
      日本音響学会講演論文集,1-3-3
  • [Presentation] End-to-end音声認識モデルにおける暗黙的言語情報の置換法2021

    • Author(s)
      森大輝,太田健吾,西村良太,小川厚徳,北岡教英
    • Organizer
      音学シンポジウム
  • [Presentation] 言い淀みラベル付けによる非流暢発話のEnd-to-End音声認識2021

    • Author(s)
      堀井こはる,福田芽衣子,太田健吾,西村良太,北岡教英
    • Organizer
      音学シンポジウム
  • [Presentation] Advanced language model fusion method for encoder-decoder model in Japanese speech2021

    • Author(s)
      Daiki Mori,Kengo Ohta,Ryota Nishimura,Atsunori Ogawa,Norihide Kitaoka
    • Organizer
      Proc. APSIPA ASC,pp. 503-510
    • Int'l Joint Research
  • [Presentation] End-to-end spontaneous speech recognition using hesitation labeling2021

    • Author(s)
      Koharu Horii,Meiko Fukuda,Kengo Ohta,Ryota Nishimura,Atsunori Ogawa,Norihide Kitaoka
    • Organizer
      Proc. APSIPA ASC,pp. 1077-1081
    • Int'l Joint Research

URL: 

Published: 2022-12-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi