• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

音声認識結果の要約と整形に基づく理解しやすい字幕の自動生成に関する研究

Research Project

Project/Area Number 22K12122
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61020:Human interface and interaction-related
Research InstitutionNational Institute of Technology, Toyota College

Principal Investigator

村田 匡輝  豊田工業高等専門学校, 情報工学科, 准教授 (30707807)

Project Period (FY) 2022-04-01 – 2025-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords字幕生成 / 改行挿入 / 読点挿入 / 言い換え / 短縮 / 話速 / 整形 / 要約 / 音声認識
Outline of Research at the Start

本研究では,音声認識結果に対して変換処理を施すことで,字幕として相応しいテキストを生成し提示するシステムの開発を目的とする.発話速度と人間が一度に読める文字数の関係上,音声全てを文字化したテキストは字幕として必ずしも相応しくない.発話の内容のニュアンスを変化させない程度に要約を行うことでこの問題を解決できると考えられる.合わせて,字幕の提示方法(適切な位置への改行挿入や読点挿入)を工夫することにより理解のスピードを早めることを目指す.字幕生成システムとして完成させることで音声の情報保障としての新しい手段を提供する.

Outline of Annual Research Achievements

本研究では,講演や講義での音声に関する情報保障を目標に,音声認識結果に対して変換処理を施すことで,字幕として相応しいテキストを生成し提示するシステムの開発を目的とする.研究計画2年目にあたる今年度は,以下の3項目を実施した.
1. マルチタスク学習に基づき講演テキストへ読点および改行を同時的に挿入する手法の研究を推進した.前年度に引き続き,字幕テキストの読みやすさを向上させるため,相互に関連があると考えられる改行の挿入位置と読点の挿入位置を同時に推定する手法の開発を行った.結果の考察に基づき,挿入できていなかった読点の種類を特定し,それに対応する特徴量を導入した学習を行うことで挿入精度の向上を図った.
2. 発話者の話速に基づいて字幕の提示可能な時間を定め,1行の提示時間がその時間内に収まる制約を満たすような字幕データを作成した.既に改行が挿入された講演テキストに対して,行をまたいだ文字列の移動(すなわち改行位置の変更),および,文字列の削除の作業を人手で実施することにより16講演分の講演テキストに対するデータを作成した.
3. 改行挿入によって行長に差が出てしまう文字列(概ね21文字から25文字程度)に対し,なるべく20文字以下かつ20文字に近づくように文字列の短縮を行う手法の開発に着手した.入力に対して20文字以下かつ20文字に近づけたデータを用意し,事前学習済みBARTのfine-tuning,強化学習によって文字列の短縮を行うモデルを作成した.評価実験の結果,強化学習における報酬関数に問題があることが判明したため,次年度以降で改善を行う予定である.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

研究実施計画に従い,講演テキストへの改行・読点の同時挿入手法,一行の文字数を指定した文字数に短縮するための手法の開発を実施した.それぞれ評価実験を実施し,一定の成果を確認したが,残された課題もあるため,次年度以降で手法の改善を行っていく.
また,発話時間に応じたタイミングで字幕を提示するシステムの開発に向けて,改行位置の変更,文字列の削除を行い,各行の提示時間が指定した時間制約を満たすようなデータを作成した.

Strategy for Future Research Activity

研究実施計画に従って,読みやすい字幕提示のための文字列の短縮手法の改善や,時間制約を満たすように改行挿入,文字列削除を行う手法の開発,行長のバランスを考慮した改行挿入手法の開発等を推進し,それら要素技術を統合した字幕提示システムの開発,主観評価の実施を進めていく.

Report

(2 results)
  • 2023 Research-status Report
  • 2022 Research-status Report
  • Research Products

    (3 results)

All 2023 2022

All Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Presentation] Automatic Insertion of Commas and Linefeeds into Lecture Transcripts based on Multi-Task Learning2023

    • Author(s)
      Zhicheng Fang, Masaki Murata, and Shigeki Matsubara
    • Organizer
      Proceedings of the 37th Pacific Asia Conference on Language, Information and Computation
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] 方 之成, 村田 匡輝, 松原 茂樹2023

    • Author(s)
      方 之成, 村田 匡輝, 松原 茂樹
    • Organizer
      情報処理学会第85回全国大会講演論文集
    • Related Report
      2022 Research-status Report
  • [Presentation] マルチタスク学習による講演テキストへの読点と改行の自動挿入2022

    • Author(s)
      方 之成, 村田 匡輝, 松原 茂樹
    • Organizer
      第20回情報学ワークショップ(WiNF2022)
    • Related Report
      2022 Research-status Report

URL: 

Published: 2022-04-19   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi