音声認識結果の要約と整形に基づく理解しやすい字幕の自動生成に関する研究

Research Project

Project/Area Number	22K12122
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61020:Human interface and interaction-related
Research Institution	National Institute of Technology, Toyota College
Principal Investigator	村田匡輝豊田工業高等専門学校, 情報工学科, 准教授 (30707807)
Project Period (FY)	2022-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000) Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000) Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000) Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords	字幕生成 / 改行挿入 / 読点挿入 / 言い換え / 短縮 / 話速 / 整形 / 要約 / 音声認識
Outline of Research at the Start	本研究では，音声認識結果に対して変換処理を施すことで，字幕として相応しいテキストを生成し提示するシステムの開発を目的とする．発話速度と人間が一度に読める文字数の関係上，音声全てを文字化したテキストは字幕として必ずしも相応しくない．発話の内容のニュアンスを変化させない程度に要約を行うことでこの問題を解決できると考えられる．合わせて，字幕の提示方法（適切な位置への改行挿入や読点挿入）を工夫することにより理解のスピードを早めることを目指す．字幕生成システムとして完成させることで音声の情報保障としての新しい手段を提供する．
Outline of Annual Research Achievements	本研究では，講演や講義での音声に関する情報保障を目標に，音声認識結果に対して変換処理を施すことで，字幕として相応しいテキストを生成し提示するシステムの開発を目的とする．研究計画2年目にあたる今年度は，以下の3項目を実施した． 1. マルチタスク学習に基づき講演テキストへ読点および改行を同時的に挿入する手法の研究を推進した．前年度に引き続き，字幕テキストの読みやすさを向上させるため，相互に関連があると考えられる改行の挿入位置と読点の挿入位置を同時に推定する手法の開発を行った．結果の考察に基づき，挿入できていなかった読点の種類を特定し，それに対応する特徴量を導入した学習を行うことで挿入精度の向上を図った． 2. 発話者の話速に基づいて字幕の提示可能な時間を定め，1行の提示時間がその時間内に収まる制約を満たすような字幕データを作成した．既に改行が挿入された講演テキストに対して，行をまたいだ文字列の移動（すなわち改行位置の変更），および，文字列の削除の作業を人手で実施することにより16講演分の講演テキストに対するデータを作成した． 3. 改行挿入によって行長に差が出てしまう文字列（概ね21文字から25文字程度）に対し，なるべく20文字以下かつ20文字に近づくように文字列の短縮を行う手法の開発に着手した．入力に対して20文字以下かつ20文字に近づけたデータを用意し，事前学習済みBARTのfine-tuning，強化学習によって文字列の短縮を行うモデルを作成した．評価実験の結果，強化学習における報酬関数に問題があることが判明したため，次年度以降で改善を行う予定である．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 研究実施計画に従い，講演テキストへの改行・読点の同時挿入手法，一行の文字数を指定した文字数に短縮するための手法の開発を実施した．それぞれ評価実験を実施し，一定の成果を確認したが，残された課題もあるため，次年度以降で手法の改善を行っていく．また，発話時間に応じたタイミングで字幕を提示するシステムの開発に向けて，改行位置の変更，文字列の削除を行い，各行の提示時間が指定した時間制約を満たすようなデータを作成した．
Strategy for Future Research Activity	研究実施計画に従って，読みやすい字幕提示のための文字列の短縮手法の改善や，時間制約を満たすように改行挿入，文字列削除を行う手法の開発，行長のバランスを考慮した改行挿入手法の開発等を推進し，それら要素技術を統合した字幕提示システムの開発，主観評価の実施を進めていく．

Report

(2 results)

2023 Research-status Report
2022 Research-status Report

Research Products
(3 results)

All 2023 2022

All Presentation (3 results) (of which Int'l Joint Research: 1 results)

[Presentation] Automatic Insertion of Commas and Linefeeds into Lecture Transcripts based on Multi-Task Learning2023
- Author(s)
  Zhicheng Fang, Masaki Murata, and Shigeki Matsubara
- Organizer
  Proceedings of the 37th Pacific Asia Conference on Language, Information and Computation
- Related Report
  2023 Research-status Report
- Int'l Joint Research
[Presentation] 方之成, 村田匡輝, 松原茂樹2023
- Author(s)
  方之成, 村田匡輝, 松原茂樹
- Organizer
  情報処理学会第85回全国大会講演論文集
- Related Report
  2022 Research-status Report
[Presentation] マルチタスク学習による講演テキストへの読点と改行の自動挿入2022
- Author(s)
  方之成, 村田匡輝, 松原茂樹
- Organizer
  第20回情報学ワークショップ（WiNF2022）
- Related Report
  2022 Research-status Report

音声認識結果の要約と整形に基づく理解しやすい字幕の自動生成に関する研究

Principal Investigator

村田 匡輝 豊田工業高等専門学校, 情報工学科, 准教授 (30707807)

¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] Automatic Insertion of Commas and Linefeeds into Lecture Transcripts based on Multi-Task Learning2023

Author(s)

Organizer

Related Report

[Presentation] 方 之成, 村田 匡輝, 松原 茂樹2023

Author(s)

Organizer

Related Report

[Presentation] マルチタスク学習による講演テキストへの読点と改行の自動挿入2022

Author(s)

Organizer

Related Report

村田匡輝豊田工業高等専門学校, 情報工学科, 准教授 (30707807)

[Presentation] 方之成, 村田匡輝, 松原茂樹2023