2023 Fiscal Year Research-status Report
音声認識結果の要約と整形に基づく理解しやすい字幕の自動生成に関する研究
Project/Area Number |
22K12122
|
Research Institution | National Institute of Technology, Toyota College |
Principal Investigator |
村田 匡輝 豊田工業高等専門学校, 情報工学科, 准教授 (30707807)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Keywords | 字幕生成 / 改行挿入 / 読点挿入 / 言い換え / 短縮 / 話速 |
Outline of Annual Research Achievements |
本研究では,講演や講義での音声に関する情報保障を目標に,音声認識結果に対して変換処理を施すことで,字幕として相応しいテキストを生成し提示するシステムの開発を目的とする.研究計画2年目にあたる今年度は,以下の3項目を実施した. 1. マルチタスク学習に基づき講演テキストへ読点および改行を同時的に挿入する手法の研究を推進した.前年度に引き続き,字幕テキストの読みやすさを向上させるため,相互に関連があると考えられる改行の挿入位置と読点の挿入位置を同時に推定する手法の開発を行った.結果の考察に基づき,挿入できていなかった読点の種類を特定し,それに対応する特徴量を導入した学習を行うことで挿入精度の向上を図った. 2. 発話者の話速に基づいて字幕の提示可能な時間を定め,1行の提示時間がその時間内に収まる制約を満たすような字幕データを作成した.既に改行が挿入された講演テキストに対して,行をまたいだ文字列の移動(すなわち改行位置の変更),および,文字列の削除の作業を人手で実施することにより16講演分の講演テキストに対するデータを作成した. 3. 改行挿入によって行長に差が出てしまう文字列(概ね21文字から25文字程度)に対し,なるべく20文字以下かつ20文字に近づくように文字列の短縮を行う手法の開発に着手した.入力に対して20文字以下かつ20文字に近づけたデータを用意し,事前学習済みBARTのfine-tuning,強化学習によって文字列の短縮を行うモデルを作成した.評価実験の結果,強化学習における報酬関数に問題があることが判明したため,次年度以降で改善を行う予定である.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実施計画に従い,講演テキストへの改行・読点の同時挿入手法,一行の文字数を指定した文字数に短縮するための手法の開発を実施した.それぞれ評価実験を実施し,一定の成果を確認したが,残された課題もあるため,次年度以降で手法の改善を行っていく. また,発話時間に応じたタイミングで字幕を提示するシステムの開発に向けて,改行位置の変更,文字列の削除を行い,各行の提示時間が指定した時間制約を満たすようなデータを作成した.
|
Strategy for Future Research Activity |
研究実施計画に従って,読みやすい字幕提示のための文字列の短縮手法の改善や,時間制約を満たすように改行挿入,文字列削除を行う手法の開発,行長のバランスを考慮した改行挿入手法の開発等を推進し,それら要素技術を統合した字幕提示システムの開発,主観評価の実施を進めていく.
|
Causes of Carryover |
研究発表を行った会議がハイブリッドでの開催となり,今回はオンラインで参加したため,計上していた外国旅費が未使用となった. データは一部,大規模言語モデルを使用して自動で作成するなどしたため,データ構築費も一部未使用となっている. しかし次年度でも,データの作成・手法の開発を引き続き行いつつ,積極的に成果発表を行う予定であるため,そのための費用として使用する予定である.
|