研究課題/領域番号 |
22K12122
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61020:ヒューマンインタフェースおよびインタラクション関連
|
研究機関 | 豊田工業高等専門学校 |
研究代表者 |
村田 匡輝 豊田工業高等専門学校, 情報工学科, 准教授 (30707807)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,510千円 (直接経費: 2,700千円、間接経費: 810千円)
2024年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2023年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 字幕生成 / 改行挿入 / 読点挿入 / 言い換え / 短縮 / 話速 / 整形 / 要約 / 音声認識 |
研究開始時の研究の概要 |
本研究では,音声認識結果に対して変換処理を施すことで,字幕として相応しいテキストを生成し提示するシステムの開発を目的とする.発話速度と人間が一度に読める文字数の関係上,音声全てを文字化したテキストは字幕として必ずしも相応しくない.発話の内容のニュアンスを変化させない程度に要約を行うことでこの問題を解決できると考えられる.合わせて,字幕の提示方法(適切な位置への改行挿入や読点挿入)を工夫することにより理解のスピードを早めることを目指す.字幕生成システムとして完成させることで音声の情報保障としての新しい手段を提供する.
|
研究実績の概要 |
本研究では,講演や講義での音声に関する情報保障を目標に,音声認識結果に対して変換処理を施すことで,字幕として相応しいテキストを生成し提示するシステムの開発を目的とする.研究計画2年目にあたる今年度は,以下の3項目を実施した. 1. マルチタスク学習に基づき講演テキストへ読点および改行を同時的に挿入する手法の研究を推進した.前年度に引き続き,字幕テキストの読みやすさを向上させるため,相互に関連があると考えられる改行の挿入位置と読点の挿入位置を同時に推定する手法の開発を行った.結果の考察に基づき,挿入できていなかった読点の種類を特定し,それに対応する特徴量を導入した学習を行うことで挿入精度の向上を図った. 2. 発話者の話速に基づいて字幕の提示可能な時間を定め,1行の提示時間がその時間内に収まる制約を満たすような字幕データを作成した.既に改行が挿入された講演テキストに対して,行をまたいだ文字列の移動(すなわち改行位置の変更),および,文字列の削除の作業を人手で実施することにより16講演分の講演テキストに対するデータを作成した. 3. 改行挿入によって行長に差が出てしまう文字列(概ね21文字から25文字程度)に対し,なるべく20文字以下かつ20文字に近づくように文字列の短縮を行う手法の開発に着手した.入力に対して20文字以下かつ20文字に近づけたデータを用意し,事前学習済みBARTのfine-tuning,強化学習によって文字列の短縮を行うモデルを作成した.評価実験の結果,強化学習における報酬関数に問題があることが判明したため,次年度以降で改善を行う予定である.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
研究実施計画に従い,講演テキストへの改行・読点の同時挿入手法,一行の文字数を指定した文字数に短縮するための手法の開発を実施した.それぞれ評価実験を実施し,一定の成果を確認したが,残された課題もあるため,次年度以降で手法の改善を行っていく. また,発話時間に応じたタイミングで字幕を提示するシステムの開発に向けて,改行位置の変更,文字列の削除を行い,各行の提示時間が指定した時間制約を満たすようなデータを作成した.
|
今後の研究の推進方策 |
研究実施計画に従って,読みやすい字幕提示のための文字列の短縮手法の改善や,時間制約を満たすように改行挿入,文字列削除を行う手法の開発,行長のバランスを考慮した改行挿入手法の開発等を推進し,それら要素技術を統合した字幕提示システムの開発,主観評価の実施を進めていく.
|