音声認識結果の要約と整形に基づく理解しやすい字幕の自動生成に関する研究
Project/Area Number |
22K12122
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61020:Human interface and interaction-related
|
Research Institution | National Institute of Technology, Toyota College |
Principal Investigator |
村田 匡輝 豊田工業高等専門学校, 情報工学科, 准教授 (30707807)
|
Project Period (FY) |
2022-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥3,510,000 (Direct Cost: ¥2,700,000、Indirect Cost: ¥810,000)
Fiscal Year 2024: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2023: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 字幕生成 / 改行挿入 / 読点挿入 / 整形 / 要約 / 音声認識 |
Outline of Research at the Start |
本研究では,音声認識結果に対して変換処理を施すことで,字幕として相応しいテキストを生成し提示するシステムの開発を目的とする.発話速度と人間が一度に読める文字数の関係上,音声全てを文字化したテキストは字幕として必ずしも相応しくない.発話の内容のニュアンスを変化させない程度に要約を行うことでこの問題を解決できると考えられる.合わせて,字幕の提示方法(適切な位置への改行挿入や読点挿入)を工夫することにより理解のスピードを早めることを目指す.字幕生成システムとして完成させることで音声の情報保障としての新しい手段を提供する.
|
Outline of Annual Research Achievements |
本研究では,講演や講義での音声に関する情報保障を目標に,音声認識結果に対して変換処理を施すことで,字幕として相応しいテキストを生成し提示するシステムの開発を目的とする.今年度は,以下の3項目を実施した. 1. 講演テキストへ読点および改行を同時的に挿入する手法の開発を推進した.意味的な切れ目を考慮せず,固定の文字数で改行が挿入されたテキストは読みにくいものとなる.また,改行の挿入位置と読点の挿入位置は相互に関連があると考えられるため,適切な位置に読点と改行を同時に挿入可能な本手法は読みやすい字幕テキストを生成するための重要な要素技術である.本手法では,人手で読点と改行を付与したテキストデータを学習データとして使用し,マルチタスク学習により改行,読点の挿入を同時に行う.評価実験の結果,本手法の有効性を確認した. 2. 1. の挿入手法を用いて音声認識結果へ読点と改行を挿入し提示するシステムの試作に取り組んだ.APIを用いて音声認識を実行し,その結果に対して読点と改行を挿入して表示するウェブアプリを構築した. 3. 講義音声の認識結果を対象とした要約データの作成を推進した.音声の認識結果をそのまま字幕として表示すると,読み切れない量の字幕が提示される可能性がある.そこで不要な文字列の削除やより短い表現への修正を行ったデータを作成した.具体的には,フィラーや繰り返し表現の削除,過剰な丁寧表現の修正,話し言葉的な理解しにくい構文となっている表現の修正を中心に実施した.また,作成したデータの一部を用いた要約手法の開発に着手した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
研究実施計画に従い,講義音声の認識結果に対して要約を施した字幕データの作成を推進し,一定量のデータを得た.データについては,要件の定義を再度検討し,引き続き作成,収集を行っていく. 作成したデータ,および,既存のデータを用いて,次年度以降に予定していた表示文字数を考慮した字幕提示のための要約手法の開発,講演テキストへの読点と改行の同時挿入手法の開発に前倒しで取り組んだ.読点と改行の同時挿入手法においては,評価実験まで実施し,一定の成果を得ることができた. その他,音声認識を実行し,その結果に対して読点と改行を挿入して提示するシステムの開発を推進した.
|
Strategy for Future Research Activity |
研究実施計画に従って,引き続き,本研究で自動生成を目指す字幕の正解データの作成,字幕提示のための要約手法の開発や,意味の区切れと行長のバランスを考慮した改行挿入手法の開発を推進し,評価実験,実験結果の分析,さらなる性能の向上に取り組む予定である. その他,各要素技術を統合した字幕提示システムの開発,それを用いた主観評価の準備を推進する予定である.
|
Report
(1 results)
Research Products
(2 results)