研究課題/領域番号 |
20K03120
|
研究機関 | 東京大学 |
研究代表者 |
美馬 秀樹 東京大学, 大学院工学系研究科(工学部), 准教授 (30359658)
|
研究分担者 |
増田 勝也 東京大学, 大学総合教育研究センター, 特任助教 (20512114)
小松 祐美 東京大学, 大学総合教育研究センター, 特任研究員 (50792511)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | 講義ビデオコーパス / 書き起こし / アノテーション / 多言語字幕付与システム / 音声認識 / 精度向上 / カット自動編集 / 実現可能性 |
研究実績の概要 |
本研究では、講義映像を対象とした音声翻訳システムの研究開発を行い、高精度な多言語字幕を作成可能なシステムを開発する。また音声認識結果を利用したトピックの抽出を行い、トピックによる映像のチャプター分割や検索を可能とすることで、近年、注目されているマイクロコンテンツと同様のアクセス性を持たせる。また、文化や環境に依存するような、Web公開授業としては不適切な表現部等の抽出に関する研究も併せて行う。これらにより、講義映像を公開する際の有用性・アクセシビリティを向上させることを目的とする。 今年度は、産総研人工知能研究センター長辻井潤一東大名誉教授、函館未来大学中島秀之名誉学長らによる講義を含む30本の収録した講義ビデオに対し、研究利用可能となるよう講義内容の書き起こし、フィラー、文区切り等のアノテーションを含む処理を進め、約50万文字レベルのコーパスを構築した。 また、AWSを利用したプロトタイプの多言語字幕付与機能を実装し、実際のコンテンツ閲覧機能に統合することで、講義ビデオに字幕が付与できることを確認した。 さらに、上記の講義書き起こしデータを活用することで、現状での音声認識の精度を確認すると共に、AI分野に適合した音声認識モデルの再学習を行い予備的な実験評価を行うことで、認識精度が最大30%程度向上し、単語認識エラー率が20%程度に改善することを確認した。 一方、同上記の講義ビデオコーパスに対し、これまでに蓄積したカット編集部分のデータを収集し、非カット文6908(平均形態素数35.681)、カット対象文303(平均形態素数21.021)に対し、BERT深層学習を利用した予備的な実験によりカットを行う部分の特徴を学習することで、95%程度の精度でカット対象文を推定することが可能という結果を得た。これにより、自動編集支援を行うシステムの実現可能性を確認した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
約50万文字レベルの講義ビデオコーパスを構築したこと。 既に多言語字幕付与システムのプロトタイプを実装し、技術評価を行っていること。 上記の講義ビデオコーパスを利用し、予備的な音声認識の精度向上評価を行なっていること。 カット編集の自動化に対する予備的な技術評価を行い、自動編集の実現可能性があることを示したこと。 上記により、当初の計画以上の成果が得られていると考える。
|
今後の研究の推進方策 |
今後は、音声認識の精度向上に関する課題を抽出し、実用化に向け、言語モデル、音声モデルの調整を進めることで、さらなる精度の向上を目指す。 また、トピックによる講義の自動分割、トピックの抽出機能に関するコーパス作成、自動抽出機能の研究を進め、予備的な実験により課題を抽出すると共に、精度向上に関する考察を進める。 さらに、カット編集の自動化に関し、カット箇所の同定に失敗した例を詳細に分析することでカット編集自動化に関するさらなる課題を抽出し、解決に向けた考察を進める。
|
次年度使用額が生じた理由 |
今年度は他組織との共同研究による研究等を積極的に進めることで、大きな支出を行うことなく、予定以上の成果が得られたため。来年度においては、新たな課題に対し、分析や機械学習に必要となるGPU等の機器を購入すると同様に、今年度同様に、共同研究を中心に進める予定である。
|