2014 Fiscal Year Research-status Report
音声認識と自動整形の統合的なモデル化に基づく字幕生成の研究
Project/Area Number |
25730112
|
Research Institution | Kyoto University |
Principal Investigator |
秋田 祐哉 京都大学, 学術情報メディアセンター, 助教 (90402742)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声認識 / 自動整形 / 話し言葉 / 字幕 |
Outline of Annual Research Achievements |
講義や講演などの話し言葉には冗長な表現や口語表現が含まれるため,音声認識を字幕などに活用する際は,まず音声認識器が話し言葉特有の表現をカバーした上で認識を行い,その結果に含まれる冗長表現・口語表現を読みやすく整形するというアプローチが取られる.本研究ではこれらを話し言葉への変換とその逆変換としてとらえ,変換の方向とは独立した,話し言葉の特徴のモデルを構築し,このモデルに基づき音声認識(変換)と自動整形(逆変換)を実現する.本研究では,講義・講演の字幕をターゲットとし,一連の処理に基づく字幕の生成・配信システムを構築して性能評価を実施する. 平成26年度では,引き続きデータを収集してこれらの処理(モデル)の検証と精緻化を進めた.また,音声認識に関連して,特に本研究が対象とする講義や講演では話題への適応が必須であることから,言語モデルの適応手法についても検討を行った.前年度に構築した字幕生成・配信のプロトタイプシステムについては,音声認識・自動整形のモデル・手法をはじめとして,編集環境やシステムの応答など種々の改善を図り,本システムとしての運用を開始した.そして実際の講義音声を使用してのトライアル評価を実施した.このほか,本システムを用いたリアルタイム字幕作成についても引き続き検討している.これらの一部については国内研究会にて研究発表を行っている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
音声認識と自動整形に基づく字幕作成・配信システムについて性能が改善し,プロトタイプから本格的な運用を開始した.これにより,本システムの評価にも着手している.
|
Strategy for Future Research Activity |
音声認識結果における精度と自動整形結果における読みやすさを基準として話し言葉のモデルの評価を行う.実用上の観点から,実際に字幕として提示した場合の読みやすさに関する評価も実施する.
|
Causes of Carryover |
当該年度に人件費・謝金を執行する必要が結果として発生しなかったため.
|
Expenditure Plan for Carryover Budget |
次年度の人件費・謝金としての使用を想定している.
|