2014 Fiscal Year Research-status Report

音声認識と自動整形の統合的なモデル化に基づく字幕生成の研究

Research Project

Project/Area Number	25730112
Research Institution	Kyoto University
Principal Investigator	秋田祐哉京都大学, 学術情報メディアセンター, 助教 (90402742)
Project Period (FY)	2013-04-01 – 2016-03-31
Keywords	音声認識 / 自動整形 / 話し言葉 / 字幕
Outline of Annual Research Achievements	講義や講演などの話し言葉には冗長な表現や口語表現が含まれるため，音声認識を字幕などに活用する際は，まず音声認識器が話し言葉特有の表現をカバーした上で認識を行い，その結果に含まれる冗長表現・口語表現を読みやすく整形するというアプローチが取られる．本研究ではこれらを話し言葉への変換とその逆変換としてとらえ，変換の方向とは独立した，話し言葉の特徴のモデルを構築し，このモデルに基づき音声認識（変換）と自動整形（逆変換）を実現する．本研究では，講義・講演の字幕をターゲットとし，一連の処理に基づく字幕の生成・配信システムを構築して性能評価を実施する．平成26年度では，引き続きデータを収集してこれらの処理（モデル）の検証と精緻化を進めた．また，音声認識に関連して，特に本研究が対象とする講義や講演では話題への適応が必須であることから，言語モデルの適応手法についても検討を行った．前年度に構築した字幕生成・配信のプロトタイプシステムについては，音声認識・自動整形のモデル・手法をはじめとして，編集環境やシステムの応答など種々の改善を図り，本システムとしての運用を開始した．そして実際の講義音声を使用してのトライアル評価を実施した．このほか，本システムを用いたリアルタイム字幕作成についても引き続き検討している．これらの一部については国内研究会にて研究発表を行っている．
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 音声認識と自動整形に基づく字幕作成・配信システムについて性能が改善し，プロトタイプから本格的な運用を開始した．これにより，本システムの評価にも着手している．
Strategy for Future Research Activity	音声認識結果における精度と自動整形結果における読みやすさを基準として話し言葉のモデルの評価を行う．実用上の観点から，実際に字幕として提示した場合の読みやすさに関する評価も実施する．
Causes of Carryover	当該年度に人件費・謝金を執行する必要が結果として発生しなかったため．
Expenditure Plan for Carryover Budget	次年度の人件費・謝金としての使用を想定している．

Research Products
(2 results)

All Presentation (2 results)

[Presentation] 講演音声認識結果の誤り箇所の復唱入力を用いたノートテイクシステム2015
- Author(s)
  大田健翔, 秋田祐哉, 河原達也
- Organizer
  情報処理学会全国大会
- Place of Presentation
  京都大学（京都市左京区）
- Year and Date
  2015-03-17 – 2015-03-19
[Presentation] 講演スライドの文字認識結果を用いた音声認識の改善2014
- Author(s)
  童弋正, 秋田祐哉, 河原達也
- Organizer
  情報処理学会音声言語情報処理研究会
- Place of Presentation
  ホテル花巻（岩手県花巻市）
- Year and Date
  2014-07-24 – 2014-07-26