2013 Fiscal Year Research-status Report
音声認識と自動整形の統合的なモデル化に基づく字幕生成の研究
Project/Area Number |
25730112
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Research Institution | Kyoto University |
Principal Investigator |
秋田 祐哉 京都大学, 学術情報メディアセンター, 助教 (90402742)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 音声認識 / 自動整形 / 話し言葉 / 字幕 |
Research Abstract |
音声認識を字幕などに活用する際は,まず音声認識器が話し言葉特有の表現をカバーした上で認識を行い,その結果に含まれる冗長表現・口語表現を読みやすく整形するというアプローチが取られる.本研究ではこれらを話し言葉への変換とその逆変換としてとらえ,変換の方向とは独立した話し言葉の特徴のモデルを構築し,このモデルに基づく音声認識(変換)と自動整形(逆変換)の実現を図る.また本研究では,一連の処理を行うプラットフォームとして字幕の生成・配信システムを構築する. 平成25年度では,字幕作成・配信のプロトタイプシステムを開発した.これは,インターネット上のサーバで一般のユーザからコンテンツを受け付け,音声認識を用いて自動的に字幕の草稿を作成し,ユーザがオンラインの専用エディタでこれを編集するシステムである.ここでは,音声認識と自動整形のモデルについて,各種の音声・テキストデータベースを用いて構築し,実際に投入されるデータに対して適用している.このオフライン型のシステムとは別に,リアルタイム字幕付与のために,字幕としての有用性の観点から音声認識結果を自動的に分類する手法を検討し,これに基づくシステムを開発・試行した.これらのシステムの開発・試験運用を通じて,実際の講義・講演音声とその書き起こし・字幕データの収集を行った.これらのシステムについては国内の学会で発表を行っている.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
分析のための音声・テキストデータは順調に収集できている.音声認識と自動整形を組み込んだ字幕作成システムはプロトタイプから本格的な公開・運用に移る段階である.
|
Strategy for Future Research Activity |
計画通り,音声認識と自動整形のための話し言葉のモデルについて分析を進めて精緻化を図るとともに,これらの統合を進める.開発した字幕作成システムを通じて評価を実施する.
|
Expenditure Plans for the Next FY Research Funding |
当該年度に人件費・謝金を執行する必要がなかったため. 次年度の人件費・謝金として執行する予定である.
|