研究課題
若手研究(B)
講義や講演などの話し言葉には冗長な表現や口語表現が含まれるため,音声認識を字幕などに活用する際は,まず音声認識器が話し言葉特有の表現をカバーした上で認識を行い,その結果に含まれる冗長表現・口語表現を読みやすく整形するというアプローチが取られる.本研究ではこれらを話し言葉への変換とその逆変換としてとらえ,話し言葉の特徴のモデルを構築し,このモデルに基づき音声認識(変換)と自動整形(逆変換)を行う.本研究では講義・講演の字幕をターゲットとし,これによる字幕の生成・配信システムを構築した.
音声情報処理