研究分担者 |
秋葉 友良 豊橋技術科学大学, 工学部, 准教授 (00356346)
土屋 雅稔 豊橋技術科学大学, 工学部, 助教 (70378256)
北岡 教英 名古屋大学大学院, 情報科学研究科, 准教授 (10333501)
小暮 悟 静岡大学, 情報学部, 助教 (40359758)
西崎 博光 山梨大学, 大学院・医学工学総合研究部, 助教 (40362082)
|
研究概要 |
大学の学部・大学院の講義音声を収録し,データベース化・公開した。収録した講義は,話者16名,114コマ,3,860分で,そのうち書き起こしデータを付与したものが,話者15名,97コマ,3,685分である。 話し言葉用の言語モデルの構築のために,フィラー等を含まない整形されたテキストコーパスや書き言葉コーパスに対し,フィラーの予測、挿入モデルを開発し,パープレキシティの減少と音声認識率の向上を得た。また,Webテキストを用いた言語モデルの適応,キーワードの出現頻度を強調した言語モデルなども検討した。 音声認識用の辞書は,短単語登録を基本としているのに対し,キーワードは複合語が多いので,複合語のキーワードにも対処したキーワード抽出を行った。スライド中のキーワードは30%程度しか発話されていないので,書き起こしテキストからキーワードを抽出し,インデキシング化する方法と併用した。 講義音声の音声認識,音声要約,インデキシング機能を統合して,講義音声のブラウジングシステムを構築した。市販の講義収録システム(EZ-プレゼンテーター)をもとに,書き起こしテキストの表示,再生音声と同期したテキストのハイライト,要約率の指定による重要文だけの提示,スライドおよび書き起こしテキストからのキーワードの抽出一覧とそれによるビデオの頭出しの機能,音声再生速度の可変機能の組込み,などを行い,被験者実験により評価し,有効性を示した。
|