研究概要 |
講演・講義や会議・ミーティングなどの大規模な音声アーカイブの効果的な利活用を指向して,このような長時間の話し言葉音声を自動書き起こし(音声認識)するとともに,多層の言語的・談話的構造を抽出し,字幕化を含めて効果的に提示する方法について研究を行った. 話し言葉音声の書き起こしには,認識誤りのみならず,言いよどみや口語的表現など,会議録にふさわしくない現象が多く含まれている.これらの現象を整形し,自然な会議録を作成するために,音声の書き起こし(または音声認識結果)と会議録を異なる言語とみなし,統計的機械翻訳を用いて"翻訳"する方法について研究した.具体的には,翻訳モデルにおいて先行単語の文脈情報を反映できるように拡張し,またフィラー単語などの素性を追加できる対数線形モデルを導入した.このモデルを有限状態トランスデューサー(WFST)に実装した.国会の会議録と学会の講演録をターゲットして学習・評価したどころ,従来手法を大きく上回る性能を実現した. また,ポッドキャストやポスター会話といった音声会話コンテンツを対象として,会話音声中の聞き手のリアクションに基づいて,視聴者にとって有益な箇所を抽出する手法を提案した.笑い声やあいづちを生起させる箇所(ホットスポット)は第三者である視聴者にとっても有益な情報を含んでいると考えられる.そこで,笑い声とあいづちの2つの音響イベントを頑健に検出する方法を研究した.被験者実験によって各ホットスポットの妥当性を評価し,これらの大半に対して実際に被験者が興味・関心を持つことを確認した.
|