研究概要 |
会議や会話などの音声コミュニケーションの解析に関して,音声認識,及び聞き手の反応に基づくアノテーションに焦点をおいた以下の研究を行った. 話し言葉の音声認識のための音響モデルの学習には大規模なコーパスが必要であるが,話し言葉の忠実な書き起こしを用意するのは多大なコストを要する.これに対して,会議録や字幕などの忠実な書き起こしでないが,容易に入手できるテキストを活用する準教師付き学習の枠組みを研究した.提案する手法では,会議録のテキストデータに統計的話し言葉変換を適用して,会議の詳細な単位(ターン)ごとに制約の強い言語モデルを作成し,この言語モデルを用いて音声認識を行うことで,音響モデル学習のためのラベルを作成する.国会審議を対象とした音声認識評価実験により,従来手法よりも高い精度のラベルを作成できること,及びこのラベルを用いて人手のラベルを用いた場合と同等の精度のモデルを学習できることが示された. ポッドキャストやポスター会話といった音声会話コンテンツを対象として,会話音声中の聞き手の反応に基づいて,視聴者にとって有益な箇所を抽出する手法を研究した.笑い声やあいづちを生起させる箇所(=ホットスポット)は第三者である視聴者にとっても有益な情報を含んでいると考えられる.本研究では,笑い声とあいづちの検出を行い,検出されたそれぞれのイベントに基づいて,「おもしろスポット」と「なるほどスポット」の2種類のホットスポットを定義し,それらの抽出を行った.被験者実験によって各ホットスポットの妥当性を評価し,これらの大半が実際に被験者が興味・関心をもった箇所であることを確認した.
|