研究概要 |
講演・講義や会議・ミーティングなどの大規模な音声アーカイブの効果的な利活用を指向して,このような長時間の話し言葉音声を自動書き起こし(音声認識)するとともに,多層の言語的・談話的構造を抽出し,字幕化を含めて効果的に提示する方法について研究を行った. まず,話し言葉から節境界及び文境界を自動的に推定するために,サポートベクトルマシン(SVM)を用いたテキストチャンキングによる手法の高精度化を検討した.単語やポーズの情報に加えて,韻律的特徴や局所的な係り受けなどの言語的情報の導入を行い,書き起こしでは局所的な係り受け情報が,音声認識結果では韻律的特徴が効果的であることを確認した.次に,講演の書き起こしから講演録を作成する際の過程をモデル化し,実際にそのようなアノテーションを行ってもらった.その整形の過程で削除される箇所を自動的に推定する手法についても検討した. また,会話中の映像や人間の動作・視線など,非言語的ふるまいを含んだ会話データを収録可能な環境を構築し,講演と討論の中間的な特徴を有するポスター会話というタスクを設定して,多数のセンサを用いてマルチモーダルなデータの収録を行った.収録データに対して,節単位や談話セグメントなどの言語的単位と非言語的ふるまいのアノテーションを行った.うなずき,視線方向,ポインティングの3種類の非言語的ふるまいについて,談話セグメント,節単位,あいづちとの相関に関する分析を行った.
|