本研究は、職場・家庭などの小規模コミュニティにおけるヒューマンコミュニケーションから有用な情報を自動抽出することを目的とし、言語モード及び非言語モードからなるマルチモーダル情報の認識・検索を高精度で行うシステムを開発する。初年度である今年度は、主にそのために必要な要素技術の開発と、評価データベースの収録を行った。 まず、言語モードの研究では、音声認識技術の高性能化を行った。ハフ変換を用いた基本周波数の抽出を用いた耐雑音技術、能動的な文選択を用いた話者適応などの研究を行った。また、非言語モードのうち、音声に関しては、日本語話し言葉コーパス(CSJ)に付与された印象評定についてその相関を統計的に解析し、それを用いて音声データのクラスタリングを行った。クラスタリング結果を用い印象と認識性能との相関を調査した。また、動画像については、頭部ジェスチャーに焦点をあて、AMIプロジェクトで収集された会議データベースを評価対象として、その特徴抽出、識別のシステムを構築した。その他の要素技術として、動画像からのシーン検出・オブジェクト認識、人間の動作識別、音声・ビデオ要約、歩容(Gait)認識などの研究を行った。 さらに、少人数(4名)のミーティングのマルチメディア収録を行った。観光案内、携帯電話新機能の2タスクについて、それぞれ20分程度の音声および動画像の収録を行った。同期をとった音声および動画像が非圧縮で記録されている。今後、アノテーションなどのデータ加工作業を進める予定である。
|