研究課題
基盤研究(B)
ヒューマンコミュニケーション理解のために、音声・動画から構成されるマルチメディアデータに対するマルチモーダルパターン認識技術を開発した。まず映像におけるイベントの抽出では混合ガウス分布とサポートベクターマシンを用いた統計的手法を提案し、世界40機関が参加して開催されたTRECVID2010ワークショップで世界4位(日本からの参加者中では1位)の成果を得た。また、音声モデルの能動学習・能動適応、耐雑音音声認識、ミーティング音声認識のための信号処理、マルチモーダル認識アルゴリズム、話者認識・ジェスチャー認識、発話スタイル解析、映像要約の手法をそれぞれ開発した。
すべて 2011 2010 2009 2008 その他
すべて 雑誌論文 (4件) (うち査読あり 4件) 学会発表 (33件) 備考 (1件)
IEICE Transactions on Tnformation and Systems Vol.E93-D, No.9
ページ: 2348-2362
電子情報通信学会論文誌 Vol.J93-D, No.12
ページ: 2633-2644
Speech communication Vol.53
ページ: 283-291
2009 The Acoustical Society of Japan、Accoust.Sci.& Tech. No.30
ページ: 249-256
http://www.ks.cs.titech.ac.jp