研究課題/領域番号 |
18200007
|
研究機関 | 独立行政法人産業技術総合研究所 |
研究代表者 |
浅野 太 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究グループ長 (00231895)
|
研究分担者 |
麻生 英樹 独立行政法人産業技術総合研究所, 情報技術研究部門, 主任研究員 (10344194)
河本 満 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10300865)
緒方 淳 独立行政法人産業技術総合研究所, 情報技術研究部門, 研究員 (10392599)
|
キーワード | マルチメディア / 会議録 / 構造化 / マイクロホンアレイ / 発話分離 / 音源定位 / カメラアレイ |
研究概要 |
設備備品として購入したカメラアレイ(Pointgray社製Ladybug2)と制作したマイクロホンアレイを用いて収録用デバイスを構築した。このデバイスをUSBとIEEE1394によりノートPCに接続し、簡単に会議録のマルチメディアデータを収録することが可能となった。このデバイスを用いて、マーケットリサーチで用いられるグループインタビュー(1回90分程度)を4回収録した。この収録内容をデータベースとして利用するため、人手による書き起こしを施し、発話開始/終了時間を付与したCSJフォーマットにより記録した。こられのデータをDVDにまとめ、配布用データベースメディアを作成した。会議中の発話イベント情報に基づき、同時発話を分離するアルゴリズムを開発した。この手法は、マイクロホンアレイ出力に対して適応ビームフォーマを適用するものであり、特に、マイクロホンアレイのキャリブレーションを自動化した点に独自性がある。この手法により音声認識率が約20%向上した。この結果は、国際会議Interspeech2006において発表した。会議中の様々な音イベントを検出する手法を開発した。この手法は、HMMをベースとした手法であり、音声、笑、咳、無音区間などを検出することができる。この結果は、国際会議MRCS2006において発表した。映像情報を用いて複数の人物の位置を推定するアルゴリズムを開発した。この手法は、Gibbsサンプリングを用いて推定結果を逐次最適化する手法であり、Haar特徴によって推定された顔検出結果をより高精度にすることができる。また、Webブラウザ上で動作する会議録の閲覧システムも開発した。
|