研究課題/領域番号 |
16016251
|
研究種目 |
特定領域研究
|
配分区分 | 補助金 |
審査区分 |
理工系
|
研究機関 | 京都大学 |
研究代表者 |
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
|
研究分担者 |
駒谷 和範 京都大学, 情報学研究科, 助手 (40362579)
中臺 一博 (株)ホンダ, リサーチ・インスティテュート・ジャパン, シニア・リサーチャー
|
研究期間 (年度) |
2004 – 2005
|
研究課題ステータス |
完了 (2005年度)
|
配分額 *注記 |
14,500千円 (直接経費: 14,500千円)
2005年度: 7,500千円 (直接経費: 7,500千円)
2004年度: 7,000千円 (直接経費: 7,000千円)
|
キーワード | 音環境理解 / 視聴覚情報統合 / ロボット知覚 / GSS / 自動マスク生成 / 文脈的制約 / 空間マッピング / ミッシングフィーチャ / アクティブオーディション / 音と画像の実時間情報統合 / ヒューマノイドロボット / 近接学 / 対人距離による挙動選択 / 肌センサ / 擬音語認識 / 超指向性スピーカ |
研究概要 |
最終年度は、ミッシングフィーチャ理論および視聴覚情報統合による複数同時発話認識の洗練化に主としてに取り組んだ。具体的には、マイクロフォンアレイによる音源分離GSSとミッシングフィーチャ理論による音声認識との統合システムの詳細な評価を行うとともに、距離や位置に依存したインタラクションシステムのためにさまざまな設定での評価とその洗練化に取り組んだ。主な成果は以下の通りである。 (1)音源分離にGeometrical Source Separationとmulti-channel post-filterを使用し、後者から得られるチャネル間リーク情報と背景雑音情報を基にマスクを自動作成した。自動生成されたマスクを使用し,マルチバンド版Juliusを用いて認識を行った。ここで、特徴量をスペクトル歪みに強いMSLSとした。同じベンチマークにより、アプリオリマスクの場合と比較し、約62%の性能を達成した。さらに、さまざまな方向と距離に対して評価し、内部パラメータ13個の最適値にあまり規則性がないことが判明し、遺伝的アルゴリズムにより、最適値探索を行い、その有効性を確認した。 (2)人間親密度を空間にマッピングすることにより、複数人とのインタラクションを行うシステムを開発し、被験者による評価実験により有効性を確認した。これによりどの位置に立った人とインタラクションをすべきか、という挙動設計モデルが確立できた。 (3)柔軟な対話戦略を有した音声対話システムの開発するために、対話の進行モデルと履歴の構造モデルという2つの文脈的特徴を使用する手法を開発した。レストラン検索システムにどう手法を実装し、一発話から得られる特徴だけを使用した場合と比較して、意味理解精度が83.4%から92.6%まで向上した。さらに、レストラン検索システムデータの学習で得られた決定木がたの検索システムでも有効であることが分かり、ドメイン非依存な文脈手法を確立できた。
|