Project/Area Number |
16016251
|
Research Category |
Grant-in-Aid for Scientific Research on Priority Areas
|
Allocation Type | Single-year Grants |
Review Section |
Science and Engineering
|
Research Institution | Kyoto University |
Principal Investigator |
奥乃 博 京都大学, 情報学研究科, 教授 (60318201)
|
Co-Investigator(Kenkyū-buntansha) |
駒谷 和範 京都大学, 情報学研究科, 助手 (40362579)
中臺 一博 (株)ホンダ, リサーチ・インスティテュート・ジャパン, シニア・リサーチャー
|
Project Period (FY) |
2004 – 2005
|
Project Status |
Completed (Fiscal Year 2005)
|
Budget Amount *help |
¥14,500,000 (Direct Cost: ¥14,500,000)
Fiscal Year 2005: ¥7,500,000 (Direct Cost: ¥7,500,000)
Fiscal Year 2004: ¥7,000,000 (Direct Cost: ¥7,000,000)
|
Keywords | 音環境理解 / 視聴覚情報統合 / ロボット知覚 / GSS / 自動マスク生成 / 文脈的制約 / 空間マッピング / ミッシングフィーチャ / アクティブオーディション / 音と画像の実時間情報統合 / ヒューマノイドロボット / 近接学 / 対人距離による挙動選択 / 肌センサ / 擬音語認識 / 超指向性スピーカ |
Research Abstract |
最終年度は、ミッシングフィーチャ理論および視聴覚情報統合による複数同時発話認識の洗練化に主としてに取り組んだ。具体的には、マイクロフォンアレイによる音源分離GSSとミッシングフィーチャ理論による音声認識との統合システムの詳細な評価を行うとともに、距離や位置に依存したインタラクションシステムのためにさまざまな設定での評価とその洗練化に取り組んだ。主な成果は以下の通りである。 (1)音源分離にGeometrical Source Separationとmulti-channel post-filterを使用し、後者から得られるチャネル間リーク情報と背景雑音情報を基にマスクを自動作成した。自動生成されたマスクを使用し,マルチバンド版Juliusを用いて認識を行った。ここで、特徴量をスペクトル歪みに強いMSLSとした。同じベンチマークにより、アプリオリマスクの場合と比較し、約62%の性能を達成した。さらに、さまざまな方向と距離に対して評価し、内部パラメータ13個の最適値にあまり規則性がないことが判明し、遺伝的アルゴリズムにより、最適値探索を行い、その有効性を確認した。 (2)人間親密度を空間にマッピングすることにより、複数人とのインタラクションを行うシステムを開発し、被験者による評価実験により有効性を確認した。これによりどの位置に立った人とインタラクションをすべきか、という挙動設計モデルが確立できた。 (3)柔軟な対話戦略を有した音声対話システムの開発するために、対話の進行モデルと履歴の構造モデルという2つの文脈的特徴を使用する手法を開発した。レストラン検索システムにどう手法を実装し、一発話から得られる特徴だけを使用した場合と比較して、意味理解精度が83.4%から92.6%まで向上した。さらに、レストラン検索システムデータの学習で得られた決定木がたの検索システムでも有効であることが分かり、ドメイン非依存な文脈手法を確立できた。
|