Budget Amount *help |
¥1,300,000 (Direct Cost: ¥1,300,000)
Fiscal Year 2012: ¥600,000 (Direct Cost: ¥600,000)
Fiscal Year 2011: ¥700,000 (Direct Cost: ¥700,000)
|
Research Abstract |
平成23年度は,話者が発話している区間を切り出す発話区間検出を行う際に,視覚・聴覚情報がどの程度有効であるかを因果ベイジアンネットワーク[1]を用いて推定する手法を提案した. 平成24年度は,その推定にロボットの能動的な動作による影響を考慮するように拡張した.具体的には,能動的な動作としてロボットの移動を扱い,因果ベイジアンネットワークを用いて予測した結果から動作を生成する部分を含めた枠組みを構築した.ロボットの動作生成は,(1)現在の位置の近傍に離散グリッドを設定する,(2)離散グリッドの格子点上に移動した場合の発話区間検出性能の期待値を因果ベイジアンネットワークを用いて予測する,(3)期待値が最大となる点へ移動する,という3つのステップによりモデル化した. この提案手法を,全方位台車の上に上半身が設置されている台車ベースのヒューマノイドロボットHearboに実装し評価実験を行った.このロボットはマイクロホンアレイから聴覚情報を,カメラから視覚情報を取得する.また,台車のタイヤに取り付けられたエンコーダからロボットの位置情報を取得する.これらの情報を因果ベイジアンネットワークの入力となり,動作を生成する.評価では,部屋の中に話者が一人と雑音源が一つある状態を想定し,提案したアクティブ視聴覚統合の有効性を評価した.ロボットの初期位置から因果ベイジアンネットワークを用いて予測した最適な到達点までの間で複数の中間点を設定し,それらの点で発話区間検出性能実験を行った.まず,学習用データと評価データで同じ話者の場合の簡単な評価実験を行い,提案したアクティブ視聴覚統合が発話区間検出性能の向上に有効であることを示した. 本手法では,従来は扱われなかった,動作による影響を予測するステップが含まれており,音声認識などロボット聴覚で研究されている様々なタスクへの応用が期待できる. [1]J.Pearl,"Causality:Models, Reasoning and Inference,"Cambridge University Press.
|