研究概要 |
平成20年度は要素技術の洗練化と公開に取り組んだ. (1) 実時間ロボット聴覚ソフトウエアHARKの機能拡張:特徴量信頼度を連続値で表現するソフトマスク自動生成に取り組み,音声認識率が約10%向上.また,システムの発話中にユーザが割り込み発話を行うバージイン発話認識のために独立成分解析によるセミブラインド分離を開発.2種類の音楽ロボットに応用し,ロボットが歌っても音楽だけを聞き分ける機能を実現.2件の論文がIEEE/RSJ IROS-2008 Award for Entertainment Robots and Systems Nomination Finalistの4件に選出.さらに,HARKを応用した音環境可視化システムにより聴覚アウエアネス(音の気付き)の改善手法を考案し,実装. (2) HARKのオープンソース化と講習会の実施:京都大学と韓国KISTで無料講習会を開催.ロボット聴覚特別セッションをIROS-2008で主宰.信号処理国際会議ICASSP-2009にも提案採択. (3) アクティブオーディションをSIG2上で開発:2本のマイクロフォンによる音源定位で不可避な前後問題の曖昧性解消のために,ロボットの首の動作を設計.首の動きが最初に斜め下に動かし,その後横に動かす方が,いきなり横に動かすよりも性能が改善.人も同様の動作をすることが知られており,ロボットでの有効性を確認. (4) ロボットの経験に基づいた物体ダイナミクスの予測:RNNPBにより学習した物体のダイナミクスのモデルを通じて,未知物体であっても,ロボットの動作によりその物体がどのように動くかを予測する技術基盤を確立. (5) マルチドメイン音声対話システムの高性能化:どのドメインからも受理されない想定外発話からのユーザ意図推定法とそれに基づいたヘルプ生成法を開発し,その有効性を確認.
|