2008 Fiscal Year Annual Research Report
Project/Area Number |
19700158
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
中臺 一博 Tokyo Institute of Technology, 大学院・情報理工学研究科, 客員准教授 (70436715)
|
Keywords | ロボット聴覚 / 音声認識 / 視聴覚統合 / ミッシングフィーチャ理論 / Coarse-to-Fine認識 / 発話区間検出 / 音楽認識 / 音楽区間検出 |
Research Abstract |
本研究は、人・ロボットコミュニケーションの要素機能である音声認識の頑健性を向上させるため、(1)リップリーディングを用いた視聴覚統合、(2)画像情報もしくは音声情報の信頼度が低い場合や一方が利用不可能な場合でも同一の枠組みで統合可能なミッシングフィーチャ理論の適用、(3)音声認識の単位を動的に変更するCoarse-to-Fine認識の適用という3つのアプローチにより、実環境でのロボット視聴覚音声認識の実現を目的としいる。H19度は、(2)(3)の有効性を実証した。H20度は、(1)いついて, 5種類の唇検出手法を開発し、詳細評価を行った結果、低フレームレート(10Hz)で、従来法より20%以上性能が高い認識手法を開発した。さらに、実機ロボットへの搭載を目指して、視聴覚情を用いた発話区間の頑健な検出法を検討し、有効性を示した。(2)では、H19年度の成果に加え、視聴覚発話区間検出と視聴覚音声認識を統合する枠組みをベイジアンネットワークとミッシングフィーチャ理論を用いてモデル化した。その有効性を示すデータが得られた段階であり、今後、成果発表と同時にロボットへの実搭載を行う予定である。また研究の過程で、入力音が音声ではない場合への対応方法に関する課題が新たに得られた。この課題に対応するために一部計画変更を行い、音楽入力を想定した音楽認識技術の開発を行った。対雑音頑健性および変化への即応性を両立したビートトラッキング手法を開発し、これを用いて歌って踊るロボットを開発した。研究成果を国内外で発表し、IROS 2008ではNTF賞ファイナリスト、人工知能学会では研究優秀賞を受賞した。最終目標である実ロボットへの搭載は現在作業中であるものの、それまでの成果は国内外で発表を行い一定の評価を得た(H19受賞論文あり)。また、研究の過程で得られた新課題の解決をはかり、学術的に国内外から高い評価を受けた点で、意義の大きいテーマであったと考える。
|
Research Products
(7 results)