研究概要 |
H19年度は、(1)高速カメラを用いた視聴見同期収録シスアムの構築、(2)視聴音声認識用DBの作成、(3)唇検出手法の有効性検証、(4)音素・口形素グループ手法の確立といった当初計画に対して、ほぼ遅滞なく研究を進めることができた。(1)、(2)に関しては、構築した視聴覚データ収録システムを用いて、画像lOOHz,音声16kHzで25名各400単語からなる日本語視聴覚音声認識用DBを構築した。特に、これまで存在していなかった高フレームレートの視聴覚DBを構築できた点では、大きな学術的意義があると考える。実際に、このDBを用いて(3)にかかる実験を行い、フレームレートが高いほど一般的に認識率が高くなるという知見を得ることができた(成果をIROS2007やSI2007で発表)。(4)に関しては、口形素・音素クルーピンクのうち、主に音素クルーピンクの方法に注力した。成果として、雑音で判別が難しい音素同士を方向性を待った非対称なクルーピンクを行うことによって、雑音下の音声認識率が向上することを示した(成果をIEA/AIE 2007で発表,および論文化しか)。さらに、一部計画を前倒しして、H20年度に実施する予定であったミッシングフィーチヤ理論の導心診討を行った。オフライン実験ではあるが、この手法の導入によって、-5dBという高雑音下で、200語の孤立単語認識で、50ポイント程度性能を向上させることができることを示した(成果をIROS2007,ロボット学会学術講演会で発表)。(3),(4)に関しては、より性能を高められるよう研究を継続し、H20年度の最終目標である実ロボットへの搭載に向けた研究を進める予定である。
|