本研究は、深層学習を実世界信号処理に応用するための計算モデルを構築し、実環境下で活動するロボット、自動運転車などに将来搭載されることが期待される環境認識技術やヒューマンインターフェースなどを実現する際に直面する、大規模な感覚運動統合学習の問題を解決することを目的とした。これに基づき、深層学習の知見を応用した感覚運動統合メカニズムを提案し、以下の2つの研究成果を得た。 (1)ロボットの感覚運動統合学習:深層学習モデルの持つスケーラビリティの高い特徴量抽出能力により、生の画像データや音響データを直接学習器で扱うことが可能になった。これにより、人間の作り込みによる特徴抽出器に依存せず感覚運動統合学習を実現することが可能になった。提案モデルはロボットの複数物体操作行動の記憶学習タスクによって検証実験を行い、環境の変化に合わせて適切に行動選択を行うことや、画像、音響、運動など複数モーダル間で記憶連想を行うことにより、欠損した情報の補完が可能となることを示した。以上の結果から、実環境下におけるロボットの感覚運動処理において、深層学習が安定的な行動生成と環境認識に貢献することを示した。 (2)視聴覚統合音声認識:従来、音響情報、画像情報それぞれ独立なモーダルについて音声認識への応用研究が進められていた深層学習を統合的に扱うための計算モデルの提案を行った。具体的には、音声データの処理には全結合型の、唇領域画像データの処理には2次元の畳み込み層を持った階層型神経回路モデルを用いた。さらに、視聴覚統合にはマルチストリーム型隠れマルコフモデルを用いることにより、雑音による音響情報の信頼性の低下を画像情報で補完することを可能にした。提案手法により、深層学習の持つ高い汎化能力によってモーダル毎の認識率を向上させるだけでなく、視聴覚統合によって雑音に頑健な音声認識を実現できることを示した。
|