研究分担者 |
塚本 昌彦 神戸大学, 大学院・工学研究科, 教授 (60273588)
有木 康雄 神戸大学, 都市安全研究センター, 教授 (10135519)
滝口 哲也 神戸大学, 大学院・工学研究科, 講師 (40397815)
川口 博 神戸大学, 大学院・工学研究科, 准教授 (00361642)
|
研究概要 |
本研究は、次世代ウエアラブルコンピュータに特化した、視覚・音声・言語処理を統合して知覚認識できる超低消費電力・統合型認識プロセッサコア(Unified Perception Processor : UPP)実現のための基礎技術を確立することを目的とする。画像認識アルゴリズムでは、画像に映っている物体をセグメンテーションして認識する研究、静止画・動画から人の動作を認識する研究、2次元画像から人の3次元姿勢を推定する研究を行った。これらは、ウェアラブル・パーセプション・デバイスにとって、実環境で視覚認識を正しく実行するための技術である。また、音声言語処理アルゴリズムでは、音声の到来方向を推定する研究、雑音下であっても音声特徴を正確に抽出する研究、音声の誤りを検出し訂正する研究等を行った。これらは、ウェアラブル・パーセプション・デバイスにとって、実環境で音声を検出して高精度に音声認識を行うための技術である。VLSIアーキテクチャ階層では、HDTV画像のSIFT特徴量を実時間で抽出する並列アーキテクチャを開発した。高い電力効率を実現するVLSIを設計し、試作(65nmCMOS)を完了し、従来技術に対して98.6%の電力削減を達成した。また、20000語彙の実時間連続音声認識のためのVLSIアーキテクチャの開発を完了した。GMM演算の高並列化,Viterbi演算アルゴリズム改良、キャッシュの導入,GMM演算とViterbi演算の2ステージパイプラインの導入を行ない、提案アーキテクチャをFPGAに実装することで、従来アーキテクチャに比べ実時間動作時の必要周波数を,20,000語で32%削減し41.71[MHz]での動作を確認した。さらに、コンピュータのデスクトップを常時画像処理し、決まったパターンに対してアプリケーション動作を行うルールベースエンジンを構築した。ウェアラブル環境で利用し、ウェアラブルカメラとHMDと組み合わせて利用することで、実空間内でのアノテーションや実空間連動型のサービスの構築が容易になる。画像処理には単純なテンプレートマッチングの方式を実装しているが、本研究で開発したSIFT処理エンジンに関しても、ソフトウェアレベルで統合が完了した。上記LSIと組み合わせて高速動作を実現することで、実用的な実世界アプリケーションの構築が可能になる。以上により、超低消費電力・統合型認識プロセッサ実現のための基礎技術を確立しえた。
|