研究概要 |
私たち人間は、ある静止物体を見て、その物体が何であるかを容易に認識することができる。この認識は、物体の視覚情報を脳内に送り込み、判断となる標準画像(スタンダード・ビュー)とのマッチング、あるいはスタンダード・ビューへのマッピングを行うことによって行われていると思われる。このような情報処理にヒントを得て、Poggioらは、ニューラルネットワークの一種であるGRBF(Generalized Radial Basis Functions)ネットワークを提唱した。これまで我々は、連続運動を時間的にコマ撮りされたフレーム(静止物体)の集合体とみなし、GRBFネットワークを用いた連続動作認識が可能であることを示してきた。本研究では、連続動作認識用GRBFネットワークに複数の動作を学習させることを試み、そして動作認識について検証した。入力データには、手の関節の角度データの時系列データを用い、その取得にはデータグローブを使用した。実験データとして、"にぎる"と"さす"の2つの動作の時系列データの列(50フレーム)をそれぞれ6セット用意し、それぞれ5セットを学習用データ、1セットを教師用データとする。たとえば、学習させるとき、kの5セットの学習用データ(ある決めたフレーム番号のデータ)をひとかたまりとし、そのフレーム番号の教師用データを教師信号として学習させる。なお、学習終了後にそのフレームが認識できたかはそのフレームに固有の認識用フラグを設定し、出力されるフラグの値がこの値になるかで判断する。そして同様の学習を異なるフレーム番号についても行う。学習後、未学習の1動作のデータを入力した際に学習させたフレームの順番に認識用フラグと同じ値が出力されれば、"にぎる"あるいは"さす"の動作であると判断できるのではないかと考えた。1動作50フレームのうち、"にぎる"の3,8,14,23,45のフレーム目と"さす"の8,14,23,45フレーム目の計9つのフレームをひとかたまりとして学習を行わせた。認識用フラグも9つ用意し、各フレームごとにフラグの値を変えて学習させた。学習後、"にぎる"と"さす"の未学習データを入力し、フラグ出力結果より認識率を出したところ、"にぎる"は83%、"さす"は82%と、かなり高い確率で正しく認識ができた。
|