研究実績の概要 |
本研究では、Deep Learningによる画像認識技術を応用した手話認識システムの実現を目指し、Deep Leaningによる手の形状認識システムの開発を行った。前年度に科研費(奨励研究)の助成を受け、大量の指文字画像から学習したニューラルネット(NN)により指文字の画像を分類するシステムを開発したが、学習データが手先を写した写真ばかりであったため、話者の全身を写したような画像から指文字を認識することが困難であるという課題が残った。そこで、Microsoft製のKinectセンサの骨格推定機能を利用し、画像から手のみを正確に捉えた画像を切り取って指文字認識システムへ送ることで, リアルタイムに撮影する話者の全身画像から指文字の分類を可能とするシステムの開発を行った。 システムはKinect v1とWindows PCで構成し、プログラミング言語C#を用いて開発を行った。Kinectの関節推定により得られた手先の座標をもとに手の画像を切り出し、データをNNに送り画像の分類を行った。当初、切り出した画像を前年度の分類システムに認識させたところ十分な認識精度を得ることができなかった。この原因は学習データを別のカメラで用意したためであると考えられたため、Kinectにより学習データを撮影するモードを用意し、改めて学習データを作成しNNを学習させた。その結果、認識精度は向上しKinectで撮影した実環境画像から認識を行うことが可能となった。Kinectで撮影した話者の手先の位置を推定し、その形状を認識し分類するシステムを開発することができた。しかし、実際の手話は手の形だけではなくその動きも併せて表現されるものであるため、それらの認識も含めて学習することが必要となる。そこで、時系列データ処理が可能なリカレントニューラルネットに手話者の動作の認識をさせることが今後の課題となった。
|