2016 Fiscal Year Research-status Report
手指動作と非手指動作の重要度を考慮したマルチモーダル手話認識システムの開発
Project/Area Number |
15K12601
|
Research Institution | Kyushu Institute of Technology |
Principal Investigator |
齊藤 剛史 九州工業大学, 大学院情報工学研究院, 准教授 (10379654)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | マルチモーダル手話認識 / 手指動作および非手指動作 / 注視情報分析 |
Outline of Annual Research Achievements |
1.モーションセンサを利用した手話データセットの構築に関して、本研究に強く関連するマルチモーダル手話認識用の公開データベースChaLearnを入手した。これはイタリアの手話20単語が収録されており、Multi-Modal Gesture Recognition (MMGR) workshop on International Conference on Multimodal Interaction (ICMI)で利用されていた。そこで本研究ではChaLearnと同様に手話単語を収録した。ただし、モーションセンサとしてMicrosoft Kinect v2を用いた。手話者数6人に対して日本語手話100単語の手話シーンを撮影した。 2.昨年度取り組んだ手話シーン観察時の注視情報分析では、研究代表者の研究グループで開発したウェアラブルカメラを利用していた。被験者の注視点を正確に推定できるものの、頭部の動きによりカメラの位置がずれると注視点推定精度が低下する問題があった。そこで、据え置き型のアイトラッカーを利用したアプローチに変更し、昨年度と同様の実験を実施した。 3.これまでの提案した手話認識では、人手により設計した(hand-craft)特徴量を用いて、認識手法にはHMMを用いていた。今年度は、近年注目を集めている深層学習を導入した。具体的には、距離画像の手領域ROIを用いてフレーム連結画像を生成し、CNNにより認識する手法を提案した。従来手法に比べて高い認識精度が得られることを示した。また公開データセットChaLearnを用いた認識実験を実施し、その成果を国際会議に投稿した。 4.表情認識については、手話シーンにおける表情でなく、一般的にあ7表情の認識についてLBP-TOPを用いた手法を提案し国際会議で発表した。 5.読唇手法については、深層学習を導入することで高い認識精度が得られることを確認した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
モーションセンサを利用した日本語手話100単語のデータセットを構築した。手話者数は6名であり、今後も継続して撮影して充実を図る。 マルチモーダル手話認識に関して、他手法と比較するために、公開データセットであるChaLearnを入手し、実験を進めている。 認識手法に関しては深層学習を導入することで高い認識精度が得られる手法を提案した。 また学会における成果発表だけでなく、聴覚障害者と意見交換して本研究の方向性を確認した。
|
Strategy for Future Research Activity |
公開手話単語データセットであるChaLearnと今年度独自に収集した日本語手話100単語データセットを用いた実験を進める。独自収集のデータセットについては手話者を追加する。 認識手法については深層学習を継続して用いて、手話認識に有効な手法を検討する。 マルチモーダル手話認識手法を確立する。
|