研究課題/領域番号 |
19K12023
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61010:知覚情報処理関連
|
研究機関 | 大阪府立大学 |
研究代表者 |
ロイ パルサプラティム 大阪府立大学, 研究推進機構, 客員研究員 (10837222)
|
研究分担者 |
岩村 雅一 大阪府立大学, 工学(系)研究科(研究院), 准教授 (80361129)
井上 勝文 大阪府立大学, 工学(系)研究科(研究院), 准教授 (50733804)
|
研究期間 (年度) |
2019-04-01 – 2022-03-31
|
研究課題ステータス |
完了 (2021年度)
|
配分額 *注記 |
4,420千円 (直接経費: 3,400千円、間接経費: 1,020千円)
2021年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2020年度: 650千円 (直接経費: 500千円、間接経費: 150千円)
2019年度: 3,120千円 (直接経費: 2,400千円、間接経費: 720千円)
|
キーワード | Sign lang. recognition / 3D conv. neural networks / Deep learning / Attention Network / Sign Lang. Recognition / 3D Conv. Network / I3D Network / Temporal information / Multi-stream network / Optical flow / Skelton / Face / Hand / 3D Avatar Model / Machine Learning / Natural Lang. Processing / SyntheticData Generation / Computer Vision / Deep Learning / Sign Language / Data Synthesis |
研究開始時の研究の概要 |
Hearing impaired people use Sign language (SL) as the primary way of communication which is performed through the use of hand gestures, movements of arm/body, expressions, etc. To understand the SL by common people, many approaches were proposed for gesture recognition. A limitation of these approaches is that they require a large dataset for preparing the machine learning models which require manual annotation of millions of gestures. To solve this, we propose to develop a 3D avatar model to mimic SL which will be used to generate synthetic data. It will be a robust system for SL recognition.
|
研究成果の概要 |
単語レベル手話認識(WSLR)の性能向上のために、最初の手法では、大域情報、局所情報および骨格情報に焦点を当てたシステムを提案した。局所情報は手の形と顔の表情から成る。骨格情報は体の位置に対する手の相対位置を表す。これら3つの情報を組み合わせることにより、提案方法は最先端の方法よりも高い認識性能を達成した。 2番目の手法では、元々動作認識のために提案されたI3Dネットワークを、WSLRの性能向上のために変更した。ここでの改善には、inceptionモジュールを改良したDIMと、ジェスチャーの本質的な特徴を特定するための注意メカニズムに基づくTAMが含まれる。
|
研究成果の学術的意義や社会的意義 |
Word-level Sign Language Recognition (W-SLR) systems overcome the communication barrier between people with speech impairment and those who can hear. In our approach, we combined these local and relative position of body parts and achieved higher performance on most W-SLR datasets.
|