2013 Fiscal Year Research-status Report
手指動作と非手指動作のサブユニットモデルに基づく手話認識に関する研究
Project/Area Number |
25350666
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Nagoya Institute of Technology |
Principal Investigator |
北村 正 名古屋工業大学, 工学(系)研究科(研究院), 教授 (60114865)
|
Co-Investigator(Kenkyū-buntansha) |
酒向 慎司 名古屋工業大学, 工学(系)研究科(研究院), 助教 (30396791)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | 手話認識 / 実時間手話認識 / 深度センサ / 手話辞書 / 深度センサ |
Research Abstract |
これまでに、ビデオカメラによって撮影された手話映像から手話認識を行う研究に取り組んできたが、このアプローチでは、位置センサやモーションキャプチャなどの特殊な装置を用いない点で有効であったが、画像処理による手指動作の特徴抽出処理が必要であり、リアルタイム性や撮影環境などの依存性の問題もあった。 本研究では、実用的な観点から、複雑な画像処理を必要としないリアルタイム性、撮影環境などの依存性が少ない装置として、近年、低価格化・高精度化の著しい深度センサに着目し、従来の手話認識の枠組みを活用した手話認識手法について取り組んだ。 平成25年度では、リアルタイム性能に重点を置いた大規模な手話辞書と深度センサを利用した手話認識手法の研究を実施した。研究では、手話の音韻要素である手の動き、位置、手形状(手形)の3つをそれぞれ抽象化した単位によって認識し、それらの結果を統合して認識を行う手法を開発し、100単語程度の手話単語認識がリアルタイムで処理できることを確認した。 深度センサにはMicrosoft社のKinectセンサを利用し、大規模な手話辞書の提供を受けた。深度センサを用いることで複雑な画像処理による手の位置や動きの特徴抽出を必要とせず、高精度に特徴抽出を行うことができ、一定のリアルタイム性を確保することができた。100単語の認識率としては74.3%を達成した。手の動きや位置の認識は比較的高精度にできている一方で、手形の認識が十分でないことも分かった。また、複雑な手形状の認識を伴うため、リアルタイム性能に影響することが分かった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究の大きな課題は手指・非手指動作に基づいた手話認識と深度センサを用いた実用性の確保の二つである。初年度では、深度センサの導入を前倒した形で、2つ目の課題を優先して実施し、小語彙ではあるが一定の性能とリアルタイム性を確保した手話認識システムを開発したことから、研究計画全体としては順調に推移している。 この成果に基づいて、深度センサを利用した手話データベースの構築の準備が整ったため、後述する深度センサの高精度版の導入後、速やかにデータ収録を行うことができる。また、近年の深度センサの高精度化は著しく、本研究で利用しているKinectセンサについてはその高精度版が平成26年度にリリースされることが平成25年度の時点で判明していた。従来版とは異なる計測方式が採用され、より高解像度で高精度な深度情報が得られることが期待でき、非手指動作である口形などの顔の形状情報の取得が容易となる。従来版では手の動きや位置形状の認識には十分な性能であったが、指の詳細な情報が必要となる手形の認識では不十分な点が指摘されており、手指動作の認識にも有効性が期待できるほか、より細かな形状変化である顔表情については次世代版を用いることの方が現実的であったため、非手指動作の研究課題の実施を平成26年度に移動させた。
|
Strategy for Future Research Activity |
25年度の研究では、リアルタイム性の評価に重点が置かれていたため、語彙数が限定され、手話の経験者が行っていないなど評価実験としては十分ではなかった。深度センサを用いた手話データベースは一般には流通していないため、手話辞書のエントリ数(2000語以上)に相当する規模の手話データベース構築が必要である。 これまでの研究では、手話通訳士による数百単語レベルの手話データベースの収録実績があり、限られた収録時間数で手話の音韻をカバーする語彙設計などの知見がある。これらの知見を利用して木村らの手話辞書を分析し、深度センサを用いて評価実験用の手話データベースの収録と構築を行う。このようなデータは現時点では公開されたものが無く、手話認識関連の研究分野からみて価値が高いと考えられるため、作成したデータベース全体を公開できるようにラベル付けなどのアノテーション作業を行う。 平成26年度には、当該年度中旬にリリースが予定されている深度センサの次世代版を導入する。これにより、従来版の深度センサでは取得が難しかった手形の詳細な形状や認識精度の向上が期待される。また、高精度な深度情報に基づいて、口形や眉の形状などの顔表情(非手指動作)への対応が可能となり、非手指動作の特徴抽出とそれを利用した手話認識手法の開発に取り組む。
|
Expenditure Plans for the Next FY Research Funding |
平成26年度には、当該年度中旬にリリースが予定されている深度センサの次世代版を導入する。そのため、25年度実施予定であった口形や眉の形状などの顔表情(非手指動作)への対応を26年度に移動し、そのための予算を25年度予算から確保することとした。 これにより、従来版の深度センサでは取得が難しかった手形の詳細な形状や認識精度の向上が期待される。また、高精度な深度情報に基づいて、手指動作だけでなく非手指動作をも考慮した高度な手話認識システムの構築が可能となる。 25年度から繰り越した予算では、手指動作や非手指動作情報を抽出可能な次世代深度センサーを購入するとともに、購入した深度センサーを用いて手話通訳士の手話データを収録する。また手話データのセグメンテーション、ラベリングを行い手話データベースを構築する。 このデータベースをもとに、平成26年度購入予定の手話モデル学習・認識実験用ワークステーション、実験データ記録用ハードディスクを活用して、手指動作や非手指動作を用いた高度な手話モデルの学習・認識を行うことが可能である。
|
Research Products
(2 results)