2016 年度実施状況報告書

手指動作と非手指動作の重要度を考慮したマルチモーダル手話認識システムの開発

研究課題

研究課題/領域番号	15K12601
研究機関	九州工業大学
研究代表者	齊藤剛史九州工業大学, 大学院情報工学研究院, 准教授 (10379654)
研究期間 (年度)	2015-04-01 – 2018-03-31
キーワード	マルチモーダル手話認識 / 手指動作および非手指動作 / 注視情報分析
研究実績の概要	１．モーションセンサを利用した手話データセットの構築に関して、本研究に強く関連するマルチモーダル手話認識用の公開データベースChaLearnを入手した。これはイタリアの手話20単語が収録されており、Multi-Modal Gesture Recognition (MMGR) workshop on International Conference on Multimodal Interaction (ICMI)で利用されていた。そこで本研究ではChaLearnと同様に手話単語を収録した。ただし、モーションセンサとしてMicrosoft Kinect v2を用いた。手話者数6人に対して日本語手話100単語の手話シーンを撮影した。２．昨年度取り組んだ手話シーン観察時の注視情報分析では、研究代表者の研究グループで開発したウェアラブルカメラを利用していた。被験者の注視点を正確に推定できるものの、頭部の動きによりカメラの位置がずれると注視点推定精度が低下する問題があった。そこで、据え置き型のアイトラッカーを利用したアプローチに変更し、昨年度と同様の実験を実施した。３．これまでの提案した手話認識では、人手により設計した（hand-craft）特徴量を用いて、認識手法にはHMMを用いていた。今年度は、近年注目を集めている深層学習を導入した。具体的には、距離画像の手領域ROIを用いてフレーム連結画像を生成し、CNNにより認識する手法を提案した。従来手法に比べて高い認識精度が得られることを示した。また公開データセットChaLearnを用いた認識実験を実施し、その成果を国際会議に投稿した。４．表情認識については、手話シーンにおける表情でなく、一般的にあ7表情の認識についてLBP-TOPを用いた手法を提案し国際会議で発表した。５．読唇手法については、深層学習を導入することで高い認識精度が得られることを確認した。
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由モーションセンサを利用した日本語手話100単語のデータセットを構築した。手話者数は6名であり、今後も継続して撮影して充実を図る。マルチモーダル手話認識に関して、他手法と比較するために、公開データセットであるChaLearnを入手し、実験を進めている。認識手法に関しては深層学習を導入することで高い認識精度が得られる手法を提案した。また学会における成果発表だけでなく、聴覚障害者と意見交換して本研究の方向性を確認した。
今後の研究の推進方策	公開手話単語データセットであるChaLearnと今年度独自に収集した日本語手話100単語データセットを用いた実験を進める。独自収集のデータセットについては手話者を追加する。認識手法については深層学習を継続して用いて、手話認識に有効な手法を検討する。マルチモーダル手話認識手法を確立する。

研究成果
(7件)

すべて 2016

すべて学会発表 (7件) (うち国際学会 2件)

[学会発表] Concatenated Frame Image based CNN for Visual Speech Recognition2016
- 著者名/発表者名
  Takeshi Saitoh, Ziheng Zhou, Guoying Zhao, and Matti Pietikainen
- 学会等名
  ACCV2016 workshop: Multi-view Lip-reading/Audio-visual Challenges (MLAC2016)
- 発表場所
  （Taipei International Convention Center (TICC) ，台北，台湾）
- 年月日
  2016-11-20 – 2016-11-20
- 国際学会
[学会発表] フレーム連結画像を用いたCNNによる読唇2016
- 著者名/発表者名
  齊藤剛史
- 学会等名
  第6回バイオメトリクスと認識・認証シンポジウム（SBRA2016）
- 発表場所
  芝浦工業大学（東京都江東区）
- 年月日
  2016-11-16 – 2016-11-17
[学会発表] 距離画像のフレーム連結画像を用いたConvolutional Neural Networkによる手話単語認識2016
- 著者名/発表者名
  橋村佳祐，齊藤剛史
- 学会等名
  電子情報通信学会　福祉工学研究会
- 発表場所
  唐津ロイヤルホテル（佐賀県唐津市）
- 年月日
  2016-10-16 – 2016-10-17
[学会発表] 距離画像のフレーム連結画像を用いたCNNによる手話単語認識2016
- 著者名/発表者名
  橋村佳祐，齊藤剛史
- 学会等名
  第3回サイレント音声認識ワークショップ
- 発表場所
  福岡朝日ビル（福岡県福岡市）
- 年月日
  2016-10-14 – 2016-10-15
[学会発表] フレーム連結画像を用いたCNNによる読唇2016
- 著者名/発表者名
  齊藤剛史
- 学会等名
  第3回サイレント音声認識ワークショップ
- 発表場所
  福岡朝日ビル（福岡県福岡市）
- 年月日
  2016-10-14 – 2016-10-15
[学会発表] LBP-TOP based Facial Expression Recognition using Non Rectangular ROI2016
- 著者名/発表者名
  Masaya Iwasaki and Takeshi Saitoh
- 学会等名
  International Conference on Information and Communication Technology Robotics (ICT-ROBOT2016)
- 発表場所
  （BEXCO，釜山，韓国）
- 年月日
  2016-09-07 – 2016-09-09
- 国際学会
[学会発表] フレーム連結画像を用いたCNNによるシーン認識2016
- 著者名/発表者名
  齊藤剛史，Ziheng Zhou，Iryna Anina，Guoying Zhao，Matti Pietikainen
- 学会等名
  第19回　画像の認識・理解シンポジウム（MIRU2016）
- 発表場所
  アクトシティ浜松（静岡県浜松市）
- 年月日
  2016-08-01 – 2016-08-04

2016 年度 実施状況報告書

手指動作と非手指動作の重要度を考慮したマルチモーダル手話認識システムの開発

研究代表者

齊藤 剛史 九州工業大学, 大学院情報工学研究院, 准教授 (10379654)

現在までの達成度 (区分)

理由

研究成果

[学会発表] Concatenated Frame Image based CNN for Visual Speech Recognition2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] フレーム連結画像を用いたCNNによる読唇2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 距離画像のフレーム連結画像を用いたConvolutional Neural Networkによる手話単語認識2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 距離画像のフレーム連結画像を用いたCNNによる手話単語認識2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] フレーム連結画像を用いたCNNによる読唇2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] LBP-TOP based Facial Expression Recognition using Non Rectangular ROI2016

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] フレーム連結画像を用いたCNNによるシーン認識2016

著者名/発表者名

学会等名

発表場所

年月日

2016 年度実施状況報告書

齊藤剛史九州工業大学, 大学院情報工学研究院, 准教授 (10379654)