2021 Fiscal Year Research-status Report
ワクワクを創出するポーズ入力型プログラミング教材の開発
Project/Area Number |
20K14109
|
Research Institution | Fukui National College of Technology |
Principal Investigator |
小松 貴大 福井工業高等専門学校, 電子情報工学科, 助教 (60638766)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | Octave Convolution / 姿勢推定モデル / 機械学習 |
Outline of Annual Research Achievements |
まず軽量なモデルとしてスマートホンなどのデバイス向けに開発された物体識別のモデルであるMobileNet V3 Smallを用いて軽量な姿勢推定モデルの開発及びそのモデルを用いた学習を行なった。物体識別モデルはパソコンや椅子など画像から特徴が大きく異なるものを識別するのは得意であり、精度も高いが、人体の手や足の関節位置など比較的特徴が似通っているものを識別するのには不向きであり、正しく姿勢を推定することができなかった。MobileNet V3 Smallを用いた姿勢推定モデルはスマートホンなどのデバイスなどもで高速に動作するが、姿勢(骨格)を認識するのには不向きであることがわかった。 そこで、計算量の増加を防ぎつつも画像の分類精度を向上させることができるOctave Convolutionを導入した。これにより、画像の概略(低周波数成分)と細部(高周波成分)に分解し特徴量を抽出し、手や足の関節位置などの特徴の違いを抽出して精度の向上を狙った。その結果従来のモデルと比べて姿勢の認識精度は向上したものの、既存の姿勢認識モデルの中でも比較的優秀なモデルであるMegviiやDarkPose(COCO Challenge 2019における上位2モデル)とAverage Precisionの値でモデルの評価値を比較したところ、MegviiやDarkPoseがおよそ0.70~0.93程度の値に対して、Octave Convolutionを導入したモデルでは0.015~0.043と低い値となった。開発したOctave Convolutionを用いたモデルを詳細に調べたところ2800エポック以降は過学習を起こしていることがわかった。一方モデルの動作に関する速度は画像から17個のキーポイントを推定するのに1秒もかからない状態である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
モデルの改良が順調であり、現在精度のさらなる向上に向けた改良を行なっている。 高性能GPUを搭載したコンピュータの導入ができ、モデルの学習環境も整ったため今まで3ヶ月以上かかっていたモデルの学習時間が約1/30に短縮された。
|
Strategy for Future Research Activity |
姿勢認識のための方法でより発展的なことが望める頭部や関節位置などの認識を行うモデルの開発を行なっていた。つまり1枚の画像から左右の目・耳・鼻・肩・肘・手首・膝・足首、鼻の17個のキーポイントを予測するモデルを作成していた。それとは別に、1枚の画像そのものに対して特定のポーズを推定するモデルの開発を行なっている。これにより決まった種類のポーズであれば認識精度と認識速度は飛躍的に向上させることが可能となる。 今までは、一連のポーズを認識した後にロボットが指定した通りに動き出していたが、認識精度と認識速度が飛躍的に向上すればポーズによってリアルタイムにロボットを制御するといったことも可能となる。ポーズで行うプログラミング教材としての幅が広がる可能性がある。
|