2022 Fiscal Year Annual Research Report
ワクワクを創出するポーズ入力型プログラミング教材の開発
Project/Area Number |
20K14109
|
Research Institution | Fukui National College of Technology |
Principal Investigator |
小松 貴大 福井工業高等専門学校, 電子情報工学科, 准教授 (60638766)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 機械学習 / 骨格推定 |
Outline of Annual Research Achievements |
深層学習を用いてスマートデバイスで動作させることを目的として、骨格推定(人体のキーポイントを推定)するモデルを開発した。このモデルには、計算量を増加させることなく画像の分類精度を向上させることができるOctave Convolutionを導入した。画像を高周波成分と低周波成分に分けて畳み込みを行うことで、低周波成分から画像における人体の大まかな位置を推定し、高周波成分から肘や手首などの細かい人体部位の位置情報を推定した。 モデルの学習にはCOCO(Common Object in Context)データセットを用いた。およそ33万枚の画像データを用いて学習を行ったがあまり良好な結果が得られなかった。原因を調査したところ、データセットの中には人体のキーポイントの座標がラベリングされていないものがあったり、ラベリングされていても座標位置情報が"0"となっているデータセットも存在していた。そこで、データセットから画像中に人物が1名のみ写っており、かつ体全体が写っているもののみを選択してモデルの学習に用いた。結果的に約1000枚の画像でモデルを構築した。およそ3000エポックの学習で損失は低くなり、過学習が発生することがわかった。 構築したモデルを従来のモデルと比較したところ、キーポイントの推定精度はMegviiやDarkPoseといったCOCOデータセットを用いた人体のキーポイントを推定するモデルよりも劣っていた。一方で、推定速度を比較してみるとOpenPoseでは人体のキーポイントの推定に約26秒ほどかかっていたが、本研究で開発したモデルでは読み込み時間約4秒、推定時間0.135秒と推定に要する合計時間は約4秒弱であった。これは、Octave Convolutionによるモデルの軽量化の効果と考えられる。
|