平成28年度は,前年度作成したフレームワークにおける画像認識モデルを改良し,高精度化を行った.前年度は,画像特徴の抽出を行う深層学習において,8層の隠れ層を持ったニューラルネットワークを採用していたが,それを23層の隠れ層を持ったニューラルネットワークに変更することで,より大規模なデータセットでの学習を可能とした.具体的には,ImageNETと呼ばれる大規模絵画像データセットで事前学習されたネットワークを用いている.現在は,それを映像認識に適用し,評価する実験を進めている.
また,ニューラルネットワーク自体の性能評価と音響特徴量との組み合わせの効果を検証するために,従来の画像・音響特徴量を用いた映像の意味的インデクシングシステムと深層学習を用いたシステムの比較評価を行なった.その結果,深層学習に基づいたシステムは映像の意味的インデクシングにおいて従来よりも高い精度で物体・動作・シーンの検出が可能であること,また,従来のシステムと相補的な特徴を捉えていることが確認できた.特に学習用の映像サンプル数の少ない物体やシーンに関しては,ImageNETデータセットで事前学習されたネットワークによる特徴抽出が効果的であった.これは,ネットワークの汎用性の高さを示しているものであり,事前学習のデータ量を増やすことでさらなる精度改善が期待できる.一方,音に関連の深い動作やシーンは現在のニューラルネットワークでは検出が難しいことが明らかとなった.
|