2016 Fiscal Year Research-status Report
可変入力型深層学習による入力形式を問わない学習手法の確立とその映像認識への応用
Project/Area Number |
15K16019
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | 映像認識 |
Outline of Annual Research Achievements |
平成28年度は,前年度作成したフレームワークにおける画像認識モデルを改良し,高精度化を行った.前年度は,画像特徴の抽出を行う深層学習において,8層の隠れ層を持ったニューラルネットワークを採用していたが,それを23層の隠れ層を持ったニューラルネットワークに変更することで,より大規模なデータセットでの学習を可能とした.具体的には,ImageNETと呼ばれる大規模絵画像データセットで事前学習されたネットワークを用いている.現在は,それを映像認識に適用し,評価する実験を進めている.
また,ニューラルネットワーク自体の性能評価と音響特徴量との組み合わせの効果を検証するために,従来の画像・音響特徴量を用いた映像の意味的インデクシングシステムと深層学習を用いたシステムの比較評価を行なった.その結果,深層学習に基づいたシステムは映像の意味的インデクシングにおいて従来よりも高い精度で物体・動作・シーンの検出が可能であること,また,従来のシステムと相補的な特徴を捉えていることが確認できた.特に学習用の映像サンプル数の少ない物体やシーンに関しては,ImageNETデータセットで事前学習されたネットワークによる特徴抽出が効果的であった.これは,ネットワークの汎用性の高さを示しているものであり,事前学習のデータ量を増やすことでさらなる精度改善が期待できる.一方,音に関連の深い動作やシーンは現在のニューラルネットワークでは検出が難しいことが明らかとなった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
前年度のシステムを改良出来た点と音響特徴量との相補性が示せた点から,研究はおおむね順調に進展している.
|
Strategy for Future Research Activity |
今後の課題として,以下の2つが挙げられる. 1) 音と画像の統合するフレームワークの改良 2) より高精度な音響特徴量抽出方法の開発 研究の進め方は次のとおりである.まず,1)では従来の音響特徴量を用いたシステムを基に,統合的な深層学習が可能かを検証する.次に,2)ではネットワーク自体の構造を変更する形で1)のシステムに組み込みつつ特徴抽出方法の開発を行う.
|