研究課題/領域番号 |
15K16019
|
研究機関 | 東京工業大学 |
研究代表者 |
井上 中順 東京工業大学, 情報理工学院, 助教 (10733397)
|
研究期間 (年度) |
2015-04-01 – 2019-03-31
|
キーワード | 映像認識 / パターン認識 |
研究実績の概要 |
平成29年度は,以下の2点に関する研究を実施した.1)これまでに作成したフレームワークの大規模映像データセットによる評価,2)音情報を抽出するネットワークの調査・検討.1)に関しては,前年度に引き続き大規模画像データセットで事前学習されたニューラルネットワークを映像認識に適用した.その結果,物体やシーンの検出に高い効果があることが認められた.また,映像からイベントを検出する際にも,効果があることが明らかとなった.特に,1000種類の物体に関するデータ(ILSVRCデータセット),13000種類の物体に関するデータ(ImageNETデータセット),365種類のシーンに関するデータ(Placesデータセット)の組合せが効果的であることが明らかとなり,今後のデータセット作成の指針を得ることができた.また,これまでに作成したフレームワークでは,GoogLeNetと呼ばれるネットワークアーキテクチャを用いているが,今後はより多くの層で学習を可能とするResNet, ResNeXtアーキテクチャの導入が必要である.2)に関しては,Deep Autoencoderなど,音情報抽出に適したネットワークを模索している段階である.これらは,音声認識などに効果があるものであるが,研究の対象としている映像データに含まれる音データはノイズが多く,音質が低いものも含まれているため,ネットワークの学習が難しいという状態にある.これに関しては,質の高い音データで初期学習を行うなどの工夫が必要であり,音の部分に関しては当初計画よりも解決すべき課題が増えている.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
これまでに作成したフレームワークの評価が進み,映像認識での効果が確認できた点から研究はおおむね順調に進展している.
|
今後の研究の推進方策 |
今後の課題として,以下の2つが挙げられる. 1) より層の多いニューラルネットワークの導入 2) 音と画像を入力としたニューラルネットワークの作成 この内,1)は概要で述べた通り,ResNetなどの多層ニューラルネットワークを導入する.2)はそれに音特徴量を抽出するネットワークを組合せる形で研究を実施する.
|
次年度使用額が生じた理由 |
当初購入を予定していた機器(ファイルサーバと最新のGPU)の価格が高騰し購入を見送ったため.次年度にファイルサーバを優先して購入予定である.
|