研究課題/領域番号 |
16K16083
|
研究機関 | 東京大学 |
研究代表者 |
川上 玲 東京大学, 大学院情報学環・学際情報学府, 助教 (90591305)
|
研究期間 (年度) |
2016-04-01 – 2018-03-31
|
キーワード | 鳥 / 検出 / 動画 / 深層学習 / ニューラルネットワーク / LSTM / Long Short-term Memory / CNN |
研究実績の概要 |
平成28年度の実施計画では,鳥動画の深層学習用データ作成に取り組む予定であった.共著者や風車を管理する公共機関との協力の下,北海道苫前町において約一ヶ月に渡り風車周辺の海ワシ類を対象として4Kの解像度の動画収集を行い,当該年度では,このうち三日分のデータ,およそ800GBに対して飛行する鳥の軌跡や背景の部分に対してラベル付が終了した.このデータは申請者らの深層学習による動画からの物体検出の論文において使用された.
また,当該年度では,二フレームの情報を用いた動画からの物体検出手法に取り組む予定であった.実際に,時系列と静止画情報の二つのストリームを統合するCNN(Convolutional Neural Networks)を踏襲し開発を進めてきたが,静止画のみを用いた場合との差分は1%程度に留まり,歩行者検出のベンチマーク(Caltech Pedestrian)で当時で世界三位の性能は達成できたものの,国際会議などでの採択に至っていない.これは,現在のパートの動き抽出に問題がある事もあるが,二フレームが動き情報として不足している可能性が否定できなかった.一方で,次年度に取り組む予定であったLong Short-term Memory networks (LSTM)を用いてより長い動画からの検出を行う手法が静止画のみのCNNと比較して数パーセント上回る結果が得られ,風力発電の分野で口頭発表として採択された.また,このLSTMに入力するための物体の軌跡を得る手法が国内会議に採択されたほか,鳥の画像認識の性能向上に関する深層学習の文献が英文雑誌,国際会議,国内会議にそれぞれ採択された.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
平成28年度の進捗は概ね順調であり,特に次の二つが大きな成果である.第一に,予定通りのデータ収集と基礎的なラベル付が行えたこと,第二に,動画からの物体検出に関して手がかりとなる最初の結果が得られたことである.
データ作成に関しては,申請者が産休を取得したこともあり,進捗は予定の八割程度と考えている.十分なデータ収集が行え,深層学習で利用できるだけの量のアノテーションが行えた一方,積み残した課題としては,(1)ラベル付が鳥とそれ以外に留まっていること,(2)ラベル付ができた鳥が200羽程度に留まっていること,がある.深層学習ではデータは多ければ多いほど,詳細であればあるほど良いため,次年度では,動画を1TB程度まで増やし,また種類のデータの追加やラベリングツールの整備を行うこと,及びこれらの公開を考えている.
手法の開発に関しては,当初予定と異なるものの順調であると考えている.28年度で開発を予定していた二フレームからの検出が思うような結果が得られず苦労した面があったが,29年度で進める予定であったLSTMを用いた手法が予定よりも早く実を結んだ.LSTMを用いた物体検出は世界的に見ても成功例が報告されておらず,世界初の成果である.一方で使用しているLSTMの構造自体が行動認識向けのものとの差分が学術的には大きいとは言えず,現在,改良を進めている.ただし,この開発過程で,LSTMがどうやら動画から動きを学習しており,CNN単体よりも性能が向上することが確実視できたことは大きい.(特に行動認識の枠組みではLSTMが画像特徴と動き特徴のどちらをどのように学習しているか不明であったため.)また,このLSTMの学習における課題がいくつか見えてきたことは実りが大きく,次年度に向けた基礎を築くことができた.
|
今後の研究の推進方策 |
データ作成に関しては,動画データを1TBまで増やし,鳥の種類のアノテーションを追加すること,及び,これらのデータを整備し,アノテーションツールとともにインターネットで公開することを計画している.
手法に関しては,いくつかの研究課題に関して解決を計画している.第一に,LSTMにより追跡と検出が同時に行われる手法の完成を目指している.具体的には,現在はLSTMに入力するための候補フレームの選択が前処理となっているが,この部分をLSTMの中に統合させる.追跡と検出の同時推定は,近年主流である毎フレームの検出に対抗できるほど高い性能を持つ手法が現れていなかったが,そのような初めての手法になる可能性が高い.第二に,歩行者検出などの世界標準のベンチマークでテストし,世界的な性能を達成することを計画している.第三に,LSTMがどのような動き特徴を学習しているかを可視化し,分析し,これまで明確な理解に至っていなかった動き特徴の解明を目指す.
|
次年度使用額が生じた理由 |
申請者は平成28年度6月19日から7月23日まで産前休暇,7月24日から9月30日まで産後休暇及び育児休暇を取得しており,データ作成の外注業務に遅れが生じたり,予定していた出張の遂行が難しかったため.
|
次年度使用額の使用計画 |
未使用分は,学習データの作成に対する謝金や,論文の出版,それに伴う国内・海外出張に支出する予定である.
|
備考 |
申請者の研究成果をまとめたページ,および,画像データセットを公開しているウェブサイト.
|