研究課題/領域番号 |
18K11348
|
研究機関 | 東京大学 |
研究代表者 |
川上 玲 東京大学, 大学院情報理工学系研究科, 特任講師 (90591305)
|
研究期間 (年度) |
2018-04-01 – 2021-03-31
|
キーワード | マルチタスク学習 / ニューラルネットワーク / 物体検出 / 汎化性能 |
研究実績の概要 |
2019年度は,前年度に検討したタスクの組み合わせに交差接続(Cross-Unit)を適用し,有効性を検証する予定であった.前年度,領域分割と物体検出のタスクに有効であることをすでに検証していた.特に,Caltech Pedestrianという主にカリフォルニアで撮影された動画による人検出のデータセットと, Cityscapesという50都市(主にドイツ,一部スイスの都市)を車載カメラで撮影したものに領域分割のラベルをつけたデータセットを用いた.これらに対して,前年度に物体検出の性能が向上することを確認した.今年度はこれに加えて,学習には用いていないKITTIというドイツのカールスルーエ周辺で撮影されたデータを用いて,提案手法や他のマルチタスク手法を適用した.その結果,提案手法である交差接続の汎化性能が最も高くなることを確認した.また,森林の付近で鳥を撮影したデータセットで,近畿地方に夏に撮影したものを用いて,鳥の検出と領域分割をマルチタスク学習させた.その結果,提案手法が特筆して検出に高性能ではなかったが,冬に北海道で撮影されたデータ,すなわちネットワークには未知のデータに適用したところ,やはり提案手法が最も検出の性能が高くなることを確認した.これは,インドメインのデータで検証している限りは分からないが,交差接続によって一般のデータに対しては汎化した解が得られていたことを示唆する.この結果は,研究代表者の主著で国際会議に採択された.
また,副次的な成果も出た.マルチタスクの一つとして,再構成を分類と同時に学習すると,未知のデータの検出に有効であることが分かった.この結果は,コンピュータビジョンのトップ会議に採択された.物体検出の派生研究である結果も,英文雑誌に二本採択された
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
2019年度の進捗はおおむね順調に進んだと評価している.交差接続を領域分割と物体検出の組み合わせに適用し,一般的に汎化性能が向上できそうであることが示せた.特に,晴天時に近畿地方で撮影されたデータで,鳥の検出と領域分割に適用したところ,検出では,その他のマルチタスク学習の手法の性能を超えられなかった(最高性能の手法は平均見落とし率(低いほどよい)が17%,提案手法は19%).しかし,冬の北海道で撮影された,ネットワークにとっては完全に未知の環境のデータに検出のタスクで適用したところ,他手法が平均見落とし率で34~44%であったのに対し,提案手法は30%と最高の性能を達成した.これは,人検出のデータで,他手法が50~60%ほどであったのが,提案手法では49%と最高の性能であったことと一貫している.他の文献でも見られる傾向であるが,一般にインドメインのデータでマルチタスクの性能を評価している限り,マルチタスクが足枷になり,シングルタスクで学習した学習器の性能を超えることは難しい.一方で,他のドメインのデータに適用すると,汎化している傾向があることが今年度の取り組みから明らかになった.
また,マルチタスクの応用として,画像の分類と再構成をマルチタスク学習したネットワークの潜在表現が,未知の画像の検出に有効に機能することが分かった.具体的には,CIFAR-10という10クラスの学習に,未知の画像としてImageNetやLSUNの画像を切り出したり,リサイズしたりして加えたものを用いた際,F1スコアのクラス平均で,0.72~0.75を達成した.(他手法は0.62~0.68程度である.)これらの成果は,より汎化した潜在表現をどのように獲得すべきかという指針の一つになると考えている.
|
今後の研究の推進方策 |
今後は,当初の計画通り,動画におけるマルチタスク学習として,交差接続の畳込み層を畳込みLSTMで代替した,交差接続型時系列データ処理のネットワークの設計に取り組む.動画のデータとしては,申請者が若手研究で作成した鳥の動画を用いる予定である.ただし,これは4Kの解像度がある動画であるため,追跡と検出のマルチタスク学習を用いて,効率的に検出を行うネットワークを設計し,検討する.ネットワークの開発や最適化を進め,またベースラインの手法も実装し,性能を比較する.
また,今年度,汎化した潜在表現が,未知の画像の分類にも寄与することが判明した.そこで,未知の画像にも対応できるような汎化した潜在表現の学習にも継続して取り組む.可能であれば,静止画と動画の両方で未知の静止画や動画が検出できるか,検証を行う.静止画は,引き続きMNISTやCIFARなどの小規模なデータでより理論的な検証を進める.動画では,異常検知などのデータセットを用いて,異常(学習には入っていない動画)の検出を試みる.
|
次年度使用額が生じた理由 |
汎化性能を検証するためのデータは,申請者の若手研究のときのデータを多少の処理を加えて流用することができたため,想定よりもデータ作成のコストを下げることができた.一方で,出版件数が想定よりも増加する見込みであるため,未使用額はこれらの出版費用や発表のための出張費用に充てる.
|