2020 Fiscal Year Research-status Report
Machine Learning with Small Data
Project/Area Number |
19K22863
|
Research Institution | The University of Tokyo |
Principal Investigator |
山崎 俊彦 東京大学, 大学院情報理工学系研究科, 准教授 (70376599)
|
Project Period (FY) |
2019-06-28 – 2022-03-31
|
Keywords | 少量学習データ / ドメイン適応 / 弱教師付き学習 / 半教師付き学習 / Few -Shot学習 / Zero-Shot学習 |
Outline of Annual Research Achievements |
深層学習では、大規模データが特に重要であるが裏を返せばそのデータを取得・作成するための時間的・金銭的コストが大きな問題となる。本研究の目的は、この問題を解決するために、ドメイン適応、弱/半教師付き学習、Few/Zero-Shot学習など少量のデータでも学習可能なアルゴリズムを実現することである。 画像を別の用途で再利用しようとすると、画像中の影領域が問題になることがある。従来の影領域検出・除去の研究では影あり・影なしのペア画像を自前で生成して学習するのが一般的であった。しかし、実世界では2枚の画像を撮影する間にも刻一刻と日照などの撮影状況が変化するし、多くの形状の影を作ってバリエーションをもった影データセットを生成することは極めて困難であり、そのため精度低下が起きていた。この問題に対し、現実に近い影の生成モデルを定義し、CGと画像合成の技法を用いて大量の影あり・影なしのペア画像をメモリ上に生成する手法を考案し、実験の結果世界最高性能の影検出・影除去技術を実現できたことを確認した。研究開発した技術はIEEE TCSVTに掲載されたほか、オープンソースとして一般公開した。 また、映像の検索・認識の課題では、映像特徴表現の学習方法としてこれまでのオプティカルフローが必要な技術に変わる差分フレーム法を提案して超軽量で高精度な処理を実現した。さらに、Inter-intra contrastive learningという新たな自己教師あり学習法を提案し、小さなデータセットを用いたトレーニングで非常に高い検索・認識精度を実現した。 その他、Cycle-consistencyを利用した異モーダルデータに対するステレオマッチングや医療画像認識における精度低下の要因調査など挑戦的な課題に取り組んだ。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
2年間の短期プロジェクトであるが、非常に多くの項目について順調に成果が出ている(ただしコロナの影響を受け、旅費などの執行がままならなかったことから研究期間を延長した)。 2020年度は特に多くの学術論文、国際会議論文を発表することができた (詳細は発表文献欄参照)。また、積極的に研究成果のオープンソース化を行った。コード公開から間がないにも関わらず、[Tao, ACMMM20]の公開コードには60以上の星、[Kosugi, AAAI20], [Inoue, TCSVT20]のコードにはそれぞれ30以上の星がつくなど、当該分野の発展に対して貢献できたことが伺える。 さらには、研究開発した技術の一部が企業との共同研究に発展したり、海外のテックブログで取り上げられたりするなど予期せぬ発展もあった。
|
Strategy for Future Research Activity |
実社会の問題では、理想的にデザインされたベンチマークデータセットとは異なり、クラスごとのデータ数が極めてアンバランスな場合が多い。このような状況で通常の学習をすすめると、最頻出クラスに過適合を引き起こしてしまう。この問題に対し、学習データのアンバランスがあっても効果的に学習を進められる対照学習についてアイデアを得ており、実験・検証を進めていく。 また、対照学習を用いた学習はラベルが必要ないか軽微なラベルでよいという利点があり、多くの可能性を感じている。特に動画処理はラベリングのコストが高く現実的でないため、例えば映像要約や映像編集に対照学習をうまく使うことで少量のラベルデータしかない状況でも効果的に学習できる手法を模索していく予定である。
|
Causes of Carryover |
コロナの影響により旅費等の執行ができなかったことに依り、予定通りの予算消化ができなかった。 2021年度は本成果の外部発表のための英文校正や出版費用に支出予定である。
|