深層学習におけるデータ拡張の戦略的利用法の開発

研究課題

研究課題/領域番号	20K19888
研究種目	若手研究
配分区分	基金
審査区分	小区分61040:ソフトコンピューティング関連
研究機関	国立研究開発法人産業技術総合研究所
研究代表者	高瀬朝海国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (30844162)
研究期間 (年度)	2020-04-01 – 2023-03-31
研究課題ステータス	完了 (2022年度)
配分額 *注記	4,160千円 (直接経費: 3,200千円、間接経費: 960千円) 2022年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円) 2021年度: 1,040千円 (直接経費: 800千円、間接経費: 240千円) 2020年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
キーワード	データ拡張 / Data augmentation / 深層学習 / ディープラーニング / ニューラルネットワーク / カリキュラム学習 / 教師あり学習 / 機械学習
研究開始時の研究の概要	深層学習モデルの汎化性能を向上させるために，手元の訓練データに変形を加えることでデータ数を増加させる方法がよく用いられる．このデータ拡張技術は，理論的基盤が確立していないため，経験や直観に基づいた利用が主流であるが，不適切なデータの生成により，汎化性能の不十分な改善や悪化が起こり得るという問題がある．本研究では，深層学習の解の探索に与えるデータ拡張の影響を理論的に解明する．さらに，その影響に基づき，汎化性能の向上を目的として，データ拡張を適用するデータや各データ拡張手法のパラメータといった対象を，動的に選択・最適化する手法を個別に考案し，分類問題における提案手法の効果を実験的に検証する．
研究成果の概要	本研究は、データ拡張が不適切に利用されることを避け、深層学習にとって有益となるようなデータ拡張の適用法を開発した。提案法であるSelf-paced augmentation法は、訓練中の損失関数の値をもとに、データ拡張を適用するサンプルおよび適用しないサンプルを動的に決定する手法である。多数のデータセットおよびニューラルネットワークを用いた実験において、提案法は汎化性能の向上を達成することができた。また、データ拡張の指標をもとに、データ拡張の手法とハイパーパラメータを探索する方法についても考案し、探索時間の短縮を実現することができた。
研究成果の学術的意義や社会的意義	データ拡張は経験や直感に基づいて利用されることが多いのが現状であるが、不適切なデータ拡張の利用はモデルの汎化性能を落とすことになる。本研究でデータ拡張をデータに応じて適切に適用する手法を開発したことは、深層学習の性能や安定性を高めることに対して大きく貢献すると期待される。研究成果は、IF付き国際誌Neurocomputingで発表された。

報告書

(4件)

研究成果
(1件)

すべて雑誌論文 (1件) (うち査読あり 1件、オープンアクセス 1件)

[雑誌論文] Self-paced data augmentation for training neural networks2021
- 著者名/発表者名
  Tomoumi Takase, Ryo Karakida, Hideki Asoh
- 雑誌名
  
  Neurocomputing
  
  巻: 442 ページ: 296-306
- DOI
  10.1016/j.neucom.2021.02.080
- 関連する報告書
  2020 実施状況報告書
- 査読あり / オープンアクセス