データ拡張には多くの手法があり、各手法がハイパーパラメータを有しているため、タスクごとに最適な手法およびハイパーパラメータを探索する必要がある。また、従来の研究において注目されてこなかった最適化の対象として、データ拡張をどのサンプルに適用するかという問題がある。本研究で提案したSelf-paced augmentation法は、訓練中の損失関数の値をもとに、データ拡張を適用するサンプルおよび適用しないサンプルを決定する手法であり、これを用いることで、多数のデータセットおよびニューラルネットワークを用いた実験において、本研究の目標として掲げていた汎化性能の向上を達成することができた。 これを踏まえ、最終年度は、他の最適化対象であるデータ拡張手法と各手法のハイパーパラメータの最適化について中心的に取り組んだ。従来の、訓練後に計算されるバリデーションデータの精度をもとに最適なデータ拡張を探索する方法は、多くの計算コストを必要とする。そこで、データ拡張の探索に関する関連研究を調査し、AffinityおよびDiversityというデータ拡張の指標が、汎化性能をうまく表すことができたという研究結果に着目した。本研究では、これらの指標を考慮に入れた新しい指標を提案し、これを利用することで、探索に必要な訓練ステップ数を大幅に減らすことができることがわかった。機械学習ベンチマークデータセットを用いた実験を行い、AffinityおよびDiversityを考慮した指標に基づいてデータ拡張の手法およびハイパーパラメータを探索することで、バリデーションデータの精度を用いる方法よりも、40分の1程度ほどの時間で最適化を行うことができ、さらに最適なデータ拡張をより精度よく選び出すことができるという結果が得られた。
|