2020 Fiscal Year Research-status Report
Project/Area Number |
20K19888
|
Research Institution | National Institute of Advanced Industrial Science and Technology |
Principal Investigator |
高瀬 朝海 国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 産総研特別研究員 (30844162)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 深層学習 / データ拡張 / 機械学習 / ニューラルネットワーク |
Outline of Annual Research Achievements |
データ拡張の戦略的な利用法として、データ拡張を適用するサンプルの選択に着目し、手法開発を行った。従来の方法は、すべての訓練サンプルにデータ拡張を適用するが、本研究では、データ拡張を適用すべきサンプルつまりデータ拡張が学習に効果あると考えられるサンプルと、そうでないサンプルに分かれていると考え、前者のサンプルに対してのみ、データ拡張を適用することを考えた。また、データ拡張を適用すべきかどうかの判断は、学習中に変化するものであると考え、データ拡張の機械的かつ動的な調整に着目した。これは、近年注目されてきている深層学習の自動化の流れに沿ったものであり、今後のデータ拡張の研究において注目されると考えられ、それを先駆けて行うことには大きな意義がある。本研究では、これを実現するためにSelf-paced Augmentation法を考案した。この手法はカリキュラムラーニングの考え方を利用しており、サンプル難易度に応じてデータ拡張を適用することで学習を効果的に進めることができる。提案手法のアルゴリズム設計およびプログラム実装を行い、CIFAR-10などの機械学習の基本的な画像データのベンチマークデータセットを用いた幅広い実験を通して、提案手法の性能を検証した。提案手法は、すべてのサンプルにデータ拡張を適用するという従来法を超える汎化性能を示す傾向がみられた。今年度の研究成果は、査読付き国際ジャーナルであるNeurocomputingで発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
データ拡張の最適化対象はいくつか考えられるが、まず本年度ではデータ拡張を適用するサンプルの選択に焦点を当てた。データ拡張はすべての訓練サンプルに適用すべきであるという従来の常識とは異なり、データ拡張を適用するのに適したサンプルに対してのみ適用するという新しい視点をもった学習法を提案した。したがって、ここまでの研究成果の中心となるのは、カリキュラムラーニングの考えに沿って柔軟にデータ拡張を適用する新しい学習アルゴリズムであるSelf-paced Augmentationを提案したことである。機械学習ベンチマークデータセットを用い、提案手法の優位性を示すことができた。また、詳細な実験を通して、学習中のデータ拡張を適用するサンプルの変化が確認でき、学習にとって効果的であると一般的にいわれている理想的な訓練誤差の推移もみられた。このように、関連研究で得られた知見に基づいて提案手法の設計や実験解析を行ったことにより、根拠のある手法として高く評価され、Neurocomputingへの採択に至った。しかし、大規模データや他ドメインのデータの利用、クラス分類以外のタスクにおける実証はまだ行っていない。さらに、提案手法が含むパラメータの洗練が十分でなく、手法としての完成度を上げる余地も残されている。以上のことから、実験やアルゴリズム設計の点でまだ不十分な部分はあるものの、おおむね順調に進展しているといえる。
|
Strategy for Future Research Activity |
Self-paced Augmentationの基本的な設計・実装は終わったため、今後はそれを拡張し、手法の完成度を高める。現在はサンプルの選択基準となるパラメータを手動で決めるようになっており、学習中固定されているが、それでは柔軟性に欠けるので、学習中に自動的に適切な値に変化させるようにアルゴリズムを改良する。さらに、最先端のネットワーク構造や大規模データセットを用いて実験を行う予定である。提案手法は、画像データのみならず、数値データやテキストデータなど他ドメインのデータにも適用可能な手法であるので、様々なデータを用いて検証し、提案手法が有効に働く範囲を明確にする。また、データ拡張の自動化の対象を広げ、現在テーマとして扱っているデータ拡張に適切なサンプルの選択だけではなく、データ拡張の種類やパラメータの最適化を自動的に行うことも計画している。データ拡張のあらゆる面を自動的に最適化することにより、これまでのデータ拡張に対する人為的かつ経験的な利用から脱却することを目指す。今後はこれらの最適化に個別に取り組み、それぞれについて新しい手法を開発および検証し、国際会議やジャーナルでの発表を行いたい。それが達成されれば、その後、これら一連のデータ拡張の自動化手法を一つのプログラムコードとしてまとめ、より利用しやすい形で公開する。
|
Causes of Carryover |
研究を進めていく上で必要に応じて研究費を執行したため、当初の見込み額と執行額は異なったが、研究計画に変更はなく、当初予定通りの計画を進めていく。
|