データ分布の動的調整を実現するデータ拡張法の開発

Research Project

Project/Area Number	23K16966
Research Category	Grant-in-Aid for Early-Career Scientists
Allocation Type	Multi-year Fund
Review Section	Basic Section 61040:Soft computing-related
Research Institution	National Institute of Advanced Industrial Science and Technology
Principal Investigator	高瀬朝海国立研究開発法人産業技術総合研究所, 情報・人間工学領域, 研究員 (30844162)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,550,000 (Direct Cost: ¥3,500,000、Indirect Cost: ¥1,050,000) Fiscal Year 2025: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000) Fiscal Year 2023: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Keywords	データ拡張 / 深層学習 / 畳み込みニューラルネットワーク / ニューラルネットワーク
Outline of Research at the Start	データ拡張は，訓練データに変形を加えるなどしてデータ数を増やす技術であり，深層学習において広く用いられている．しかし，タスクごとに最適なデータ拡張手法や各手法がもつハイパーパラメータを決めるために，多くの探索時間を要する．そこで本研究では，データ分布の観点から，高い性能をもつモデルを訓練可能なデータ拡張戦略を効率的に探索することを考える．具体的に，生成データの分布を制御するデータ拡張法の考案と，ハイパーパラメータを学習中に動的に調整するアルゴリズムの開発という二つの課題に順に取り組む．
Outline of Annual Research Achievements	本年度は、深層学習におけるデータ拡張ポリシーの探索に関する研究を主に行った。データ拡張は深層学習において、必須の技術となっており、性能を大きく左右する重要な技術である。しかし、データ拡張の手法は数が多く、また各手法がハイパーパラメータを有しているため、データ拡張ポリシーの探索には多大な計算コストがかかるという問題がある。本研究は、新しい探索手法の開発により、探索に要する計算コストを軽減することを目的としている。従来のバリデーション精度のみを用いて適切なデータ拡張を選択する方法は、異なるデータ拡張で完全な学習を繰り返し行うため、時間がかかる。これと比べ、Affinity, Diversityを取り入れた提案指標は、短い探索ステップで適切なデータ拡張ポリシーを探索することが可能である。CIFAR-10やImageNet等のデータセットを用いた実験によって、提案法がデータ拡張ポリシーを効率良く探索することができることを確認した。具体的に、従来法では探索フェーズに200エポックの学習が行われていたところを、提案法では5エポックの学習でも高い精度で探索を行えることが確かめられており、大まかに考えて計算コストを0.025倍に減らすことができたことになる。この成果により、データ拡張の手法およびハイパーパラメータを決めるための計算コストが減少したことで、深層学習におけるデータ拡張利用の促進が進み、学習性能も向上することが期待される。本研究の成果は、コンピュータビジョン系の国内会議であるMIRU2023にて発表した。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 本研究は、データ拡張を用いた深層学習の汎化性能の改善と、データ拡張法のハイパーパラメータの探索時間の短縮を目標として取り組んだ。研究実施計画の初年度として、データ拡張のハイパーパラメータの変化とAffinityおよびDiversityとの関係性を、実験的に解析することで明らかにすることを計画した。本年度では、Affinity, Diversityを用いた指標を利用して、データ拡張法のハイパーパラメータの短縮を実現することができ、Affinity, Diversityとの関係性についても詳細に分析した。そのため、本研究の進捗としては、おおむね順調に進展しているといえる。本研究の成果をまとめ、査読付きの国際会議あるいは国際誌に発表する予定である。
Strategy for Future Research Activity	Affinity, Diversityを用いた指標によりデータ拡張ポリシーの探索を効率化するという本研究の成果は、画像データおよびResNetモデルを用いた多クラス分類タスクの実験によってその効果を実証したが、本手法は、様々な形式のデータやモデルに適応可能なものである。そこで、モデルに関しては、EfficientNetやVision Transformerなどの別のモデルでも同様の検証を行う。また、言語データや、セグメンテーションなど他のデータやタスクでも検証する。また、2年目の計画として予定していた、データ拡張のハイパーパラメータを調整することによる生成データの分布の制御に取り組む。