オンライン予測理論に基づくデータサンプリング問題への統合的アプローチ

研究課題

研究課題/領域番号	21K12032
研究種目	基盤研究(C)
配分区分	基金
応募区分	一般
審査区分	小区分61030:知能情報学関連
研究機関	九州大学
研究代表者	末廣大貴九州大学, システム情報科学研究院, 助教 (20786967)
研究期間 (年度)	2021-04-01 – 2024-03-31
研究課題ステータス	交付 (2022年度)
配分額 *注記	4,290千円 (直接経費: 3,300千円、間接経費: 990千円) 2023年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2022年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円) 2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
キーワード	データサンプリング / オンライン予測 / 組み合わせ最適化 / ノイズラベル / 機械学習 / ノイズデータ
研究開始時の研究の概要	本研究では，機械学習分野におけるデータサンプリング問題に対し，統合的な定式化と理論解析の枠組みを与えることを目指す．データサンプリングは，全てのサンプルを学習に用いるのではなく，可能な限り「望ましいデータ」のみをサンプリングするタスクのことで，多くのドメインで幅広く考えられているタスクである．従来は，ドメイン，タスクの細かい特性に応じたアドホックな定式化や手法が多く，汎用性や理論解析に関する議論が欠如している．本研究では，ドメイン，タスク依存の現状を打破するため，データサンプリング問題について（１）統合的な枠組みの開発，（２）理論性能保証，（３）実応用の開拓を行う．
研究実績の概要	オンライン予測理論に基づくデータサンプリング問題の枠組みを用い，様々な学習タスクへの適用を行った． 1. ラベル比率からの学習問題に対する疑似ラベルに基づく方法を構築した．オンライン予測理論に基づくデータサンプリングにより，効率的かつ高精度な疑似ラベルを担保しながらの学習を可能にした．実データを用いた実験でも，既存手法に比べ高い性能を示した．査読付き国際会議に投稿し受理された． 2. 研究計画でメインターゲットとしていた，ノイズラベルデータに対するノイズデータを除去しながら学習する手法を構築した．オンライン予測理論に基づくデータサンプリングにより，従来より２倍程度学習を高速化しつつ，高精度なノイズデータ除去と，ラベル予測が可能となった．実データを用いた実験においても，従来手法より高い精度でノイズデータの除去とラベル予測を行えていることが確認できた．現在学術論文誌に投稿中である．これらの結果によって，研究計画でも示した「統合的な枠組み」「オンライン予測理論に基づく理論性能の保証」および「実応用の開拓」を明らかにした．また，研究計画でメインターゲットとしていたノイズラベルデータに対する適用だけではなく，ラベル比率からの学習問題にも適用を可能とし，提案した枠組みの汎用性を示した．1. および 2. で扱った問題に対してオンライン予測理論に基づくデータサンプリングを導入したのは世界で初であり，各問題における既存手法とは一線を画す独創的なアプローチである．
現在までの達成度 (区分)	現在までの達成度 (区分) 2: おおむね順調に進展している理由様々な学習タスクに適用し，理論，応用の両面での解析結果から，オンライン予測理論に基づくデータサンプリングが汎用的な枠組みとして有用であることが示せている．
今後の研究の推進方策	現状，CIFARなどの一般的な実データに対する有用性は示せているものの，医療データなどの複雑なドメイン知識を要するデータに対しての有用性は示せていない．今後は問題設定と手法のさらなる拡張を図る．また，既存の問題への適用だけではなく，新たな学習タスクの創出にも取り組んでいく．

報告書

(2件)

2022 実施状況報告書
2021 実施状況報告書

研究成果

(2件)

すべて雑誌論文 (1件) (うち国際共著 1件、オープンアクセス 1件) 学会発表 (1件)

[雑誌論文] No Regret Sample Selection with Noisy Labels2021
- 著者名/発表者名
  Heon Song, Nariaki Mitsuo, Seiichi Uchida, Daiki Suehiro
- 雑誌名
  
  arXiv preprint 2003.03179
  
  巻: -
- 関連する報告書
  2021 実施状況報告書
- オープンアクセス / 国際共著
[学会発表] 識別器の斟酌学習2021
- 著者名/発表者名
  本田康祐，内田誠一，末廣大貴
- 学会等名
  電子情報通信学会パターン認識・メディア理解研究会（PRMU研究会）
- 関連する報告書
  2021 実施状況報告書