• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Unified approach for data sampling problems based on online prediction theory

Research Project

Project/Area Number 21K12032
Research Category

Grant-in-Aid for Scientific Research (C)

Allocation TypeMulti-year Fund
Section一般
Review Section Basic Section 61030:Intelligent informatics-related
Research InstitutionYokohama City University (2023)
Kyushu University (2021-2022)

Principal Investigator

Daiki Suehiro  横浜市立大学, データサイエンス学部, 准教授 (20786967)

Project Period (FY) 2021-04-01 – 2024-03-31
Project Status Completed (Fiscal Year 2023)
Budget Amount *help
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2023: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2022: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywordsデータサンプリング / オンライン予測 / ノイズあり機械学習 / 機械学習 / 組み合わせ最適化 / ノイズラベル / ノイズデータ
Outline of Research at the Start

本研究では,機械学習分野におけるデータサンプリング問題に対し,統合的な定式化と理論解析の枠組みを与えることを目指す.データサンプリングは,全てのサンプルを学習に用いるのではなく,可能な限り「望ましいデータ」のみをサンプリングするタスクのことで, 多くのドメインで幅広く考えられているタスクである.従来は,ドメイン,タスクの細かい特性に応じたアドホックな定式化や手法が多く,汎用性や理論解析に関する議論が欠如している.本研究では, ドメイン,タスク依存の現状を打破するため,データサンプリング問題について(1)統合的な枠組みの開発,(2)理論性能保証,(3)実応用の開拓を行う.

Outline of Final Research Achievements

For various data sampling problem in machine learning, I designed a unified formulation and gave theoretical analyses based on online prediction theory. More precisely, for the pseudo labeling problem in Learning from Label proportions and data selection problem in learning with noisy labels, I proposed a unified framework for adaptively sampling good data according to the learning behavior. For both problems, I proved the proposed algorithms work effectively in theory and in practice.

Academic Significance and Societal Importance of the Research Achievements

データから学習を行う機械学習は人工知能の中核をなす技術である.一般に,データに付与される「正解」は誤り(ノイズ)が含まれていたり,全てのデータに付与されていなかったり,不完全なものであることが多い.このようなデータから適切な学習を行うためには,データ集合の中から適切な情報だけを取り出すサンプリングが重要な役割を担う.しかし,サンプリングはデータの性質やタスクに応じたアドホックな定式化や手法が多く,汎用性や理論解析に関する議論が欠如していた.本研究ではデータやタスク依存の現状を打破する統合的な枠組みと理論性能保証の指針を与え,サンプリング技術ひいては機械学習技術の発展に大きく寄与するものである.

Report

(4 results)
  • 2023 Annual Research Report   Final Research Report ( PDF )
  • 2022 Research-status Report
  • 2021 Research-status Report
  • Research Products

    (6 results)

All 2024 2023 2021

All Journal Article (3 results) (of which Int'l Joint Research: 2 results,  Peer Reviewed: 2 results,  Open Access: 2 results) Presentation (3 results) (of which Int'l Joint Research: 1 results)

  • [Journal Article] No regret sample selection with noisy labels2024

    • Author(s)
      Song Heon、Mitsuo Nariaki、Uchida Seiichi、Suehiro Daiki
    • Journal Title

      Machine Learning

      Volume: 113 Issue: 3 Pages: 1163-1188

    • DOI

      10.1007/s10994-023-06478-8

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Learning From Label Proportion with Online Pseudo-Label Decision by Regret Minimization2023

    • Author(s)
      Matsuo Shinnosuke、Bise Ryoma、Uchida Seiichi、Suehiro Daiki
    • Journal Title

      Proceedings of the 47th International Conference on Acoustics, Speech, and Signal Processing

      Volume: - Pages: 1-5

    • DOI

      10.1109/icassp49357.2023.10097069

    • Related Report
      2023 Annual Research Report
    • Peer Reviewed / Open Access
  • [Journal Article] No Regret Sample Selection with Noisy Labels2021

    • Author(s)
      Heon Song, Nariaki Mitsuo, Seiichi Uchida, Daiki Suehiro
    • Journal Title

      arXiv preprint 2003.03179

      Volume: -

    • Related Report
      2021 Research-status Report
    • Open Access / Int'l Joint Research
  • [Presentation] No Regret Sample Selection with Noisy Labels2023

    • Author(s)
      Heon Song, Nariaki Mitsuo, Seiichi Uchida, Daiki Suehiro
    • Organizer
      European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases 2023
    • Related Report
      2023 Annual Research Report
    • Int'l Joint Research
  • [Presentation] ノイズラベルを含むデータに対する適応的サンプリングの枠組み2023

    • Author(s)
      ソン ホン, 満尾成亮, 内田誠一, 末廣大貴
    • Organizer
      第26回情報論的学習理論ワークショップ
    • Related Report
      2023 Annual Research Report
  • [Presentation] 識別器の斟酌学習2021

    • Author(s)
      本田康祐,内田誠一,末廣大貴
    • Organizer
      電子情報通信学会 パターン認識・メディア理解研究会(PRMU研究会)
    • Related Report
      2021 Research-status Report

URL: 

Published: 2021-04-28   Modified: 2025-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi