• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Constructing a mathematical foundation for heuristics based on transfer learning

Research Project

Project/Area Number 23K16960
Research Category

Grant-in-Aid for Early-Career Scientists

Allocation TypeMulti-year Fund
Review Section Basic Section 61040:Soft computing-related
Research InstitutionThe University of Tokyo

Principal Investigator

高橋 昂  東京大学, 大学院理学系研究科(理学部), 助教 (90906661)

Project Period (FY) 2023-04-01 – 2027-03-31
Project Status Granted (Fiscal Year 2023)
Budget Amount *help
¥4,810,000 (Direct Cost: ¥3,700,000、Indirect Cost: ¥1,110,000)
Fiscal Year 2026: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2025: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2024: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2023: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Keywords半教師あり学習 / 不均衡データ / 転移学習 / 統計力学 / 統計物理学 / レプリカ法 / 機械学習
Outline of Research at the Start

性質の良いデータで一度学習を行ったあと、その結果を引き継ぐようにして改めて学習を行うヒューリスティクスがあり、機械学習の実際的な設定に現れる様々な困難を解決する方法として盛んに研究されている。いっぽう、その成否を理論的に特徴付ける知見は希薄であり、与えられた条件での各手法の有用性は、実際に学習してみて手探り的に調べざるを得ない状況にある。そこで、本計画では転移学習型のヒューリスティクスを統計力学的にモデル化して理論的に解析し、その効果をデータや学習モデルの性質に応じて系統的に整理する。

Outline of Annual Research Achievements

今年度は、(i) 線形モデルにおける疑似ラベルを用いた自己学習アルゴリズム、および(ii)クラス不均衡データに基づく線形モデルのアンサンブル学習について、データ数とモデルパラメータ数が比例的に発散する比例的漸近論を用いて解析した。以下でそれぞれの研究の内容について説明する。
(i): 昨年までに導出していた疑似ラベルを用いた自己学習法の漸近的挙動について詳細な解析を行った。その結果、自己学習は学習の繰り返し回数が少ない場合には、若干のノイズを含んだラベルに対してモデルをフィットさせるという直感的な描像のもとに動作し、信頼度の低いラベルをデータから省く疑似ラベル選択(Pseudo-label selection,PLS)というヒューリスティクスが非常に有用であることが明らかとなった。一方、総反復回数が大きい場合には一回一回の更新におけるパラメータの変動量を小さくし、微少な更新を積み重ねる戦略が有効であることが明らかとなった。これは、疑似ラベルの損失が、パラメータ更新時に蓄積されうるノイズを打ち消す正則化のような役割を果たすためである。
(ii): 2成分クラスターデータの分類において線形分類器を学習する設定におけるアンダーバギング法の平均場理論を構築し解析した。その結果、アンダーバギング法に基づいて得られる分類器は、アンダーサンプリング法を用いて得られる分類器と比較して、分類面とクラスター中心の相関の情報は等価であるものの、分散の項がバギングによって低減することによってアンダーサンプリング単体よりも高い汎化性能を発揮することが明らかとなった。これはL2正則化がバギングと等価な性能を与える通常のバギング法とは異なる挙動であり、モデルのパラメータに対する直接的な正則化とアンサンブル学習の本質的な違いを示しているとも考えられる。

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

2023年度は[手法1: 疑似ラベルを用いた半教師あり学習]、および[手法2:不均衡データに対する2段階学習]について、ベースライン手法の解析を行い、次年度に発展的方法へと進む基礎を構築する計画であった。[手法2]についてはベースライン手法であるアンサンブル学習法による学習の解析が完了し、汎化性能が向上する機構もある程度明確となった。いっぽう、[手法1]については対抗馬となる手法の解析が遅れている状況にあるが、線形モデルの挙動からモデルパラメータ数がデータ数よりも少ない古典的な状況における振る舞いについては当初想定していた以上に動作機構が明快となっている。単にベースラインとの性能を比較するのみならず、自己学習の機構を明らかにする手がかりを得た状況にあると言える。以上を総合的に考慮して、「おおむね順調に進展している」と考えている。

Strategy for Future Research Activity

2023年度までの研究により、疑似ラベルを用いた自己学習の古典的設定における基本的構造、および不均衡データからの学習の基本手法の構造が明らかとなった。次年度は、疑似ラベルを用いた自己学習については、回帰やオーバパラメトライズドモデルの研究により、非古典的状況と古典的状況の対比を明確化する研究を行う。また、不均衡データからの学習については、2段階学習を行うことにより、素朴なアンダーサンプリング法と比較して、分散の低減とシグナル項の増大の両方が実現可能となるか否かと検討する。

Report

(1 results)
  • 2023 Research-status Report
  • Research Products

    (8 results)

All 2024 2023

All Journal Article (3 results) (of which Int'l Joint Research: 3 results,  Peer Reviewed: 3 results,  Open Access: 1 results) Presentation (5 results) (of which Int'l Joint Research: 2 results,  Invited: 1 results)

  • [Journal Article] Compressed Sensing Radar Detectors Under the Row-Orthogonal Design Model: A Statistical Mechanics Perspective2023

    • Author(s)
      Na Siqi、Huang Tianyao、Liu Yimin、Takahashi Takashi、Kabashima Yoshiyuki、Wang Xiqin
    • Journal Title

      IEEE Transactions on Signal Processing

      Volume: 71 Pages: 2668-2682

    • DOI

      10.1109/tsp.2023.3297743

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Role of Bootstrap Averaging in Generalized Approximate Message Passing2023

    • Author(s)
      Takahashi Takashi
    • Journal Title

      IEEE International Symposium on Information Theory (ISIT)

      Volume: 2023 Pages: 767-772

    • DOI

      10.1109/isit54713.2023.10206490

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Int'l Joint Research
  • [Journal Article] Average case analysis of Lasso under ultra sparse conditions2023

    • Author(s)
      Koki Okajima, Xiangming Meng, Takashi Takahashi, Yoshiyuki Kabashima
    • Journal Title

      Proceedings of The 26th International Conference on Artificial Intelligence and Statistics, PMLR

      Volume: 206 Pages: 11317-11330

    • Related Report
      2023 Research-status Report
    • Peer Reviewed / Open Access / Int'l Joint Research
  • [Presentation] 交互最適化法のダイナミクスについて2024

    • Author(s)
      岡島光希, 髙橋昂
    • Organizer
      日本物理学会2024年春季大会
    • Related Report
      2023 Research-status Report
  • [Presentation] 疑似ラベルの構成法について2024

    • Author(s)
      髙橋昂
    • Organizer
      日本物理学会2024年春季大会
    • Related Report
      2023 Research-status Report
  • [Presentation] Exploring bagging with structured data: Insights from precise asymptotics2023

    • Author(s)
      Takashi Takahashi
    • Organizer
      Exploring bagging with structured data: Insights from precise asymptotics
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research / Invited
  • [Presentation] A Statistical Mechanics Analysis of Iterative Self-Training2023

    • Author(s)
      Takashi Takahashi
    • Organizer
      STATPHYS28
    • Related Report
      2023 Research-status Report
    • Int'l Joint Research
  • [Presentation] 高次元モデルにおける不均衡データ分類2023

    • Author(s)
      髙橋昂
    • Organizer
      日本物理学会第78回年次大会
    • Related Report
      2023 Research-status Report

URL: 

Published: 2023-04-13   Modified: 2024-12-25  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi