Project/Area Number |
21K21310
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1002:Human informatics, applied informatics and related fields
|
Research Institution | The University of Tokyo |
Principal Investigator |
Takahashi Takashi 東京大学, 大学院理学系研究科(理学部), 助教 (90906661)
|
Project Period (FY) |
2021-08-30 – 2024-03-31
|
Project Status |
Completed (Fiscal Year 2023)
|
Budget Amount *help |
¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2022: ¥1,560,000 (Direct Cost: ¥1,200,000、Indirect Cost: ¥360,000)
Fiscal Year 2021: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 統計力学 / 半教師あり学習 / レプリカ法 / 自己学習 / 疑似ラベル / アンサンブル学習 / 近似確率伝搬法 / 機械学習 / モデル圧縮 |
Outline of Research at the Start |
本研究では、半教師あり学習やモデル圧縮などの、多段階の学習プロセスに基づくヒューリスティクス法の性質を統計物理学の手法を用いて解析する。特にFranz-Parisiポテンシャルの計算技法との関連に注目して解析を行う。これにより、どのような場面でどの程度これらのヒューリスティクス法が有用であるかを系統的/定量的に明らかにし、分析方針の策定や分析結果の解釈の場面でデータ分析者の参照に耐える理論的知見を構築することを目指す。
|
Outline of Final Research Achievements |
The purpose of this study was to understand the behavior of a self-training algorithm that assigns pseudo labels to data points based on a pre-trained model and then retrains a new model using these labels. To achieve this, we analyzed the behavior of a linear model trained with this method for a binary classification problem using the mean-field theory of statistical mechanics. This analysis showed that the optimal approach varies with the number of iterations, and we organized strategies for efficiently improving generalization performance using this algorithm.
|
Academic Significance and Societal Importance of the Research Achievements |
データ科学の実務的な場面ではラベル付きデータが十分にあるという理想的な設定にないことは一般的で、分析者は様々なヒューリスティクスを用いて問題に対処している。そのなかで多段階の学習に基づくヒューリスティクスはアイディアを実装に繋げやすく、近年盛んに用いられている。本研究はその流れに沿い、そのような多段階の学習に基づくヒューリスティクスの利用方法に関する示唆を与えるものであり、実務に向けた理論的知見を新たに加えたという意義があると思われる。
|