2021 Fiscal Year Research-status Report
Statistical mechanics of heuristic methods in multi-stage learning
Project/Area Number |
21K21310
|
Research Institution | The University of Tokyo |
Principal Investigator |
高橋 昂 東京大学, 大学院理学系研究科(理学部), 助教 (90906661)
|
Project Period (FY) |
2021-08-30 – 2023-03-31
|
Keywords | 機械学習 / 半教師あり学習 / 統計力学 / レプリカ法 |
Outline of Annual Research Achievements |
少数のラベルありデータと大量のラベルなしデータを組み合わせて学習を行う半教師あり学習の代表的な手法として、自己学習アルゴリズムが知られている。自己学習アルゴリズムの基本的なアイディアはラベルなしデータ点において学習モデル自身の予測を与え、そしてその予測ラベルを真のラベルであるかのように扱って改めて教師あり学習を行うことでモデルを更新するというものである。汎化性能が学習時の正則化、更新回数にどのように依存するかが論点である。特に、2成分混合ガウスモデルによって生成されたデータが取得された状況で、自己学習アルゴリズムによって線形モデルを学習する場合の汎化性能の解析を行った。 まず、更新を1度だけ行う単発の自己学習アルゴリズムの性能を統計力学のレプリカ法を用いて定量的に精密に解析した。これにより、(1-1)更新が1度だけの場合でもラベルなしデータによって汎化性能が向上すること、(1-2)最適な正則化パラメータはデータの量に複雑に依存すること、および(1-3)ラベルなしデータが大量にある場合には教師あり学習と比べると汎化性能が大きく劣ることを明らかにした。 さらに、上述の解析を拡張し、一般の更新回数の自己学習アルゴリズムの性能を統計力学のレプリカ法を用いて定量的に精密に評価することに成功した。これにより、(2-1)更新を繰り返すことで徐々に汎化性能が向上すること、(2-2)その際の正則化パラメータとしては各更新ステップで一定のものを選んでも構わないこと、および(2-3)多数回の更新が行える場合には大量のラベルなしデータがある場合にも教師あり学習に肉薄する汎化性能が得られることを明らかにした。 単発の更新の結果は国内学会で報告した。また、一般の更新回数についても解析を終え、現在論文投稿準備中である。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
研究実績の概要にも記載した通り、2021年度は単発更新の自己学習アルゴリズムの性能評価、および一般の更新回数における自己学習アルゴリズムの性能評価を行った。当初の研究計画に記載したのは単発更新の場合の性能評価のみであり、一般の更新回数における性能評価まで漕ぎ着けたのは研究計画以上の進展であると言える。 なお、研究計画では[課題①]中間教師を利用したモデル圧縮、[課題②]ラベルなしデータを用いた半教師あり学習を研究期間全体で扱うテーマとして掲げている。当初は先に[課題①]の研究を行いつつ多段階の学習における性能を評価するためのレプリカ法の枠組みを整備し、それから[課題②]に取り組む予定であったが、2021年度は先に[課題②]に着手している。これは[課題②]のほうが解析の見通しがよく、枠組みの整理が容易であることが明らかになったためである。全体として必要な作業量に対する進捗としては特に支障はない。
|
Strategy for Future Research Activity |
2022年度は、まず現在準備中の半教師あり学習の成果を論文にまとめて投稿する。 その後、半教師あり学習の解析のなかで整備した多段階の学習のためのレプリカ法の枠組みを用いて[課題①]中間教師を用いたモデル圧縮の研究に取り組む。このモデル圧縮は単発更新の場合の自己学習において、更新時に異なるモデルを使う場合に相当している。まず単純なモデルでの解析から始め、圧縮の影響を考慮するためにに2層ニューラルネットワークなどのやや複雑なモデルの場合へと徐々に拡張する。 また、2021年度の研究において半教師あり学習における汎化性能の振舞いには非自明な点が豊かに含まれることが明らかになった。余裕があれば他の半教師あり学習との比較も検討したい。
|
Causes of Carryover |
計算機室の電源容量の問題から、大型ワークステーションの購入をとりやめラップトップを購入したため支出が減った。コロナ禍の出張制限が緩和されつつあるため2022年度の出張に充てたいと考えている。
|