2022 Fiscal Year Research-status Report
Statistical mechanics of heuristic methods in multi-stage learning
Project/Area Number |
21K21310
|
Research Institution | The University of Tokyo |
Principal Investigator |
高橋 昂 東京大学, 大学院理学系研究科(理学部), 助教 (90906661)
|
Project Period (FY) |
2021-08-30 – 2024-03-31
|
Keywords | 半教師あり学習 / アンサンブル学習 / レプリカ法 / 近似確率伝搬法 |
Outline of Annual Research Achievements |
今年度は、(i)自己学習におけるラベルバイアスの影響の精密漸近論による解析、および(ii)バギングによる不偏推定量の振る舞いの精密漸近論による解析を行った。以下でそれぞれの研究の内容について説明する。 (a) 自己学習におけるラベルバイアスの影響: 昨年度の研究で、2成分混合ガウス分布の分類における線形モデルの学習に対して自己学習を行った場合の振る舞いについての精密漸近論を構築した。場合によっては自己学習で用いる疑似ラベルが真のラベルに匹敵する性能を持つことが明らかとなっていたが、様々に条件を変えた際の汎化誤差について網羅的に解析し、疑似ラベルの性質が真のラベルに匹敵する条件を調査した。その結果、ラベルバイアスが小さい場合には長時間極限でほぼ教師あり学習と等価な性能を持つが、ラベルバイアスが大きくなると急速に教師あり学習に対する相対的な性能が悪化することが明らかとなった。この結果をまとめて現在論文にまとめ、現在査読中である。 (b) バギングによる不偏推定量の分散低減: 線形回帰において近似確率伝搬法によって不偏推定量が構築できることが知られている。本研究では、この不偏推定量を様々なブートストラップデータに対して平均するバギング操作を行って得られる統計量の性質を精密漸近論によって解析した。この結果、バギングを行ってもやはり不偏推定量であり、かつ取得データの性質と仮定している正則化の合致度に応じて、バギングの効果がほとんどない領域からバギングが積極的に分散を低減させる領域への相転移が生じることを明らかにした。この結果は論文にまとめ国際会議に投稿した。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
本年度は昨年度までに得られた自己学習に関する数理的な知見をより深く掘り下げる成果が得られた。特に、疑似ラベルが有用である場面、および特に破綻する状況を明確にした点で成果は有用であると考えられる。いっぽう当初の予定では半教師あり学習の解析の後でモデル圧縮の研究を行う予定であったが、疑似ラベルの数理が十分に豊かであったためそれをより詳細に検討することにした。その結果、疑似ラベルが苦手な状況に対処するための手法の解析のために一旦多段階の学習ではないアンサンブル学習の解析を行うこととなった。そのため、多段階の学習の解析そのものとしてはやや遅延している状況にある。
|
Strategy for Future Research Activity |
自己学習において用いられる疑似ラベルは、ラベルバイアスの影響を強く受けることが明らかになった。ラベルバイアスの影響を減らして学習するための手法として、アンダーサンプリングとバギングを組み合わせるアンダーバギングという手法が知られている。本年度に行ったアンサンブル学習の解析は、アンダーバギングにも素朴に拡張できるので、アンダーバギングを初期段階の学習に用いることで擬似ラベルの性能がどのように向上するかを検討したい。
|
Causes of Carryover |
一時的にアンサンブル学習の研究を開始し、研究会の参加頻度が当初計画よりも少なくなった。そのぶん未使用担った旅費を次年度の費用とする。アンサンブル学習に関する会議発表費用、及びアンサンブル学習の自己学習への適用結果の発表費用とする。あるいは、計算機実験を増強し、クラウド計算機資源の使用を検討する。
|