研究課題/領域番号 |
21K21310
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1002:人間情報学、応用情報学およびその関連分野
|
研究機関 | 東京大学 |
研究代表者 |
高橋 昂 東京大学, 大学院理学系研究科(理学部), 助教 (90906661)
|
研究期間 (年度) |
2021-08-30 – 2024-03-31
|
研究課題ステータス |
完了 (2023年度)
|
配分額 *注記 |
2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2022年度: 1,560千円 (直接経費: 1,200千円、間接経費: 360千円)
2021年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 統計力学 / 半教師あり学習 / レプリカ法 / 自己学習 / 疑似ラベル / アンサンブル学習 / 近似確率伝搬法 / 機械学習 / モデル圧縮 |
研究開始時の研究の概要 |
本研究では、半教師あり学習やモデル圧縮などの、多段階の学習プロセスに基づくヒューリスティクス法の性質を統計物理学の手法を用いて解析する。特にFranz-Parisiポテンシャルの計算技法との関連に注目して解析を行う。これにより、どのような場面でどの程度これらのヒューリスティクス法が有用であるかを系統的/定量的に明らかにし、分析方針の策定や分析結果の解釈の場面でデータ分析者の参照に耐える理論的知見を構築することを目指す。
|
研究成果の概要 |
本研究の目的は、擬似的なラベルを学習済のモデルに基づいてデータ点に付与し、それを用いて改めて新たなモデルを学習する操作を繰り返すという自己学習アルゴリズムの挙動を解明することであった。そのために、2クラスの分類の問題において線形モデルを当該手法で学習した際の挙動を、統計力学の平均場理論を用いて解析した。これにより、更新回数に応じて最適なアプローチが異なるということ明らかとし、当該アルゴリズムを用いて効率的に汎化性能を向上させるためのアプローチを整理した。
|
研究成果の学術的意義や社会的意義 |
データ科学の実務的な場面ではラベル付きデータが十分にあるという理想的な設定にないことは一般的で、分析者は様々なヒューリスティクスを用いて問題に対処している。そのなかで多段階の学習に基づくヒューリスティクスはアイディアを実装に繋げやすく、近年盛んに用いられている。本研究はその流れに沿い、そのような多段階の学習に基づくヒューリスティクスの利用方法に関する示唆を与えるものであり、実務に向けた理論的知見を新たに加えたという意義があると思われる。
|