2022 Fiscal Year Annual Research Report
Novel learning algorithms through off-sample generalization metric design
Project/Area Number |
22H03646
|
Research Institution | Osaka University |
Principal Investigator |
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Keywords | 機械学習 / 統計的学習理論 / 確率的最適化 |
Outline of Annual Research Achievements |
本年度の主な成果は幅広い損失分布のスケールにかかわらず、平均的な性能、バラツキの抑制、外れ値に対する頑健性をバランスよく調節できる最適化法の導出と初期的な実験検証である。
この手法は平滑性のある疑似Huber関数を導入して新しいリスク関数を設計しており、Sun (2021)がロバストな期待値推定の文脈で示したスケール適応の原理を頼りに、M推定量を大きく超越してあらゆる損失関数へ拡張し、位置とスケールを学習モデルのパラメータとともに効率よく学習する方法を提案し、平均と分散を総合した学習問題における有用性を検証した。微調整を要することなく、分散の抑制に役立つことがわかっているリスク指標と比べて優位になるデータセットがあること、計算オーバーヘッドも許容範囲であることなどは確認できたが、幅広いデータセットを対象とした場合の平均的な性能の向上は課題として残っている。学習法の導出と実験結果をまとめた論文を執筆し、近く投稿する予定である。
さらに、提案手法を他の学習問題に応用したり、上述の論文中の実験結果を再現したりするために、numpyを中心とした拡張性の高いソフトウェアとデモンストレーション用のJupyterノートブックを作成し、GitHubのリポジトリに載せて一般公開している。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
当初から目標として掲げているスケーリング自動化の方法は理論的な根拠を拠り所にして導出されるアルゴリズムを提案し、その初期的な実験検証も開始して線形モデルを前提とした場合の知見もまとまったので、この項目に関しては順調に進んでいると言える。また、深層学習を想定した学習アルゴリズムの開発に向けて、サーバの騒音や電力の問題を解消するために一部の機器を移設し、円滑に大規模の数値実験を行う環境も整い、実験に向けた実装もすでに着手している。
一方、SVMなどマージン系の最適化法は文献調査をし、本提案の手法を導入することによって新たに発生する興味深い学習理論的な問題(汎化指標の設計とclassification calibrationに関して)を提起するなど基礎的な部分は進んでいるが、手法そのものはまだ着手しておらず、次年度以降に取り組む予定である。
|
Strategy for Future Research Activity |
今年度は主としてニューラルネットワークの学習に主眼を置いて、学習データが限られているなか、試行錯誤による微調整を極限まで抑えて、高い確率で一度の学習をもって優れた意思決定ができるような学習法の設計法を探求し、特に従来のERM+ノルム正則化と比較しながら性能評価や挙動解析を行う。
全体的なアプローチとして、双方向的なばらつきを定量化する汎化指標を導入し、モデルいの「過剰な自信」を抑制する仕組みを導入することで、過学習が発生しにくく、調整がしやすい学習法の原型を目指す。ポイントとして「何をもって過剰とするか」という線引きは、昨年度から取り組んでいるスケール自動化の技法を取り入れることで、事前知識が乏しい状況下でも、大まかな設定が幅広いモデルやデータセットに通用する頑健な実装法を実証的に検証する予定である。
実験の規模や内容として、sharpness-aware minimization (SAM)学習法を提唱したForet et al. (2021)とgradient norm penalizationの定式化と実証検証を行ったZhao et al. (2022)に沿って、最先端の先行研究と比較しながら、需要の高いアーキテクチャから優先的に取り組んでいく予定である。
|
Remarks |
公開しているソフトウェアの名称は「bdd-mv: mean-variance minimization using bi-directional dispersion functions」である。
|
Research Products
(2 results)