研究課題/領域番号 |
21K11780
|
研究機関 | 東京大学 |
研究代表者 |
今泉 允聡 東京大学, 大学院総合文化研究科, 准教授 (90814088)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | 深層モデル / 過剰パラメータ / 統計的推論 / 汎化誤差 |
研究実績の概要 |
本研究の目的は、深層モデルに適用可能な統計的推論法を開発することである。深層モデルには、層の数に関する複雑性とパラメータの膨大性という二つの特徴があり、それらを考慮した推論法を開発するという二つの困難さがある。また層の数に関する技術的課題には、線形モデルやガウス性を用いた近似を解する方法と、深層構造を直接制御する二つの方策がある。これらの方針のもとで以下のような研究の進捗を得た。 1. 線形性やガウス性を用いた近似による深層構造の解析:この方針に基づく解析では、深層モデルを含む一般の(非線形)損失関数を線形近似し、そのモデルの確率的変動をヘッセ行列のスペクトル行列を用いて評価した。この時のヘッセ行列の各要素は従属する場合があるため、その場合に適合するランダム行列理論を用いて評価を行った。結果として、一定の仮定の下での挙動の記述に成功したが、仮定を満たす例が非自明であるため、その部分の解析を進めている。 2. 深層構造を直接制御する解析:この方針では、非凸損失関数の形状と確率的な学習アルゴリズムの性質を考慮し、アルゴリズムが出力するパラメータが止まる集合を特定し、さらにその下でのパラメータ行列の各層ごとのスペクトルを用いて、深層モデルの確率的挙動を記述した。結果として、損失関数の平坦な形状がパラメータの誤差に影響を及ぼすという理論を構築した。 3. 膨大なパラメータの解析:この項目については、いわゆる過剰パラメータの理論の一つである良性過適合の理論に注目し、これらを時系列データやベイズ推定に応用した。結果として、長期記憶を持つような従属データの元でも良性過適合が起こることや、特殊な事前分布に基づくベイズ推定が良性過適合の性質を引き継ぐ事後分布を構成することを明らかにした。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
現状において、深層モデルに関する複数の研究プロジェクトが進行し、概ね想定された結果が得られている。これらを論文化する作業も順調に進展しており、いくつかは投稿や改訂要求のプロセスに進んでいる。いくつかの結果は、証明の問題点を指摘され修正を行っているが、それらについても概ね対処方針は立っている。
|
今後の研究の推進方策 |
この項目では、「研究実績の概要」にて言及した三つの項目ごとに方策を説明する。 1. 線形性やガウス性を用いた近似による深層構造の解析:この項目では、仮定を満たす例の構築を進める。ただしここで問題になるのが、パラメータに基づくモデルの識別性である。これらの線形近似理論では、解析対象となるモデルは一意なパラメータで識別されていることを要求する。しかし、深層ニューラルネットワークにおいてその仮定が満たされることは非常に少ない。対処として、モデルや学習手法に仮定を導入するという方法か、もしくはパラメータが一点ではなく(一意な)分布に従うという新しい設定を導入して対処を試みる。 2. 深層構造を直接制御する解析:この項目では、得られた論文の改訂要求などをまず完了する。続いて、(i)理論に用いている学習アルゴリズムの精緻化、および(ii)層のスペクトル構造に頼らない柔軟な汎化理論の構築を行う。前者については、いわゆる非等方的摂動を用いた学習アルゴリズムの解析を進める。現状の理論は等方的摂動の学習アルゴリズムに依存しているが、これは実際とは乖離しており、このギャップを埋めることは実用的かつ挑戦的な問いである。後者については、層の構造を解析する際に行列のスペクトルではなく関数自体の変動を用いる数学によっての記述を試みる。これは数学的に新しい試みである。 3. 膨大なパラメータの解析:この項目については、すでに得られた理論的結果の論文化を推進する。すでに主定理やその理論の検証は大きく進展しているため、数値実験による検証や応用例の発見など、論文化の上で必要な要素を効率的に進める。
|
次年度使用額が生じた理由 |
リサーチアシスタントの業務量及び雇用期間に瑣末な変更が生じたため。
|