Evolution of data science theory through analysis of solvable models
Project/Area Number |
22K12179
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61040:Soft computing-related
|
Research Institution | Kyoto University |
Principal Investigator |
小渕 智之 京都大学, 情報学研究科, 准教授 (40588448)
|
Project Period (FY) |
2022-04-01 – 2026-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥4,030,000 (Direct Cost: ¥3,100,000、Indirect Cost: ¥930,000)
Fiscal Year 2025: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2024: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2023: ¥1,040,000 (Direct Cost: ¥800,000、Indirect Cost: ¥240,000)
Fiscal Year 2022: ¥650,000 (Direct Cost: ¥500,000、Indirect Cost: ¥150,000)
|
Keywords | 情報統計力学 / データ科学 / 機械学習 / 可解モデル |
Outline of Research at the Start |
本研究は,機械学習・データ科学で使われているいくつかの統計モデルの推定限界などの性質を,情報統計力学の手法をもって解明する.具体的には,非凸圧縮センシング・連合学習・ゼロショット学習・逆イジング問題を対象とする.これにより,実データ解析における結果の解釈や,最適化のための計算量に対する指針を与えることができる.理論結果と実データ解析結果を比較することで,実データ解析におけるパフォーマンスを定量的に評価することを可能にする.さらに,個別に現れてくる困難を逐一克服することで,情報統計力学ひいてはデータ科学の理論自体を進化させることを目指す.
|
Outline of Annual Research Achievements |
本研究は,ランダム特徴モデルという可解モデルの解析を行い,それを通じて機械学習・データ科学に現れる問題群の深い数理的理解と実用的数値解法を得ることを目標とする. 具体的課題として申請時に3つの課題を設定したが,特に初年度は「課題2:ランダム特徴量を用いた連合学習・ゼロショット学習の理論解析」に関連した解析を行った. より具体的には,実際に本課題を遂行をする上で理論モデルの基礎となるだろう,混合ガウスモデルの理論解析を通常の分類問題の文脈で行った.まず,不均衡ラベルデータにおいて,リサンプリングやリウェイティングの効果を調べる研究を行い,特徴量学習の精度においてはリサンプリングやリウェイティングが役に立たない状況があることを見出した.これは実験的に発見された分離学習と呼ばれる概念を理論的に追証した結果となる.この結果を現在論文にまとめている.また,半教師有り学習における推定精度の解析も別途おこない,ラベルなしデータの推定精度向上における効果を定量的に検証した.正則化付き最尤法とベイズ最適な場合の解析を行い,その推定精度の比較も行った.これにより,推定量がゼロに潰れた状態からそうでなくなる状態への相転移が,ラベル無しデータのみかつラベル分布が均衡している状態では現れること,その相転移がラベル不均衡やラベル付きデータによって消えること,ベイズ最適推定量が基本的に常に精度としては優越するが,最尤推定量も精度でそれほど劣っているわけではないこと,などが明らかとなった.この結果も現在論文にまとめている. これ以外に,ニューラル崩壊という現象の理論解析を新しく始めた.この現象は,深層学習において同じクラスの特徴量ベクトルが同一のベクトルに縮退するというもので,分類問題を高精度に解く上で重要な役割を果たしていると考えられている.この現象を示す理論モデルを解析する手法を開発している段階である.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
申請書に記述した課題3の研究は,かなりの段階まで進んだものの,その後,壁にあたり論文執筆段階まで至っていない.課題2については様々な成果は得られつつあるものの,当初の予定である連合学習やゼロショット学習を解析するための理論モデル構築段階まではまだ至っていない.課題1はもともと後半で行う予定であるため手をつけていない.新しく始めたニューラル崩壊に関する研究についても,一定の結果はあるが論文執筆に至るほどの成果とはなっていない.もともと4カ年計画であるため深刻な遅れではないが,初年度完了段階で投稿論文が1つ程度あることを想定していたため,やや遅れていることを認めざるを得ない.
|
Strategy for Future Research Activity |
課題3の理論解析における壁は何か強力なアイデアがないと超えられそうもないため一旦放置する.代わりに課題3の応用研究部分とニューラル崩壊の理論解析を今後進める.課題2については順調に進めていける状態にあるため,これを進展させる.これらの研究が一段落ついた段階で,課題1に移行していく予定である.
|
Report
(1 results)
Research Products
(1 results)