Large-scale sparse learning using asynchronous architecture for interpretable model

Research Project

Project/Area Number	23K11213
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 61030:Intelligent informatics-related
Research Institution	The University of Tokyo
Principal Investigator	松島慎東京大学, 大学院総合文化研究科, 准教授 (90721837)
Project Period (FY)	2023-04-01 – 2026-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥4,680,000 (Direct Cost: ¥3,600,000、Indirect Cost: ¥1,080,000) Fiscal Year 2025: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2024: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000) Fiscal Year 2023: ¥1,820,000 (Direct Cost: ¥1,400,000、Indirect Cost: ¥420,000)
Keywords	機械学習 / 解釈可能性 / スパースモデリング / 凸最適化
Outline of Research at the Start	教師あり学習とは教師変数と説明変数の組からなるデータを用いて予測器を構築する機械学習手法である。本研究では、データの全体像を把握して有益な知識を発見・可視化することを目指す、認識科学的な教師あり学習手法に着目する。特に、加法モデルや多項式モデルなどの説明変数の解釈可能性を損なわずに複雑な予測を実現するモデルに着目し、単一マシンによる非同期プロセスを用いた大規模学習基盤を構築する。本分析基盤により、高い精度だけでなく、学習結果の解釈によるデータに対する高解像度な理解が必要な場面において、大量のデータを限られた計算資源により現実的な時間で処理することで、認識科学的な分析を可能にする。
Outline of Annual Research Achievements	本研究では、認識科学的手法によるデータ分析のための複雑なモデルを、大規模データから学習する非同期最適化スキームを開発した。具体的には、加法モデルや多項式モデルなど、説明変数の意味を損なわないまま、線形モデルよりも複雑な予測を実現するモデルに着目した。これらのモデルを、非同期的なプロセスを用いた最適化スキームを利用することにより、大規模データから効率的に学習し、解釈可能な複雑なモデルを生成することを目指す。本年度はまず、同期的なプロセスにより加法モデルを学習するアルゴリズムを開発した。このアルゴリズムは、非常に効率の良い並列化可能な近接座標勾配降下法を利用し、一般的な損失関数にも適用可能なアルゴリズムであるため、クラス分類や他クラス分類など、さまざまな応用が可能である。また、学習に用いた正則化項も性質がよく、解のスパース性や滑らかさに関する局所適合性をもちながら効率的に近接勾配演算を計算することが可能である。この成果を論文にまとめ、2024年のECMLPKDDに投稿した。さらに、この定式化を関数データ解析にも適用するという新しい着想も得られた。関数データ解析は、データが時間や空間の連続した関数として表現される場合に有用であり、加法モデルの適用範囲を広げる可能性がある。今後の研究では、非同期最適化スキームを他の複雑なモデルにも適用し、さらに大規模データからの学習効率を向上させることを目指す。これらの成果により、複雑でありながら解釈可能なモデルを用いたデータ分析が進展し、データの解釈性と信頼性の向上に寄与することが期待される。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 同期的なプロセスにより加法モデルを学習するアルゴリズムを開発した。このアルゴリズムは、非常に効率の良い並列化可能な近接座標勾配降下法を利用し、一般的な損失関数にも適用可能なアルゴリズムであるため、クラス分類や他クラス分類など、さまざまな応用が可能である。また、学習に用いた正則化項も性質がよく、解のスパース性や滑らかさに関する局所適合性をもちながら効率的に近接勾配演算を計算することが可能である。この成果を論文にまとめ、2024年のECMLPKDDに投稿した。
Strategy for Future Research Activity	本年度得られた成果について、この定式化を関数データ解析にも適用するという新しい着想も得られた。関数データ解析は、データが時間や空間の連続した関数として表現される場合に有用であり、加法モデルの適用範囲を広げる可能性がある。応用分野として、画像の特徴点について、高次の予測等の知的処理が考えられる。

Report

(1 results)

2023 Research-status Report