研究課題/領域番号 |
23K11213
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分61030:知能情報学関連
|
研究機関 | 東京大学 |
研究代表者 |
松島 慎 東京大学, 大学院総合文化研究科, 准教授 (90721837)
|
研究期間 (年度) |
2023-04-01 – 2026-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
2025年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2024年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
2023年度: 1,820千円 (直接経費: 1,400千円、間接経費: 420千円)
|
キーワード | 機械学習 / 解釈可能性 / スパースモデリング / 凸最適化 |
研究開始時の研究の概要 |
教師あり学習とは教師変数と説明変数の組からなるデータを用いて予測器を構築する機械学習手法である。本研究では、データの全体像を把握して有益な知識を発見・可視化することを目指す、認識科学的な教師あり学習手法に着目する。特に、加法モデルや多項式モデルなどの説明変数の解釈可能性を損なわずに複雑な予測を実現するモデルに着目し、単一マシンによる非同期プロセスを用いた大規模学習基盤を構築する。本分析基盤により、高い精度だけでなく、学習結果の解釈によるデータに対する高解像度な理解が必要な場面において、大量のデータを限られた計算資源により現実的な時間で処理することで、認識科学的な分析を可能にする。
|
研究実績の概要 |
本研究では、認識科学的手法によるデータ分析のための複雑なモデルを、大規模データから学習する非同期最適化スキームを開発した。具体的には、加法モデルや多項式モデルなど、説明変数の意味を損なわないまま、線形モデルよりも複雑な予測を実現するモデルに着目した。これらのモデルを、非同期的なプロセスを用いた最適化スキームを利用することにより、大規模データから効率的に学習し、解釈可能な複雑なモデルを生成することを目指す。
本年度はまず、同期的なプロセスにより加法モデルを学習するアルゴリズムを開発した。このアルゴリズムは、非常に効率の良い並列化可能な近接座標勾配降下法を利用し、一般的な損失関数にも適用可能なアルゴリズムであるため、クラス分類や他クラス分類など、さまざまな応用が可能である。また、学習に用いた正則化項も性質がよく、解のスパース性や滑らかさに関する局所適合性をもちながら効率的に近接勾配演算を計算することが可能である。この成果を論文にまとめ、2024年のECMLPKDDに投稿した。
さらに、この定式化を関数データ解析にも適用するという新しい着想も得られた。関数データ解析は、データが時間や空間の連続した関数として表現される場合に有用であり、加法モデルの適用範囲を広げる可能性がある。今後の研究では、非同期最適化スキームを他の複雑なモデルにも適用し、さらに大規模データからの学習効率を向上させることを目指す。これらの成果により、複雑でありながら解釈可能なモデルを用いたデータ分析が進展し、データの解釈性と信頼性の向上に寄与することが期待される。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
同期的なプロセスにより加法モデルを学習するアルゴリズムを開発した。このアルゴリズムは、非常に効率の良い並列化可能な近接座標勾配降下法を利用し、一般的な損失関数にも適用可能なアルゴリズムであるため、クラス分類や他クラス分類など、さまざまな応用が可能である。また、学習に用いた正則化項も性質がよく、解のスパース性や滑らかさに関する局所適合性をもちながら効率的に近接勾配演算を計算することが可能である。この成果を論文にまとめ、2024年のECMLPKDDに投稿した。
|
今後の研究の推進方策 |
本年度得られた成果について、この定式化を関数データ解析にも適用するという新しい着想も得られた。関数データ解析は、データが時間や空間の連続した関数として表現される場合に有用であり、加法モデルの適用範囲を広げる可能性がある。 応用分野として、画像の特徴点について、高次の予測等の知的処理が考えられる。
|