研究課題/領域番号 |
24700277
|
研究種目 |
若手研究(B)
|
研究機関 | 大阪大学 |
研究代表者 |
廣瀬 慧 大阪大学, 基礎工学研究科, 助教 (40609806)
|
研究期間 (年度) |
2012-04-01 – 2015-03-31
|
キーワード | lasso / 線形回帰モデル / 因子分析 / 非凸ペナルティ / モデル選択 |
研究概要 |
平成24年度では,以下のL1型正則化法における高速な推定アルゴリズムと調整パラメータの選択に関する研究を行った. (1) 超高次元データから有効な情報を高効率に抽出することのできるL1型正則化法に基づく線形回帰モデルの推定問題において,推定値を求める高速なアルゴリズムと適切な調整パラメータの選択が本質的となる.本研究では,この2つの問題に対処するために,数理的アプローチと計算アルゴリズムを融合させた新たなモデル評価基準のアルゴリズムを導出し,推定値と調整パラメータを効率的に計算する方法を提案した.提案手法は,従来の調整パラメータ選択法であるクロスバリデーションより数倍計算スピードが速く,かつ安定して予測精度の高い調整パラメータを選択できることを数値的に示した.さらに,ソフトウェアRのパッケージmsgpsを公開した. (2) 正則化法に基づく因子分析モデルのスパース推定を行った.まず,因子分析モデルにおける正則化法は,古典的な因子回転問題の一般化であり,因子回転法よりスパースな解を求めることができることを理論的に示した.次に,EMアルゴリズムとCoordinate Descentアルゴリズムを組み合わせた新たなアルゴリズムを提案した.このアルゴリズムは,これまでなかった非凸ペナルティに基づく因子分析モデルの効率的なスパース推定を可能とした.数値実験を通して提案手法の有効性を検証したところ,非凸ペナルティに基づく正則化法は,因子回転やlassoよりスパースな解を持つため,推定された因子が解釈しやすく,さらに安定した推定量を求めることができることが分かった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
平成24年度研究計画には,回帰モデルに対するGeneralized Path Seekingアルゴリズムの拡張による新しい一般化自由度の推定アルゴリズムの導出が含まれていたが,そのアルゴリズムの導出のみならず,サンプルサイズが大きいときにより高速に推定できる方法も提案した.具体的には,提案したアルゴリズムは,サンプルサイズが1000を超えるとき,元々のアルゴリズムより数千倍計算が速くなることが分かった.また,平成25年度の研究計画に含まれていたクロスバリデーションとの数値的な比較検証やRのパッケージ開発はすでに完了した.この研究内容をJoint Statistical Meetingで講演した.また,国際誌 Computational Statistics and Data Analysisに採択された. 因子分析モデルにおけるスパース推定法では,当初の計画である因子分析へのlassoの適用のみならず,提案手法の理論的整合性を深く追求し,きわめて広範囲のペナルティに対する汎用性のあるアルゴリズムを開発することに成功した.具体的には,正則化法が,これまで数十年間スタンダードな方法として行われていた因子回転法の一般化であり,よりスパースな解を求めることができることを理論的に示した.さらに,EMアルゴリズムとCoordinate Descentアルゴリズムを組み合わせたアルゴリズムは.きわめて安定しており,当初計画していなかった非凸ペナルティへの適用も可能となった.その非凸ペナルティがより安定したスパースな解を求める鍵となることを数値的に示した.この研究内容をスペインでの国際会議であるCOMPUTING & STATISTICSで招待講演を行った.
|
今後の研究の推進方策 |
まず,回帰,判別問題における様々なモデルにおいて,L1型正則化法の解と自由度を同時に計算するアルゴリズムを導出する.まず,ロジスティックモデルにおける解と自由度に対するアルゴリズムを導出し,識別判別問題に応用する.さらに,Group Lassoに対する一般化自由度を計算する高速なアルゴリズムを提案し,関数回帰モデル,加法モデルに適用する.今年度の国際学会Joint Statistical Meetingで発表するととももに,Xiaoli Gao氏とディスカッションする予定である. L1型正則化法に基づく因子分析は,高次元データに適用はできるものの,数万次元のデータに対しては数時間もの時間がかかることが分かった.これは,EMアルゴリズムは,反復計算を必要とし,高次元データに対して収束があまり速くないためである.この問題に対処するため,計算オーダーを減らすようアルゴリズムを改良し,さらにベイズアプローチにより推定の安定化,高速化を試みる.また,EMアルゴリズムの中の行列演算や,Coordinate Descentアルゴリズムは,並列に演算することができると考えられる.そこで,より高速に動くよう,並列計算を試みる.このように,新たなモデリング,推定アルゴリズムの提案と並列計算による高速化を全て駆使し,超大規模データの変数間の因果関係を探索する. さらに,因子分析におけるスパース推定法を拡張し,探索的構造方程式モデリングを提案する.構造方程式モデルでは,これまで変数の因果関係を「探索する」という概念がなかった.その理由は,パラメータ数が膨大になり,識別性の問題が生じることと,計算コストの面でも推定が困難となるためである.しかしながら,L1正則化法によるスパース推定と最新の計算機技術を駆使することによって,これらの問題に対処することができると考えられる.
|
次年度の研究費の使用計画 |
(1) 統計数理研究所に出張し,スパース推定の研究に関する研究打合せを行い,さらにそこで開催される応用研究に関するシンポジウムやセミナーに参加する. (2) 大規模データを扱うための統計的解析手法やその効率的なアルゴリズム,高次元データに対する統計的な理論に関する書籍を購入する.
|