高次元データ(変数の次元が標本サイズに比べて大きい)に対する統計解析法の研究は,その需要の高さから近年盛んに行われている.特に最近ではデータ収集プロセスの複雑化や多様化に伴って,より複雑なデータに対する解析法が求められている.本研究の目的は,スパース正則化法のアイデアを駆使し,複雑高次元データに対する解析法を,理論・計算的に妥当な形で構築することである.本研究では特に外れ値構造とグループ構造を持つ高次元データに関して研究を進めた. 最終年度では,セルワイズな外れ値を持つ大規模データ行列から,変数間の条件付き独立性(グラフィカルモデル)を推定する方法を構築した.データに正規性を仮定すると,共分散行列からグラフィカルモデルが推定できることに着目し,共分散行列のロバスト推定を,セルワイズな外れ値に対応できる形で行った.またグループ構造に関しては,層別線形回帰モデルを考え,結果変数全体に影響を与える共変量と,層ごとに影響を与える共変量を同時に特定する方法を構築した.これは,層ごとの回帰係数をスパース正則化法を用いて近づけることで達成した.また,理論的に正しく特定できるための十分条件も明らかにしている. 研究期間全体としては,結果変数に外れ値が混入する場合の高次元線形回帰分析についての研究も完成させている.これは,通常の回帰モデルに外れ値を表すパラメータを導入し,スパース正則化法を用いて回帰係数と外れ値を同時に推定するものである.ふたつのパラメータを交互に最適化するアルゴリズムを導出し,それによって得られる解(出力)の統計的性質を明らかにした.まず回帰係数にLasso制約を課す場合で研究を進め,その後,SCADやMCPなどの非凸制約にも対応できるように一般化を行った.
|