2012 年度実施状況報告書

正則化法によるスパース推定と超高次元データへの応用

研究課題

研究課題/領域番号	24700277
研究種目	若手研究(B)
研究機関	大阪大学
研究代表者	廣瀬慧大阪大学, 基礎工学研究科, 助教 (40609806)
研究期間 (年度)	2012-04-01 – 2015-03-31
キーワード	lasso / 線形回帰モデル / 因子分析 / 非凸ペナルティ / モデル選択
研究概要	平成24年度では，以下のL1型正則化法における高速な推定アルゴリズムと調整パラメータの選択に関する研究を行った． (1) 超高次元データから有効な情報を高効率に抽出することのできるL1型正則化法に基づく線形回帰モデルの推定問題において，推定値を求める高速なアルゴリズムと適切な調整パラメータの選択が本質的となる．本研究では，この2つの問題に対処するために，数理的アプローチと計算アルゴリズムを融合させた新たなモデル評価基準のアルゴリズムを導出し，推定値と調整パラメータを効率的に計算する方法を提案した．提案手法は，従来の調整パラメータ選択法であるクロスバリデーションより数倍計算スピードが速く，かつ安定して予測精度の高い調整パラメータを選択できることを数値的に示した．さらに，ソフトウェアRのパッケージmsgpsを公開した． (2) 正則化法に基づく因子分析モデルのスパース推定を行った．まず，因子分析モデルにおける正則化法は，古典的な因子回転問題の一般化であり，因子回転法よりスパースな解を求めることができることを理論的に示した．次に，EMアルゴリズムとCoordinate Descentアルゴリズムを組み合わせた新たなアルゴリズムを提案した．このアルゴリズムは，これまでなかった非凸ペナルティに基づく因子分析モデルの効率的なスパース推定を可能とした．数値実験を通して提案手法の有効性を検証したところ，非凸ペナルティに基づく正則化法は，因子回転やlassoよりスパースな解を持つため，推定された因子が解釈しやすく，さらに安定した推定量を求めることができることが分かった．
現在までの達成度 (区分)	現在までの達成度 (区分) 1: 当初の計画以上に進展している理由平成24年度研究計画には，回帰モデルに対するGeneralized Path Seekingアルゴリズムの拡張による新しい一般化自由度の推定アルゴリズムの導出が含まれていたが，そのアルゴリズムの導出のみならず，サンプルサイズが大きいときにより高速に推定できる方法も提案した．具体的には，提案したアルゴリズムは，サンプルサイズが1000を超えるとき，元々のアルゴリズムより数千倍計算が速くなることが分かった．また，平成25年度の研究計画に含まれていたクロスバリデーションとの数値的な比較検証やRのパッケージ開発はすでに完了した．この研究内容をJoint Statistical Meetingで講演した．また，国際誌 Computational Statistics and Data Analysisに採択された．因子分析モデルにおけるスパース推定法では，当初の計画である因子分析へのlassoの適用のみならず，提案手法の理論的整合性を深く追求し，きわめて広範囲のペナルティに対する汎用性のあるアルゴリズムを開発することに成功した．具体的には，正則化法が，これまで数十年間スタンダードな方法として行われていた因子回転法の一般化であり，よりスパースな解を求めることができることを理論的に示した．さらに，EMアルゴリズムとCoordinate Descentアルゴリズムを組み合わせたアルゴリズムは．きわめて安定しており，当初計画していなかった非凸ペナルティへの適用も可能となった．その非凸ペナルティがより安定したスパースな解を求める鍵となることを数値的に示した．この研究内容をスペインでの国際会議であるCOMPUTING & STATISTICSで招待講演を行った．
今後の研究の推進方策	まず，回帰，判別問題における様々なモデルにおいて，L1型正則化法の解と自由度を同時に計算するアルゴリズムを導出する．まず，ロジスティックモデルにおける解と自由度に対するアルゴリズムを導出し，識別判別問題に応用する．さらに，Group Lassoに対する一般化自由度を計算する高速なアルゴリズムを提案し，関数回帰モデル，加法モデルに適用する．今年度の国際学会Joint Statistical Meetingで発表するととももに，Xiaoli Gao氏とディスカッションする予定である． L1型正則化法に基づく因子分析は，高次元データに適用はできるものの，数万次元のデータに対しては数時間もの時間がかかることが分かった．これは，EMアルゴリズムは，反復計算を必要とし，高次元データに対して収束があまり速くないためである．この問題に対処するため，計算オーダーを減らすようアルゴリズムを改良し，さらにベイズアプローチにより推定の安定化，高速化を試みる．また，EMアルゴリズムの中の行列演算や，Coordinate Descentアルゴリズムは，並列に演算することができると考えられる．そこで，より高速に動くよう，並列計算を試みる．このように，新たなモデリング，推定アルゴリズムの提案と並列計算による高速化を全て駆使し，超大規模データの変数間の因果関係を探索する．さらに，因子分析におけるスパース推定法を拡張し，探索的構造方程式モデリングを提案する．構造方程式モデルでは，これまで変数の因果関係を「探索する」という概念がなかった．その理由は，パラメータ数が膨大になり，識別性の問題が生じることと，計算コストの面でも推定が困難となるためである．しかしながら，L1正則化法によるスパース推定と最新の計算機技術を駆使することによって，これらの問題に対処することができると考えられる．
次年度の研究費の使用計画	(1) 統計数理研究所に出張し，スパース推定の研究に関する研究打合せを行い，さらにそこで開催される応用研究に関するシンポジウムやセミナーに参加する． (2) 大規模データを扱うための統計的解析手法やその効率的なアルゴリズム，高次元データに対する統計的な理論に関する書籍を購入する．

研究成果
(7件)

すべて 2013 2012 その他

すべて雑誌論文 (3件) (うち査読あり 3件) 学会発表 (4件) (うち招待講演 1件)

[雑誌論文] Tuning parameter selection in sparse regression modeling2013
- 著者名/発表者名
  Hirose, K., Tateishi, S. and Konishi, S.
- 雑誌名
  
  Computational Statistics and Data Analysis
  
  巻: 59 ページ: 28-40
- DOI
  10.1016/j.csda.2012.10.005
- 査読あり
[雑誌論文] Creating facial animation of characters via MoCap data2012
- 著者名/発表者名
  Hirose, K., and Higuchi, T.
- 雑誌名
  
  Journal of Applied Statistics
  
  巻: 39 ページ: 2583-2597
- DOI
  10.1080/02664763.2012.724391
- 査読あり
[雑誌論文] NNRMLR: A Combined Method of Nearest Neighbor Regression and Multiple Linear Regression2012
- 著者名/発表者名
  Hirose, H., Soejima, Y. and Hirose, K.
- 雑誌名
  
  Proceedings of 6th International Workshop on e-Activity
  
  巻: - ページ: 351-356
- DOI
  10.1109/IIAI-AAI.2012.76
- 査読あり
[学会発表] Tuning parameter selection in sparse regression modeling2012
- 著者名/発表者名
  Hirose, K., Tateishi, S. and Konishi, S.
- 学会等名
  The 2nd Institute of Mathematical Statistics Asia Pacific Rim Meeting (APRM 2012)
- 発表場所
  Tsukuba International Congress Center, Japan
- 年月日
  20120702-20120703
[学会発表] Penalized likelihood factor analysis via non-convex penalties
- 著者名/発表者名
  Hirose, K., and Yamamoto, M.
- 学会等名
  5th International Conference of the ERCIM WG on COMPUTING & STATISTICS (ERCIM 2012)
- 発表場所
  Conference Center, Oviedo, Spain.
- 招待講演
[学会発表] Regularization Parameter Selection in Convex and Non-Convex Penalized Least Squares Estimation
- 著者名/発表者名
  Hirose, K., Tateishi, S. and Konishi, S.
- 学会等名
  Joint Statistical Meeting 2012
- 発表場所
  Convention Centre in San Diego, USA
[学会発表] LARSによるモデル選択基準の構成とスパース回帰モデリング
- 著者名/発表者名
  保科架風，廣瀬慧，小西貞則
- 学会等名
  2012年度統計関連学会連合大会
- 発表場所
  北海道大学

2012 年度 実施状況報告書

正則化法によるスパース推定と超高次元データへの応用

研究代表者

廣瀬 慧 大阪大学, 基礎工学研究科, 助教 (40609806)

現在までの達成度 (区分)

理由

研究成果

[雑誌論文] Tuning parameter selection in sparse regression modeling2013

著者名/発表者名

雑誌名

DOI

[雑誌論文] Creating facial animation of characters via MoCap data2012

著者名/発表者名

雑誌名

DOI

[雑誌論文] NNRMLR: A Combined Method of Nearest Neighbor Regression and Multiple Linear Regression2012

著者名/発表者名

雑誌名

DOI

[学会発表] Tuning parameter selection in sparse regression modeling2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Penalized likelihood factor analysis via non-convex penalties

著者名/発表者名

学会等名

発表場所

[学会発表] Regularization Parameter Selection in Convex and Non-Convex Penalized Least Squares Estimation

著者名/発表者名

学会等名

発表場所

[学会発表] LARSによるモデル選択基準の構成とスパース回帰モデリング

著者名/発表者名

学会等名

発表場所

2012 年度実施状況報告書

廣瀬慧大阪大学, 基礎工学研究科, 助教 (40609806)