2013 Fiscal Year Research-status Report
スパース正則化による判別とグループ化に基づく意思決定システムの構築
Project/Area Number |
25330049
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | The Institute of Statistical Mathematics |
Principal Investigator |
川崎 能典 統計数理研究所, 大学共同利用機関等の部局等, 准教授 (70249910)
|
Co-Investigator(Kenkyū-buntansha) |
植木 優夫 東北大学, 学内共同利用施設等, 助教 (10515860)
赤司 健太郎 学習院大学, 経済学部, 准教授 (50610747)
|
Project Period (FY) |
2013-04-01 – 2016-03-31
|
Keywords | スパース正則化法 / 分類・パターン認識 / 変数選択 / 変数グルーピング / 高次元分割表解析 / リスク解析 / 多重共線性 |
Research Abstract |
カテゴリカルな応答変数に対して説明変数候補が膨大で、交互作用項が組合せ爆発的に多い状況を考える。このようなデータセットに対し、高次元分割表解析による情報抽出法を経由して、有効な予測変数の探索法を構築できることを明らかにすることと、スパース正則化法を利用したリスク因子剪定法が効率的かつ実用的な変数減少法を与えることを明らかにするのが、本研究の目的である。 平成25年度は、まず「高次元分割表の悉皆解析に基づくクロス項探索法の開発と実装」を課題として設定したが、これに関しては、高次のクロス項(交互作用項)まで含めたモデルを推定する目的で、2次まで、3次までと決めた範囲で、目的変数を含めた3変数、4変数のデータセットを全て生成し(その意味での悉皆)、分割表解析を行う環境を実装した。また、「スパース正則化を利用した自動変数グルーピング法の数値的側面の研究」をもう一つの課題に挙げていたが、予定通りSmooth-Thresholding Estimating Equation法(STEE法)に基づく変数の自動グルーピングのためのコーディング・実装を完了した。初期推定値の与え方に関する影響の解析、閾値が持つべきパラメータの選択が結果に及ぼす影響についても実験を済ませ、一定の結論に到達した。 これらに関して実例を含めながら学会発表等を行った。その一方、多重共線条件下で複数の競合的なモデル(あるいは変数セット)を現象解釈のためにキープする方法論を研究した。リスク因子を探索していると多重共線はしばしば生じるが、モデル選択で単一のモデルに絞り込むと、結果的には再現性に乏しいモデルを選んでしまう。これを避ける方法を研究、提案した。結果は原著論文として査読付英文誌に公刊された。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成25年度は、(1)高次元分割表の悉皆解析に基づくクロス項探索法の開発と実装、(2)スパース正則化を利用した自動変数グルーピング法の数値的側面の研究、(3)リスク事象の集損益に依存した閾値を持つ判別・離散選択モデルの推定理論の精緻化、を具体的な研究課題に設定していたが、以下に述べるとおり概ね順調に進展している。 (1)に関しては、高次のクロス項(交互作用項) まで含めたモデルを推定する目的で、2次まで、3次までと決めた範囲で、目的変数を含めた3変数、4変数のデータセットを全て生成し(その意味での悉皆)、分割表解析を行う環境を実装した。 (2)に関しては、Smooth-Thresholding Estimating Equation法(STEE法)に基づく変数の自動グルーピングのためのコーディング・実装がその中心課題であったが、これは完了した。STEEはモデルに関する何らかの初期推定値が必要であり、その選択が結果にどの程度影響するかを調べることを課題に設定していたが、これも検討を済ませた。また、係数をゼロに落とす閾値を与えるルールはadaptive LASSO と同様、べきパラメータをひとつ含んでいるが、その選択が及ぼす影響をシミュレーションで調べることを課題に設定していた。これに関しても実験を済ませ、一定の結論に達した。 (3)に関しては既に発表した定理の条件の改善を目指した課題設定だったが、これに関しては目立った結果を当該年度内に得られなかった。一方、実データの性質を考慮すれば、スコアの確率が判別閾値の周辺のみに集中するというのはある種病理的なケースであり、実用上深刻な瑕疵とはなりえないので、引き続き交付期間内に検討していけばよいと判断した。
|
Strategy for Future Research Activity |
平成26年度以降の研究計画として申請時の研究計画では、(1)リスク最小化モデルとスパース正則化型変数選択法の統合、(2)統計的パターン認識、機械学習における他手法との比較実証分析、(3)信用スコアリング等実際問題への応用、を挙げている。基本的にこれらの計画に変わりはないが、ここまでに研究・開発した手法の有効性をさまざまな分野で実例を伴う形で示すことが最も重要という認識に至っており、まずは(3)の中で具体的問題に応じて方法論を展開・個別化していく計画である。 (1)については、収損益データ(リスク事象のインパクト) が利用可能な状況を前提として、リスク総額最小化を保証する最適2項予測の閾値を採用したもとでの、STEE 型の変数選択・グルーピング法を与える方針で研究を行う。(2)に関しては、統計的パターン認識、機械学習における他手法との比較実証分析を行う。課題申請当初は、樹形モデル(CART)の結果から変数を生成してロジットモデルの右辺にそれらを投入するCART-Logitとの比較を念頭に置いていたが、Spotfire等新興のデータマイニングツールとの比較も検討する予定である。
|
Expenditure Plans for the Next FY Research Funding |
生じた次年度使用額の6割程度は、研究分担者の一人が本務多忙のため、研究課題への取り組みは行ったが、学会発表等が本務都合でほとんどできなかったことに起因する。それを控除した額に関しては、代表者・分担者間の当初の配分が適切であれば、いずれかが国際会議での発表等のために使用可能だったと思われる。 研究発表や国際学会参加予定などに関して研究分担者と入念に事前打合せを行い、平成26年度の各機関への配分の段階で配分額を見直し、適切な執行計画となるよう努める。
|
Research Products
(6 results)