研究課題/領域番号 |
25330049
|
研究機関 | 統計数理研究所 |
研究代表者 |
川崎 能典 統計数理研究所, 大学共同利用機関等の部局等, 教授 (70249910)
|
研究分担者 |
植木 優夫 久留米大学, 付置研究所, 講師 (10515860)
赤司 健太郎 学習院大学, 経済学部, 教授 (50610747)
|
研究期間 (年度) |
2013-04-01 – 2016-03-31
|
キーワード | スパース正則化法 / 分類・パターン認識 / 変数選択 / 変数グルーピング / 高次元交互作用 / リスク解析 / 多重共線性 |
研究実績の概要 |
平成27年度は、前年度に引き続き、電話による直接顧客マーケティングを利用した定期預金の販売に関するデータを分析し「スパース正則化を利用した自動変数グルーピング法の数値的側面の研究」を完成させた。結果は査読付き英文誌Journal of Japanese Society of Computational Statistics誌に掲載された。 預金契約に至りやすい顧客の特徴の把握と予測性が、変数選択法ないしグルーピング法によってどう異なるかを統計的に検証した。比較の対象として、LASSO、Elastic-Net、SCAD、MCPに加えて、我々の提案するSmooth-Threshold Estimating Equation法(STEE法)を取り上げた。推定用データと予測検証用データに分ける分割をランダムに10回実行して、受信者操作特性(ROC)曲線下の面積(AUC)で予測精度を比較した。 実験結果から観察されるところでは、STEEでグルーピングを考慮すると、平均的にはAUCの値はやや下がるが、複数回の実験における最大AUCは、STEEでグルーピングを考えた場合に頻繁に見られた。非ゼロの係数が推定された回数を計測してみると、当初STEEと他の方法では変数の絞り込みの傾向が大きく異なっているように見えたが、チューニングパラメータの選択を交差検証型からBIC型に切り替えると、LASSOやSCAD等もSTEEの変数選択版とほぼ同様の傾向を示すに至った。また、STEE変数選択版では多くの変数が落とされる一方、STEEグルーピング版のほうが非ゼロで生き残る変数は多い。単独では残らない変数でも、グループ化されると生き残る場合が多いと解釈できる。グループ化された変数の多くは、職業や学歴等顧客の社会的地位に関するもので自然な解釈が与えられる。
|