LassoやSCAD罰則化法などによる変数選択法の有用性は経験的にも理論的にも知られるようになった。しかしながらこれらの推定値を得るために必要な最適化問題はしばしば複雑なものとなるため、実用にあたっては計算コスト面や数値誤差の問題など解決すべき点は数多い。本研究ではそれらを解決する新たな手法「smooth-threshold estimating equation」を開発し、Ueki(Biometrika 2009)にて発表した。この手法は推定方程式の形式であれば適用できるため、高い汎用性をしている。数学的にはZou(J.Am.Statist.Assoc.2006)のAdaptive Lassoと等価であることを証明しており、さらにAdative Lassoよりも単純な最適化問題によってることができる。実際、非ゼロパラメータの推定方程式は重み付リッジ罰則を付加した推定法と見做せ、多くの場合にニュートン・ラフソン法による求解が可能である。その結果、数値的にも安価でかつ安定した推定が実現可能となった。 Lassoなどの変数選択法はデータ量の急速な増加に伴い、その高度な知識発見能力は、現実問題でも成果を挙げつつある。その代表的な問題のひとつに遺伝子と疾患との関連研究がある。例えばSNPsを用いたゲノムワイド関連研究においてLassoを利用する試みが行われているが、SNPsデータは巨大であるために、高い計算負荷のかかる手法は現実的でない。Smooth-threshold estimating equation法は従来の手法を代替するものと期待でき、次年度以降はその実問題への応用を課題としたい。
|