情報量規準によるモデル選択は、一致性と呼ばれる性質を持つことが期待される。一致性とは、そのモデル選択手法が、漸近的に確率1で正しいモデルを選択する性質である。ある情報量規準が一致性を持つか否かは扱う漸近理論によって異なる。多変量正規線形回帰モデルに対しては、赤池情報量規準は高次元漸近理論で一致性を持つ一方で、ベイズ情報量規準は大標本漸近理論で一致性を持つことが知られている。 ただ、現実には手元にあるデータが有限である以上、どの漸近理論がデータにふさわしいかを判断することはできない。従って、情報量規準によるモデル選択の結果、真のモデルとはかけ離れたモデルが選択されると、データの説明や予測に重大な悪影響を及ぼしうる。 Kono and Kubokawa (2021) は、この問題を理論的に自然な方法で解決した。具体的には、事前分布にspike and slab分布と呼ばれる特殊な分布を仮定したベイズモデルを考え、その予測周辺尤度の推定量として情報量規準を構成した。また、それが多変量線形回帰モデルにおいて、大標本・高次元双方の漸近理論で一致性を持つことを証明した。数値計算の結果も良好で、これまでに提案されてきた情報量規準を上回るパフォーマンスを発揮した。 また、従来の多くの研究は、データが独立同一分布に従う場合のみを扱っており、そうでないデータへの適用はあまり明らかではない。そこで、Kono and Kubokawa (2021) で導出した情報量規準が、相関構造を持つデータに対して有効かどうかを検証した。その結果、シンプルな時系列構造や空間構造を持つデータに対しても、わずかな修正をするだけで、提案した情報量規準が適用可能であることが分かった。提案手法の頑健性を示唆するこの結果は、データの独立性が保証できない場合への応用あたって有用である。
|