複雑なデータを解析する際に、データを生成するメカニズムを数学的に便宜なパラメトリックモデル仮定し、尤度推論を進めることがしばしば困難である。離散データを解析する際に過分散と呼ばれる現象がしばしば起き、このようなデータを解析するときに安易に既存のアルゴリズムを用いることは危険である。例えば、過分散が伴う比例データの場合、安易に一般化線型モデルを適用し、通常のlogistic 回帰分析を行うと誤ってしまう恐れがある。このようなデータに対して、確率分布を仮定せずに、平均と分散のみについての制約を仮定する擬似尤度の考え方がある。弱い条件の下で、擬似尤度推定量は一致性を持つことが広く知られている。しかし、擬似尤度に基づくモデル選択に関する研究は殆どなされていない。今年度はこの問題を焦点に研究を進めてきた。得られた研究成果の一部は論文として纏めている最中である。擬似尤度に基づくモデル選択は、従来のAICを導いた考え方を本質的に拡張する必要がある。平均と分散についての一般的な仮定の下では、擬似スコアを積分することはできないため、AICの導出を支える重要な概念としての予測分布の概念を拡張し、予測空間の構築が必要となる。この時に、最適な予測分布を導くことは、数学的にも統計的にもいくつかの課題を克服する必要があった。平成24年度では、これらの基本的な課題を整理し、必ずしも積分できるとは限らない擬似スコアに基づく「セミパラメトリック情報量規準」を導き、また実際のデータ解析やシミュレーションなどでその有効性を確認した。
|