データを度数にまとめたビン型確率密度関数の推定をパラメトリックモデルの最尤推定に用いた場合、先行研究としてLindleyやTalisの結果がある。 本研究では度数を局所モーメント情報に拡張し、局所一次モーメント情報に基づいた最尤推定量の理論的解析を行った。この推定量は度数データに基づいた最尤推定の拡張とみなされ、Lindley and Talisの結果を改良している。この結果は、グループ化データに基づく最尤推定の理論的な枠組みを提供している。 近年、このグループ化データのセッティングは大規模データに基づいた統計解析でしばしば見られる。それは大規模データの処理に伴う計算量の増加によって生ずる統計解析の問題を大幅こ軽減する可能性があるからである。そのひとつがデータマイニングにおけるデータの集約化の概念として近注目されているデータスクワッシングである。大規模データによる推定精度をあまり落とさずにデータのボリュームを小さくする工夫である。ひとつの方向はデータをグループにまとめて、そのグループ情報としてサンプルの局所モーメントを保持することである。その理論的精度の低下は前述のグループ化尤度解析で明らかになっている。他方、データスクワッシングのオリジナルな考えは、データ自体を小さなサイズのサンプルに置き換える方向である。この概念はDumonchelらによってはじめに提案され、幾つかの分析例でその有効性が示されている。しかしながら、この理論的な性質は殆んど解明されておらず、本研究ではこの理論的な解析をカーネル推定量によるモデリングを通して行った。 この研究成果は研究発表(平成17年度の研究成果)で記載のとおりで6編の研究論文にまとめた。また、このデータスクワッシングのより深い解析と数値実験の結果は2006年8月の国際学会での講演で報告することになっている。国内ではこの結果を2006年9月の日本統計連合学会でも報告予定である。
|