研究概要 |
当該年度,申請者は高次元データに対する統計的推測の研究を行った.高次元データとは,標本サイズよりも変数の次元が同じまたは大きなデータのことを指す.当該年度は高次元データに関する統計的推測の中でも特に,母平均ベクトルの検定問題を扱った.前半は,先行研究で提案されている検定方法の問題点を明らかにし,その上で検定方法の修正を行った.そもそも,母平均ベクトルの検定問題では,母平均ベクトルの大きさを測れるような妥当な検定統計量を導出し,さらにその検定統計量の正確な分布または標本サイズが大きくなる仮定の下での漸近分布を求め,それを用いて検定を行う.先行研究では幾つかの検定統計量が提案されており,標本サイズと変数の次元が共に大きくなる仮定(高次元データの枠組み)の下でそれらの検定統計量の漸近分布を導出している.しかしながら,先行研究ではその導出の際に母共分散行列に非常に強い条件を課しており,単位行列に非常に近い場合,すなわち,相関構造がほとんどないような非現実的な場合でしか成立しない.さらには,仮定から外れた母共分散行列に対して,それらの漸近分布が母共分散行列の構造に依存して変化することも示した.実際の高次元データを解析する際に,これは非常に問題である.例えば,DNAマイクロアレイデータでは,ほとんどの遺伝子は他の遺伝子に関連して発現する.すなわち,このようなデータでは母共分散行列が単位行列に近いことはほとんど有り得ない.そこで,申請者は,母共分散行列が既知である場合に,先行研究で提案されている幾つかの検定統計量の分布の新しい近似方法を提案した.これにより,より現実的な状況においても高次元平均ベクトルの検定が行えるようになった.後半は,高次元平均ベクトルに対する新しい検定統計量を提案し,高次元データの枠組みにおいての漸近分布を導出した.提案した検定統計量の利点は,どのような母共分散行列に対しても,その漸近分布が変化しないというものである.これにより,実際に検定を行う際に,母共分散行列の構造をあらかじめ考える必要がなくなった.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
当初の研究計画では,母共分散行列の構造が既知である場合の,高次元平均ベクトルの検定方法を提案するに留まると予想しており,実際にデータ解析をする際には,母共分散行列の構造をあらかじめ推定し,そして平均ベクトルの検定を行うといった2段階を踏まなければならないと予測していた.しかしながら,母共分散行列が完全に未知である場合での平均ベクトルの検定方法を提案したことによって,母共分散行列の構造を推定する必要は無くなり,よりシンプルな平均ベクトルの検定方法を提案することができた.
|
今後の研究の推進方策 |
「11.現在までの達成度」で述べたように,当初の研究計画では,母共分散行列の構造の推定方法を考えなければならないと予測していたが,完全に未知な母共分散行列に対する平均ベクトルの検定方法を提案したことにより,その必要はなくなった.そこで研究計画を変更し,次は,高次元平均ベクトルの検定を行い,帰無仮説が棄却された後の問題を対象にする.すなわち,母平均ベクトルのどの要素に有意な差がみられたために帰無仮説が棄却されたかを考える.具体的には,母平均ベクトルに対する対数尤度にL1ノルムなどの凸制約関数を加えたものを最大化することにより,母平均ベクトルの推定と有意な要素の選択を同時に行える方法を提案する.
|