研究概要 |
非線形回帰分析の手法を開発した。その背景と手法は以下のとおりである。 DNAチップデータの開発により、特定の疾患や固体の形質などの表現型を制御する重要遺伝子の探索が一気に加速しようとしている。これに対して、情報処理やデータマイニングをはじめとするバイオインフォマティクスによるさまざまなアプローチが試みられているが、統計の問題にした場合、表現型を目的変数、各遺伝子の発現量を説明変数とする回帰分析を考えるのが一般的と思われる。この際、次の2つの問題が回帰分析を困難にする、1)説明変量数Kは2万から3万個にのぼるが、2)標本数Nは多くても100個程度にしかならない。この2つは、一見、相対的ともとれるが、説明変数のこの個数は現状の計算機では扱えないほど絶対的に大きい。 さて、回帰分析の最も簡単な場合として、表現型の各遺伝子発現量に対する相関係数(直線回帰)が挙げられる。この場合、計算量も2万回の相関係数の推定だけでよく、また計算機上のメモリ配列も高々Nオーダーで十分である。また、相関係数が1に近い遺伝子は確かに重要な候補となるため簡易な方法ではあるが強力である。しかしながら、非線形用量反応関係を持っている場合や説明変数間に相関構造がある場合に重要な遺伝子を見落とす可能性がある。 一方で、多くの説明変量から目的変量を説明するための有効射影方向を探索するSIR(Li, JASA, 86,316ー342、1991)は関数形を特定する必要がないため、非線形構造を捉えることもできる。しかし、今の状況では大きな行列を用いて多変量データの基準化および主成分分析を行う必要があり、そのままの適用は現実的に困難である。 そこで、我々は、スライス数2のSIRを考え、その理論を開発した。これによって、多くの説明変数がある場合でも単一の有効射影方向を簡易な手法によっておおよその係数の推定が可能となった。
|