研究概要 |
近年様々な研究分野や社会領域で膨大な時系列データが集積されている中,データ測定技術の革新や情報技術の高度化に伴い,データベクトルめ高次元化が著しく進行している.その一方で,研究体制の未整備や社会的費用に関する諸問題が原因で,データベクトルの次元(p)に比べて,集積可能なサンプル数(n)が極端に少ない時系列データが顕在化している.例えば,DNAマイクロアレイデータでは,データベクトルの次元は解析対象遺伝子の個数,サンプル数はマイクロアレイ実験の回数によって決まる.通常の解析では,対象遺伝子数は数千から数万のオーダーであるのに対して,マイクロアレイ作成に要する費用的制約,あるいはサンプル収集に関する医療体制上の限界から,使用可能なマイクロアレイ数は高々数十程度である.このようなデータの次元とサンプル数の極端な不均衡は統計科学において「n<<p問題」と呼ばれ,従来の統計理論の多くがその有効性を失うことから,現時点で確立された統計解析技術は未整備のままである.本課題では,時系列データの「n<<p問題」に焦点を絞り研究を実施した.特に,「状態空間モデルに基づく正則化自己回帰モデリングの方法と理論の構築」を行い,遺伝子発現プロファイルの時系列データ(DNAマイクロアレイデータ)を利用して転写モジュールの相互作用ネットワークを同定するためのデータ解析技術の開発を実施した.開発手法に関してはソフトウェア化を実施し,無償配布を行っている(http://daweb.ism.ac.jp/~yoshidar/software/ssm/
|