研究概要 |
近年の臨床医学データ解析では臨床診断情報に加えて遺伝子発現量やSNPなどの高次元変量オミックスデータを同時に扱う必要があるため(1)各症例の特徴を示す変量の高次元性・ヘテロ性・欠測などの問題,(2)解析結果出力時の統計的検定多重性の問題への対応が難しい.本研究課題ではこれらを統一的に解決する方法の開発と普及を目指している.私はまず欠測を含む行列形データの因子化を柔軟な確率モデルで記述することで(1)の問題を扱うための基本的プラットフォームとした(これは本研究の計画段階で中心においていた確率的正準相関解析(CCA)の一般化という位置づけ).とくに欠測の構造にヘテロ性が入っている場合にスパースな因子負荷行列を求める「確率的ヘテロ成分分析」(NIPSスポットライトトークに選ばれる),各成分と各症例の信頼性の違いが同時に存在する場合を考慮して重み付けを工夫した因子分解法「縦横二方向因子分析」(IBIS,AROBなど),データがデジタル値である場合に同様の因子分解を行う「重みつきマージン最大化行列分解」(AROB)を開発し発表した.(2)については,多重検定における統計的有意性スコア最適化原理(ODP)の理論と応用に関する研究を進めた.とくにODPの推定法を改善し検出力を向上する工夫(NC研究会)および,二値共変量との間に有意な関係を持つ遺伝子の検出問題において,関係のパターンに関する情報を取り入れることで検出力を高めたアイディア(IBIS)を発表した.高次元変量データを疾病診断などの症例分類につなげる方法論の研究には一段落がつきつつあるが,疾病のメカニズムに迫るためのデータ解析の手法にはまだ大きな進歩の余地がある.次年度では(1)と(2)の方向性を統合する手法開発と,その普及を目指す予定である.
|