研究分担者 |
藤澤 洋徳 統計数理研究所, 数理・推論研究系, 助教授 (00301177)
松浦 正明 癌研究会ゲノムセンター, 情報解析部門, 部門長 (40173794)
宮田 敏 癌研究会ゲノムセンター, 情報解析部門, 研究員 (60360343)
牛嶋 大 癌研究会ゲノムセンター, 情報解析部門, 研究員 (60328565)
村田 昇 早稲田大学, 理工学部電気電子情報工学科, 教授 (60242038)
|
研究概要 |
本年度はマイクロアレイの発現データ・SNPの遺伝子型のデータ・プロテオームのマスデータから成る3つのタイプのゲノムデータを同時に同じ被験者群から得たときの統計方法の開発をした.それぞれのゲノムデータに対して独立に行われてきた統計的方法の困難な問題は,「高次元データ・小標本数」の問題であるが,同一の対象に同時に計測できる3つのゲノムデータから,それぞれで得られた結論を結合できることに注目した.3つのゲノムデータを同時に得ることは一見,高次元データ・小標本数問題をより困難にすると思われるが,それぞれのデータに残りのデータから情報を得ることで,より正確な統計モデルが構築できると発想した. この発想より,生物学の知見から3つのデータは1つのサークルにあることに注目した.すなわち,SNP->遺伝子発現->タンパク発現という順に繋がっているのでデータの因果性はSNPデーター>マイクロアレイデーター>プロテオームデータとなる.このことから,3つのデータをそれぞれ特徴ベクトルと考えて,ある表現形に強いアソシエイションが発見された特徴量を,それぞれ比較することによって互いにその発見の妥当性が検証できる. マイクロアレイの発現データに関しては,特定された発現遺伝子が支配するタンパクについてマスデータから参照し整合性を検証した.SNPの遺伝子型のデータに関してはマイクロアレイの発現データとの相関解析の統計方法を開発した.プロテオームのマスデータではピーク値から関連するタンパクの候補を挙げて,特定された発現遺伝子から絞り込む.ピークパタンと遺伝子タイプのパタンを比較検討する.このために特化した正準相関分析の方法を開発した.現在,このアイデアに基づいて解析結果をまとめ論文に投稿準備中である.
|