研究分担者 |
南 美穂子 統計数理研究所, 統計基礎研究系, 助教授 (70277268)
藤澤 洋徳 統計数理研究所, 統計基礎研究系, 助教授 (00301177)
松浦 正明 (財)癌研究会, ゲノムセンター, 部門長 (40173794)
宮田 敏 (財)癌研究会, ゲノムセンター, 研究員 (60360343)
牛嶋 大 (財)癌研究会, ゲノムセンター, 研究員 (60328565)
|
研究概要 |
教師つき遺伝子発現データのパターン識別に生じる困難な問題に対してブリッジング・スタディによる方法の開発を行った.この問題点は,世界的規模で同時多発的に集中して多大のコストをかけて蓄積されているデータは,各施設で得られた遺伝子発現データは個々の実験は小規模で特徴ベクトルの次元はサンプル数に比べて大きすぎるということである.この問題を解決するため,各施設のデータをブリッジするパターン識別の方法を開発した. 良いブリッジング・スタディを得るためには,いろいろと複雑に組み合わさったバイアス問題を解くことが要求されることが分かった.このブリッジングスタディの完成度を上げるために,癌研究会ゲノムセンターの情報解析に集まるデータと,国立遺伝学研究所のブリッジングスタデイの計画を進めた. また,異なる施設で得られたマイクロアレイデータについて,起こりうる全てのバイアスについて検討した.このバイアスがパターン識別のための方法の性能にどのくらい影響を与えるか,誤分類確率について,理論的な研究とモンテカルロによる研究を両方について行った. 次に実際の異なる施設で得られたマイクロアレイデータについて,ブリッジスタデイを行い,バイアスの影響の評価とバイアスの補正を誤分類確率に対して行い,その結果に基づいて,バイアスのモデルを提案した.再度,実データへの適用からモデルの妥当性を検討する作業を幾度か繰り返し,データの学習プロセスを通してブリッジスタデイの実用化を完成した. 今後,さらに実用性を高めて,マイクロアレイデータが蓄積されている研究所との共同研究を進めたい.なお,研究成果の一部はwebを通して公開した.
|