本研究では質量分析計による蛋白発現データのパターン認識と、治療方法の選択や予後判定の指標となる癌部たんぱく質の同定、およびその判別方法のための統計学的理論モデルの開発を行った。開発した解析モデルは、(1)adaptive free-knot splineを用いた、蛋白発現に対応するピークの同定、(2)検体間でのピーク位置の補正と、表現形によって有意な発言差のある蛋白を抽出するためのスクリーニング、(3)AdaBoost等の判別手法による、表現形関連蛋白質の探索、の三段階からなる。特に(1)のピーク同定のためには、高精度の平滑化を行うため、adaptive model selection criterionをモデル選択基準とし、遺伝的アルゴリズムによる節点配列の最適化を行うデータ適合的なspline関数の推定アルゴリズムを開発し、独自の貢献を行った。開発されたモデルは、財団法人癌研究会において収集された症例(末梢血および組織検体)に適用され、癌種の判別や治療効果予測モデル構築を試みた。また、収集されたデータを保存するためのデータベースを構築し、今後の研究に利用できるよう整理した。研究の成果は日本統計学会誌欧文誌、その他の研究雑誌において論文発表するとともに、Pacific Symposium on Biocomputing 2006 (Hawaii)、International Symposium on Biostatistics (Fukuoka)等の国際学会で報告した。
|