研究課題/領域番号 |
07F07763
|
研究種目 |
特別研究員奨励費
|
配分区分 | 補助金 |
応募区分 | 外国 |
研究分野 |
生体生命情報学
|
研究機関 | 京都大学 |
研究代表者 |
馬見塚 拓 京都大学, 化学研究所, 教授
|
研究分担者 |
HANCOCK Timothy Peter 京都大学, 化学研究所, 外国人特別研究員
|
研究期間 (年度) |
2007 – 2008
|
研究課題ステータス |
完了 (2008年度)
|
配分額 *注記 |
1,900千円 (直接経費: 1,900千円)
2008年度: 1,100千円 (直接経費: 1,100千円)
2007年度: 800千円 (直接経費: 800千円)
|
キーワード | データ統合 / 確率モデル / 統計的機械学習 / ネットワーク(グラフ) / 代謝パスウェイ / 遺伝子発現 / マルコフモデル / 決定木 / マイクロアレイ / 分類 / Mixture of experts |
研究概要 |
本研究の目的は、生命科学の様々なデータを統合し、各データの解析のみからでは得られない新たな知識発見が可能な統計的手法を構築することである。特に近年の生命科学ではグラフやネットワークで表わされるデータが増えている。そこで、事例間の類似性すなわちグラフと事例の実数値ベクトルの2つを入力とする研究課題を設定した。具体的には、事例は遺伝子に相当し、グラフは遺伝子ネットワーク、実数値ベクトルは遺伝子の発現を表す。このデータにおいて、実数値ベクトルにラベル(クラス)が与えられている状況を考え、グラフ上での、実数値ベクトル(事例)の分類問題を設定した。この問題では、事例間の類似性を情報として利用可能なことにより、実数値ベクトルにより事例を単純に分類することに較べて精度の良い分類が期待できる。加えて、どのような類似性が分類に重要かという知識発見も可能である。この問題に対し、2つの解決手法を考案した。まずマルコフモデルの混合分布に基づくモデル・学習手法を構築した。この手法は、確率モデルであるためノイズや誤差に頑健であり、生命科学データに適していると考えられる。また、人工データのみならず遺伝子ネットワークおよび遺伝子発現の実データにおいて、手法の有効性を実証した。本成果は論文にまとめ現在投稿中である。次に再帰的な分割に基づく学習手法を構築した。この手法は、決定木の学習やグラフクラスタリングに類似しており、実際、決定木の学習にグラフクラスタリングのいくつかの標準的な分割基準を導入した場合とほぼ等価である。この手法は人工データのみならず実データでの実験により評価を行いGenome Informatics誌に発表を行った。
|