本研究の目的は、生命科学の様々なデータを統合し、各データの解析のみからでは得られない新たな知識発見が可能な統計的手法を構築することである。特に近年の生命科学ではグラフやネットワークで表わされるデータが増えている。そこで、事例間の類似性すなわちグラフと事例の実数値ベクトルの2つを入力とする研究課題を設定した。具体的には、事例は遺伝子に相当し、グラフは遺伝子ネットワーク、実数値ベクトルは遺伝子の発現を表す。このデータにおいて、実数値ベクトルにラベル(クラス)が与えられている状況を考え、グラフ上での、実数値ベクトル(事例)の分類問題を設定した。この問題では、事例間の類似性を情報として利用可能なことにより、実数値ベクトルにより事例を単純に分類することに較べて精度の良い分類が期待できる。加えて、どのような類似性が分類に重要かという知識発見も可能である。この問題に対し、2つの解決手法を考案した。まずマルコフモデルの混合分布に基づくモデル・学習手法を構築した。この手法は、確率モデルであるためノイズや誤差に頑健であり、生命科学データに適していると考えられる。また、人工データのみならず遺伝子ネットワークおよび遺伝子発現の実データにおいて、手法の有効性を実証した。本成果は論文にまとめ現在投稿中である。次に再帰的な分割に基づく学習手法を構築した。この手法は、決定木の学習やグラフクラスタリングに類似しており、実際、決定木の学習にグラフクラスタリングのいくつかの標準的な分割基準を導入した場合とほぼ等価である。この手法は人工データのみならず実データでの実験により評価を行いGenome Informatics誌に発表を行った。
|