本研究課題では新規情報処理技術によるバイオインフォマティクス研究の推進、特に生命科学の異なるデータを統合することにより、効率良く高次の情報を抽出するための機械学習・データマイニング技術の構築による生命科学への貢献を目指している。具体的には、以下の2種類のデータに着目する。まず、近年幅広く利用可能となりつつある、生体分子間の相互作用・制御・代謝等の関係性を示すグラフやネットワークといったデータである。一方は、近年開発されたいわゆるハイスループットデータの代表的存在であるマイクロアレイデタである。本年度は、これら2つのデータを統合・解析する新手法を開発・構築した。より具体的には、代謝パスウェイとマイクロアレイデータに着目し、2つのクラスに属するマイクロアレイデータが与えられた時に、クラスを分類するために重要なパスウェイを見出すことが可能な手法を構築した。2つのクラスとは例えば、がん細胞でのマイクロアレイとがん細胞ではないマイクロアレイデータであり、このような条件下でクラスを識別するために重要なパスウェイを発見することは非常に重要である。研究分担者の博士号取得時の専門が統計科学であったこともあり、構築手法は確率モデルをcomponentとしたmixture of expertsの構造をなしており、Penalized logistic regressionによりパラメータ推定がなされる。本年度は手法構築と同時に人工データを用いた性能実証実験を行い、手法の精度を確認することが出来た。来年度に手法と結果について論文にまとめる予定である。
|