研究概要 |
平成21年度においては,次の3つの成果を得た: [1] 現在、Genome Expression Omnibusなどの公共データベースには様々ながん細胞の遺伝子発現データが大量に蓄積されている。本研究において、機能的遺伝子発現モジュールを網羅的に同定し、それらに対してメタアナリシスを行うことにより、さまざまながんにおいてドライバー的役割を果たす機能モジュールの同定を行うための方法を開発した。開発した手法を、122個のがんに関する研究において公開されたマイクロアレイデータセットに対して適用し、実際の機能モジュールを同定し、それらの生物学的ながんとの関係を検証した。その結果、発見した多くの機能モジュールはすでにがんとの関係が既知のものであったが、レアな機能モジュールに関しては、がんとの関連が未知なものも多く含まれていた。 [2] 遺伝子発現データからベイジアンネットワークを用いて遺伝子ネットワークを推定する手法は、マイクロアレイが安価になり大量のデータが利用可能になったこともあり、ゲノムデータ解析の標準的な手法になりつつある。しかしながら、ベイジアンネットワークの構造学習の計算量が膨大なこともあり、事後確率最大化法に基づく方法では、最適なネットワークは探索できず、局所解として得られるネットワーク構造では、精度はそれほど高くないというのが現状である。本研究の成果により、ネットワークの事前情報としてラフなネットワーク(無向グラフでよい)が得られたとき、そのネットワークをクラスタリングして、各クラスタ上で最適学習を行い、クラスタ同士を結んでもサイクルのできないための必要十分条件を数学的に求めたアルゴリズムを用いることにより、これまでは50程度の遺伝子でしか達成できなかった条件付き最適学習が、約10倍の規模(500遺伝子)で行えるようになった。 [3] 実験条件の異なる複数の時系列データを統合し、遺伝子ネットワークを推定する問題は、時系列マイクロアレイデータの時点数の少なさから、遺伝子ネットワーク推定の精度を上げるための方法として近年注目を集めている。しかしながら、これまでは単純にデータを重ねるという方法をとっており、かえってノイズを増幅される原因となっていた。本研究の成果により、ネットワークの似ている部分では積極的に情報を統合し、似ていない部分ではデータを独立に取り扱うことが自動的に可能な数学的な枠組みを構築し、実データに対して適用し、従来法を大きく超える性能を示すことができた。
|