複数の遺伝子データの統合を行うためのソフトウェアを作成し、実データの解析に使用できるようにした。近年、細胞形態のデータや遺伝子発現データなどの遺伝子情報はWWW上から簡単に取得できるようになっている。しかしながら、いざ自らのデータの解析に用いようとしても難しいことが多い。遺伝子情報それぞれが異なった構造(ネットワーク構造をはじめ、木構造、時系列的構造、階層構造など)を成しており、複数の遺伝子データの統合(比較・重ね合わせ・相互補完など)が生物学的にも情報科学的にも本質的に難しいことが理由のひとつである(そしてそのためのツールが整っていないのが現状である)。従来から使われているクラスタリングやネットワーク構造の特徴抽出などの手法と併せて、遺伝子間の関係の解析に線形配置アルゴリズムを適用することを試みた。この目的のために、階層型のクラスタリングツールを作成した。従来のツールとの違いは、クラスタリングの結果得られる樹形図の形状を最適化する機能を有する点である。この最適化は、クラスタ間の相関を示す行列に対して定義されたエネルギー関数が最小化するように行われる。未知データを既知の情報に結び付けて機能解明の手がかりとすることは基本的な手法であるが、この最適化されたクラスタリングによって、より多くの情報が得られるようになった。 一般的に、より強く関係し合った物(例えば遺伝子)同士がなるべく近くなるように物(遺伝子)の順番を決定する問題は、線形配置(linear arrangement)と呼ばれ、問題サイズの増加時に効率のよい解法が存在しない難しい問題(NP完全)であることが知られている。一方、関係し合ったもの同士を同一のカテゴリに分類する手法は上述の通りクラスタリングと呼ばれる。クラスタリングの結果を一列に並べることによって、線形配置の近似的な解を得ることができる。しかしながら、クラスタ間の全ての順序関係が規定されていないために、近似解の改善を行う余地がある。階層的な手法の場合、樹形図の枝の位置関係は再帰的に反転しても良いことを利用して、近似解の改善を行うことができる。また、ある深さ以上の枝の反転を行っても解が改善しないことが判明した場合には、反転処理の枝刈を行うことができるので計算の高速化が行える。本研究では、この問題を分枝再配置(tree rearrangement)問題と呼ぶこととした。分枝再配置の結果が改善するように複数のデータの重ね合わせを行うことにより、遺伝子データの統合を可能とし、また、分枝再配置処理の結果に基いて、遺伝子間の関係を可視化する手法の開発も行った。
|