12年度は、生物学に関連したファクト間相互関係データベースから情報を抽出するための問題点の明確化を行い、対象データの収集・整理および、解析向けアルゴリズムの開発と実装を逐次計算機上で行った。 1.問題点の明確化 複数の生物学的な属性に対して相関している遺伝子群を、「相関遺伝子クラスタ」として定式化し、これを抽出するものとした。 2.対象データの収集・整理 京都大学において開発されている、KEGGデータベースに蓄積された遺伝子間相互関係データを用いることを検討し、解析に向けてデータ形式の整理等を行った。 3.逐次アルゴリズムの開発 ゲノムが決定されている生物種では、全ての遺伝子を1次元的に順序づけることが可能である。他にも、ORF配列やタンパク立体構造の類似関係などに基づいて、遺伝子間の相互関係を評価することができ、これらは全体として遺伝子間の隣接グラフを構成する。複数の隣接グラフ内で相互関係を保存しているノードの集合(相関遺伝子クラスタ)を抽出する手法を検討した。 特定のORFが各隣接グラフ内で該当するノードを選択し、これらの組をハイパーエッジと呼ぶ。1つのハイパーエッジに関して、n番目のグラフに属するノードをその第n次元要素と呼ぶ。2つのハイパーエッジ間の距離を、同一次元要素同士の隣接グラフ内での最短距離の和として定義し、これを用いてハイパーエッジをクラスタリングし、相関遺伝子クラスタを抽出した。 4.結果と考察 上記手法を大腸菌のデータセット(ゲノム・パスウェイ・立体構造)に適用した。その結果、例えば、ある3つのORFは、ゲノム上およびtryptophan biosynthesis pathway上で近接し、該当するタンパクの立体構造が類似していること等が明らかになった。上記で用いた立体構造の代わりに共発現関係のデータを使用すれば、ラン藻のマイクロアレイデータへの適用等が可能である。
|