並列データマイニングによる遺伝子ネットワークからの情報抽出

研究課題

研究課題/領域番号	12208015
研究種目	特定領域研究(C)
配分区分	補助金
審査区分	生物系
研究機関	京都大学
研究代表者	中谷明弘京都大学, 化学研究所, 助手 (60301149)
研究期間 (年度)	2000
研究課題ステータス	完了 (2000年度)
キーワード	遺伝子クラスタ
研究概要	12年度は、生物学に関連したファクト間相互関係データベースから情報を抽出するための問題点の明確化を行い、対象データの収集・整理および、解析向けアルゴリズムの開発と実装を逐次計算機上で行った。 1.問題点の明確化複数の生物学的な属性に対して相関している遺伝子群を、「相関遺伝子クラスタ」として定式化し、これを抽出するものとした。 2.対象データの収集・整理京都大学において開発されている、KEGGデータベースに蓄積された遺伝子間相互関係データを用いることを検討し、解析に向けてデータ形式の整理等を行った。 3.逐次アルゴリズムの開発ゲノムが決定されている生物種では、全ての遺伝子を1次元的に順序づけることが可能である。他にも、ORF配列やタンパク立体構造の類似関係などに基づいて、遺伝子間の相互関係を評価することができ、これらは全体として遺伝子間の隣接グラフを構成する。複数の隣接グラフ内で相互関係を保存しているノードの集合(相関遺伝子クラスタ)を抽出する手法を検討した。特定のORFが各隣接グラフ内で該当するノードを選択し、これらの組をハイパーエッジと呼ぶ。1つのハイパーエッジに関して、n番目のグラフに属するノードをその第n次元要素と呼ぶ。2つのハイパーエッジ間の距離を、同一次元要素同士の隣接グラフ内での最短距離の和として定義し、これを用いてハイパーエッジをクラスタリングし、相関遺伝子クラスタを抽出した。 4.結果と考察上記手法を大腸菌のデータセット(ゲノム・パスウェイ・立体構造)に適用した。その結果、例えば、ある3つのORFは、ゲノム上およびtryptophan biosynthesis pathway上で近接し、該当するタンパクの立体構造が類似していること等が明らかになった。上記で用いた立体構造の代わりに共発現関係のデータを使用すれば、ラン藻のマイクロアレイデータへの適用等が可能である。

報告書

(1件)

2000 実績報告書

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] Nakaya,A.: "Extraction of correlated gene clusters from multiple graph structures : theory"Genome Informatics. 11. 270-271 (2000)
- 関連する報告書
  2000 実績報告書
[文献書誌] Kawashima,S.: "Extraction of correlated gene clusters from multiple graph structures : application"Genome Informatics. 11. 272-273 (2000)
- 関連する報告書
  2000 実績報告書