現在、多くのゲノム配列情報やRNA-Seqデータなどの大規模オミックス情報が公開データベースに蓄積している一方で、これらのビッグデータを活用した遺伝子探索ができない。この要因として以下の3点がある。(1)公開データベースに登録されているRNA-Seqデータには、実験条件の記述フォーマットに統一性がなく、mRNAサンプルの由来(器官・ステージなど)を容易に把握できない。その結果、大規模RNA-Seqデータを取得・解析しても、サンプル(葯、開花期など)における特異的発現遺伝子群などを探索できない。(2)従来の遺伝子発現データ解析法はピアソン相関係数の算出に基づくため膨大な計算コスト(計算機メモリーや計算時間など)を要し、大型計算機でも大規模情報を解析できない。(3)バイオインフォマティクスによる遺伝子探索では候補遺伝子数が数百個以上となることが多く、遺伝子機能アノテーション情報を併用した遺伝子選抜が望まれる。しかしアノテーション情報の大半が不明瞭な記述(Unknown Proteinなど)であり、十分に活用できない。 そこで、シロイヌナズナ、イネ、トマトなどの主要植物種を対象とし、各植物種の遺伝子発現ネットワーク(GEN)を構築し、種横断的に比較可能なシステムを構築した。RNA-Seqデータの実験条件(mRNAの由来、器官など)の把握を容易とするために、登録情報(実験条件)に対するマニュアル・キュレーションからオントロジーを付与し、網羅的なサンプル分類と比較解析を行った。また、学術論文テキスト情報を収集した後に、自然言語処理とマニュアル・キュレーションを実施し、遺伝子機能に関する高精度知識情報を集積し、システムに統合した。これらのオミックス・知識情報はデータベースPODCから公開するに至っている。
|