ゲノム配列やmRNA配列などの大規模オミックス情報が公開データベースに蓄積する一方で、これらのビッグデータの活用は進展していない。この要因として以下が挙げられる。(1)データベースに格納されているRNA-Seqなどの登録データは実験条件の記述様式と用語にレコード間で統一性がないため、mRNAサンプル間の由来(系統、器官、ステージ、処理など)の同一性・差異を容易に把握できない。その結果、大規模RNA-Seqデータを入手しても、実験条件間での比較解析が困難である。(2)遺伝子発現プロファイルの類似性に基づく従来の遺伝子分類法は主にピアソン相関係数に基づくため、算出に膨大なコスト(計算機資源)を要し、スパコンでも大規模情報を解析できない。(3)バイオインフォマティクスによる遺伝子探索では数百個以上の候補遺伝子が得られる場面が多く、機能アノテーション情報を併用した遺伝子選抜が必要となる。しかし、アノテーション情報の大半が機械的な予測結果に基づくため、信頼度が低い。 本課題では、シロイヌナズナ、イネ、トマトなどの主要植物種の遺伝子発現ネットワーク(GEN)を構築し、種間比較も可能な知識情報統合解析システムを開発することで、種や器官・ステージに特異的な発現遺伝子やその発現制御機構の解明を容易とした。そのために、取得した大規模RNA-Seqデータの実験条件をオントロジーに基づくマニュアル・キュレーションによって記述しなおし、網羅的な遺伝子発現解析を達成した。開発したAIテキスト・マイニング基盤を活用し、学術論文情報から遺伝子機能に関する知識情報を高精度抽出し、知識情報統合解析システムに格納した。さらに、種横断的な遺伝子ファミリーを定義し、知識情報統合解析システムにおけるGENや発現制御機構などの種間比較解析を効率化した。これらは、植物知識情報統合サイトPODCから公開・提供している。
|