研究課題/領域番号 |
26440193
|
研究機関 | 北海道大学 |
研究代表者 |
遠藤 俊徳 北海道大学, 情報科学研究科, 教授 (00323692)
|
研究期間 (年度) |
2014-04-01 – 2017-03-31
|
キーワード | 比較プロテオームデータベース / 生物系統 |
研究実績の概要 |
多種生物にまたがる比較オミックス統合データベースの開発を目指し、過去にバイオインフォマティクス推進事業の支援を得て構築したホヤ統合プロテインデータベースCIPROのデータ解析スキームを飛躍的に発展させるため、公共データバンクにて公開されている314種の動物ゲノムデータをベースとして系統準備を行い、全動物門を横断する形にプロテオームデータの整備を進めた。また、入手したゲノムデータのいくつかについて機能モチーフ探索および遺伝子オントロジーに基づいてカテゴリ分類および標準化を行い、生物種毎の遺伝子スペクトル作成を行った。この結果、生物種固有の遺伝子群の偏りを見ることができたものの個別事例の例示にとどまることが懸念される。そこで、生物系統の進化に結びつくような一般則を見いだすことを目指して、方向転換を図り、全てのゲノムデータを再処理し,遺伝子機能スペクトルの作成を目指すこととした。まず、314種から得られた全9,114,517タンパク質配列を精査したところ、1,608,556が重複配列であることが判明したため、これらがどのように機能アノテーションされているかを確認した。その結果、ゲノム解読プロジェクト毎に命名方法や質に大きな差があり、同一配列の遺伝子であっても多様な名前を持つことが明らかになった。一般には、配列類似性に基づいて機能推定することが多く、本課題でもその方向を目指していたが、基盤となる機能アノテーション辞書の品質に課題があるため、収拾がつかなくなることが判明した。そこで期間内に目標に到達できるようにするため、辞書の整備を優先することにした。なお、同一配列の遺伝子辞書は下記に公開した。http://phylomix.ibio.jp/web/spectra/level/identical_seq
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
ゲノム・プロテオームデータはNCBI,EBI,UCSCの3カ所に蓄積されているが、配列データとしてはNCBIが大半をカバーし、EBIがアノテーションの多くをカバーしているものの、動物門レベルの生物系統の整備はなされておらず比較解析を難しくしていたため、この点の整備を中心に順調に進めた。これと独立に純粋に計算量を要求する遺伝子スペクトルデータ取得について、セマフォの導入による計算資源効率化活用方法を確立し、膨大なゲノムデータを従来の1/3程度の時間で処理できるようにすることができた。
|
今後の研究の推進方策 |
データベースに蓄積した処理済データをいかに要約して視覚化するかが大きな課題である。CIPROプロジェクトで我々が初めて考案し導入したデータのグラフィック化および統合化の手法は、多くの統合データベースに取り入れられ標準となった。本研究においては、比較解析の面を強く意識したデータプレゼンテーション法の確立が最大の焦点であり、今後の標準を確立するべきものと位置づけている。
|
次年度使用額が生じた理由 |
現有機器の有効活用により、機器追加更新の必要性が低下したため。
|
次年度使用額の使用計画 |
データ処理結果の蓄積が急ピッチで進むようになってきており、計算およびストレージの拡充および成果発表に活用する。
|