2015 Fiscal Year Annual Research Report
遺伝子配列ビッグデータを用いた「タケノコ状進化」の解明
Project/Area Number |
15J07743
|
Research Institution | The University of Tokyo |
Principal Investigator |
松井 求 東京大学, 理学系研究科, 特別研究員(PD)
|
Project Period (FY) |
2015-04-24 – 2018-03-31
|
Keywords | 分子進化 / 系統解析 / ネットワーク / 進化シミュレーション / Spectral clustering / ペアワイズアライメント / Long branch attraction / TIMバレル |
Outline of Annual Research Achievements |
研究課題で掲げた「タケノコ状進化の解明」を従来手法を用いることで達成することは困難である.そこで,まず初めにネットワーク解析の技術をベースとした新たな進化解析手法「Graph Splitting (GS) 法」を考案し,実装した.GS法はpairwise alignmentに基づいた配列類似性グラフをまず構築し,次にそのグラフを再帰的に分割することで系統樹を得るという二段階の解析過程からなる.このように部分配列の類似関係に着目することで,より遠縁な遺伝子群の系統樹再構築が可能になると考えている. GS法の性能を検証するために,まず進化シミュレーション(人工的なアミノ酸配列群を様々な条件下で繰り返し生成し,次に一連の手法で系統樹を再構築し,最後にモデル系統樹からのトポロジー距離を算出)に基づいてGS法と主要な従来手法の性能比較を行った.その結果,配列距離が遠い場合はGS法が圧倒的に良い精度を示すことが示された.またLong branch attractionやBiased taxon samplingなど一般的に系統解析が困難とされる問題についてもGS法は頑健なパフォーマンスを示すことが明らかになった.また,GS法の計算速度について比較したところ,主要な従来法のなかで最も高速な方法(近隣結合法; NJ法)と遜色ない計算速度を示すことが明らかになった. 次に,実データ解析におけるGS法の有用性の検証を行った.適用例として,他のタンパク質ファミリーと比べ配列距離が顕著に遠いTIMバレルタンパク質群を選び,系統解析を行ったところ,高い内部枝支持率を持つGS系統樹が得られた.タンパク質三次構造の比較解析結果に鑑みて,このGS系統樹は他系統樹よりも確からしい系統関係を示唆するものであった.この結果はGS法が「タケノコ状進化」に取り組む上で有用であることを示すものである.
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究課題は「タケノコ状進化の解明」を目指し,新規手法の構築(1年目),現実のデータを用いた検証(2年目),より高次な進化学上の難題への挑戦(3年目)という計画に従って進める予定となっている.その最初の年度である本年度のより具体的な年次計画は,1) 4-7月: 手法の構築,2) 8-11月: 進化シミュレーションデータや転写因子などの系統学において典型的な解析対象となっている遺伝子配列群のデータを用いた手法の精度検証,3) 12-3月: 論文執筆,であった. 現在までに,まず新規に考案した系統解析手法(GS法)について,従来手法と比較して最高レベルの精度と計算速度を両立した実装を実現している.また,転写因子よりもさらに解析困難とされていた複数の実データ(TIMバレル等のスーパーファミリータンパク質のデータ)へGS法を適用することで様々な状況における性能評価を行い,GS法がそのような場面においても有用であることを示している.さらに一連の成果をまとめた投稿論文をほぼ書き上げており,これらは当初の研究計画を大きく上回る成果である.また,学会発表も積極的に行い,その発表内容は最優秀口頭発表賞(JSBi2015)やポスター賞(BIO UT 2015)を受賞するなど高く評価されている.そのため「当初の計画以上に進展している」と自己評価する.
|
Strategy for Future Research Activity |
まず,平成28年度(2年目)では,「現実のデータを用いた検証」ということで,レクチン,膜タンパク質,ロドプシン,核酸結合タンパク質といった進化学上興味深いが,系統解析が困難だった遺伝子ファミリーの解析にGS法を順次適用していく.例えば,レクチンが特異的に認識して結合する糖鎖は自己,非自己を認識する足場となる重要な因子であるため,ここでレクチンの進化過程を明らかにする事が出来れば,将来的に病原菌の創薬ターゲットの探索の加速や,あるいは癌転移の抑制方法の開発といった幅広い分野への応用が期待される.さらに,ゲノム情報からの新規遺伝子予測やメタゲノムデータの利用を進めていく事で,異なるファミリー間をつなぐような遺伝子群の発見を目指す. 次に平成29年度(3年目)では,「より高次な進化学上の問題への適用」ということで,ウイルスと真核生物から網羅的にポリメラーゼ等のタンパク質配列を取得しGS法を適用する.特にネットワーク解析を応用する事で複雑な遺伝子の進化プロセスの中から垂直伝播経路を水平伝播経路と分けて抽出し,その系統関係を明らかにしながら,ウイルスの起源や真核生物との進化的な関係,水平伝播による遺伝子の交換,病原性の起源といった問題について議論する.さらにウイルスと真核生物の間で行った議論が,ファージとバクテリアなどの間でも成立するのかという問題について考察し,また宿主域の進化的な変遷や,ファージとウイルスの祖先ゲノムなどについて議論を進める.
|
Research Products
(6 results)