研究課題/領域番号 |
17H03610
|
研究機関 | 基礎生物学研究所 |
研究代表者 |
内山 郁夫 基礎生物学研究所, ゲノム情報研究室, 助教 (90243089)
|
研究期間 (年度) |
2017-04-01 – 2020-03-31
|
キーワード | 水平遺伝子異動 / 微生物ゲノム / ゲノム進化 |
研究実績の概要 |
本研究は、原核生物における水平遺伝子移動(HGT)によるゲノム進化の全体像を解明することを目標として、研究代表者らが構築している微生物比較ゲノムデータベースMBGDを活用して、特に種内で保存されていない「非コア遺伝子」に着目した解析を行う。この目的のため、非コア領域における遺伝子の並び順の保存性に基づいてゲノミックアイランド(GI)の抽出を行うプログラムの開発と、種をまたがって保存されている非コア遺伝子のシステマティックな抽出方法の開発を進め、これに従来用いられている配列類似性や塩基組成に基づくHGT予測法を組み合わせるという方針で研究を進めている。 今年度は、これまでに開発した種内・属内・属間のオーソログ解析を段階的に進めるオーソロググループ構築アルゴリズムを最新のデータに適用して、MBGDデータベースの更新を行った。得られた階層的なオーソロググループデータから、種をまたがって保存されている非コア遺伝子をシステマティックに抽出することが可能となった。 一方、GIの抽出については、種内で保存された「コアゲノム」構造を抽出する目的で開発したCoreAlignerアルゴリズムを改変し、これを非コア領域に適用することにより、複数株間で保存されたGI構造を抽出するプログラムFindIslandを開発した。さらに抽出されたアイランドについて、各株におけるコアゲノム上での挿入位置の分布から「可動性」を評価する機能を加えた。これを上記の最新データベースにおいて、多数の株を含む146種のゲノムデータに適用し、既存の様々な手法を用いてGIを定義したIslandViewerデータベースと比較することによって評価した。その結果、抽出されたGIのうち可動性を持つもの、および十分な長さを持つものについては、IslandViewerと高い一致を示すことなどがわかった。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本研究では、水平遺伝子移動(HGT)を推定する新たなアプローチとして、研究代表者らが進めてきた比較ゲノムデータベースを活用し、特に種内で保存されていない「非コア遺伝子」に着目した新たな手法を開発することを目指している。そのアプローチとして、遺伝子の並び順の保存性に基づいてゲノミックアイランド(GI)を抽出する手法と、階層的なオーソログ構築による種内比較、属内比較と遠縁種間比較とを統合する手法の2つのアプローチを推進してきた。これまでに、前者としては、CoreAlignerアルゴリズムを改変してFindIslandプログラムを作成し、FindMobileプログラムで用いた可動性評価の機能を組みこんで、GI抽出の性能について評価した。また後者については階層的オーソログ構築の手法を新規データに適用してデータ更新を行った。これらについては概ね順調に進んでおり、本研究の基本となるプログラムとデータはほぼ揃いつつある。 一方、より精度の高いHGT予測を行うために、塩基組成や配列類似性の異常性に基づく方法など、既存のアプローチを含めた複数の方法を組み合わせる必要がある。当初はこの部分においても独自の研究を展開する予定だったが、諸般の事情から予定を変更し、既存の手法を活用して、本研究を進める上で必要なデータを揃えることに徹することとした。このため、塩基組成に基づく方法としては、ベイズ分類機を用いたkmer頻度に基づく推定手法であるPSTk-Classifierを本研究用に改変し、また配列類似性に基づく方法としては、MBGDにおいてオーソロググループごとに作成した系統樹を用いた推定手法を実装し、網羅的な推定を行う体制を整えた。これらを組み合わせることによって、原核生物におけるHGTの実態の全体像を解明するという本研究の目的を達成する準備は整ってきており、概ね順調に進んでいると考えている。
|
今後の研究の推進方策 |
これまでに、新規に開発した遺伝子の並び順の保存性に基づくGI予測と、階層的オーソロググループを用いた種をまたがって保存される非コア遺伝子の情報に加えて、既存のアプローチによるHGT予測結果をシステマティックに蓄積する体制が整った。今後は、これらの手法をMBGDに多数のゲノムが登録されている種に適用してデータベース化を行い、それらの整合性を評価するとともに、これを用いて比較的最近起きたHGTについての傾向の分析を行う。 具体的には、MBGDの最新版から解析対象としてピックアップした144種について、それらのパンゲノム中の各遺伝子(オーソロググループ)について、1) 種内における保存性、2) FindIslandによるGI推定とそれらのコアゲノム上の位置の可動性、3) 配列類似性に基づくHGT推定と推定ドナー、3) k-mer組成に基づくHGT推定と推定ドナー、4) 階層的オーソロググループから得られる属内および遠縁種間の保存性、5) Pfamドメイン検索から得られる可動性に関連したドメインの情報、などを計算して記録する。これらの情報を統合して、生物種ごとに推定HGT遺伝子数や推定GI数、予測ドナー生物種、可動性ドメインの有無などについての統計をとり、HGT遺伝子についてどのような特徴が見られるか検討する。特に顕著な特徴が見られるケースについてはその生物学的な意義について考察する。また、HGT遺伝子の特徴づけに関連して、種をまたがって存在する一般的な傾向についても解析する。これらの成果について論文にまとめる。
|
備考 |
MBGDは、本研究の基盤となっており、将来的に成果を取り込む予定のデータベース。
|