研究課題/領域番号 |
21J10716
|
研究機関 | 東京大学 |
研究代表者 |
舛谷 万象 東京大学, 新領域創成科学研究科, 特別研究員(DC2)
|
研究期間 (年度) |
2021-04-28 – 2023-03-31
|
キーワード | バイオインフォマティクス / ゲノムアセンブリ / 長鎖リード / DNAシークエンシング |
研究実績の概要 |
本研究は、ゲノムDNAを高精度に読み取るDNAシークエンサーの出力(リード)を元に、動植物ゲノム中で増幅・移動する配列(転移因子)の進化動態を記述することを目標にしている。具体的には、反復領域の部分で信頼性が下がるゲノム再構成(ゲノムアセンブリ)手法ではなく、各リード中に現れる転移因子を直接検出することを通じて、ゲノム中の転移因子の研究を行う。 今年度の研究実績としては、ショウジョウバエ、コメの公開データセットを用いて、リード中に現れる転移因子のカタログを構築することを行った。既存の注釈や、公開されている転移因子のデータベースを用いて手法を比較した結果、LASTソフトウェアを用いた注釈パイプラインが感度の高い結果を出すことが明らかになった。 並行して、各リードの中の転移因子を、ゲノム中のどの領域に由来するのかを決定するアルゴリズムを開発した。また、このアルゴリズムは、より広範な文脈で利用できることがわかった。具体的には、ヒトのような二倍体ゲノムにおいて、リードが両親のゲノムのどちらかに由来するかを決定する(フェージングする)アルゴリズムとして利用できることが明らかになった。このアルゴリズムを用いて、別途、ヒトゲノムにおける多様性の高い領域を再構成(アセンブル)するソフトウェアを開発している。 今後の研究展開に関しては、各リードに注釈付けられた転移因子の情報を元に、これらの配列が、どのように挿入・欠失というイベントを通しながらゲノム中に拡散していったかを記述することを目指している。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度は、研究計画書で述べた本年度の予定をおおむね消化した。具体的には、PacBio社が公開している高精度DNAシークエンサー(Sequel II)によるショウジョウバエとイネ(インディカ)のデータを解析した。既存の参照配列に対する注釈、転移因子のデータベース(Dfam)を用いて、LASTプログラムによるアラインメントと、結果の要約を行った。これにより、リード中に存在する転移因子に対する感度の高い注釈を得ることができた。定量的には、150xのショウジョウバエSequelデータセットについて、6,600万個の注釈を得ることができた。 ショウジョウバエやイネはモデル生物ということもあり、既存の参照配列や、それに対する注釈が存在した。しかし、実際のデータを解析することで、これらの参照配列や注釈では見落とされていた転移因子が存在することを確認した。例を挙げると、ショウジョウバエの持つR1DmというLINEに属する転移因子が、現在の参照配列(dm6)のあるコンティグに挿入されていた。また、X染色体におけるR1Dm要素が反復している領域も新規に発見した。 このようにして得られたリード上の転移因子の注釈には、大きな冗長性がある。なぜなら、本データは、ゲノム中の同一の領域を多くの回数読み取っている(カバレッジが大きい)ためである。従って、この冗長性を減らすために、上記で得られたリードを、ゲノム中の位置ごとに分類する必要があった。この問題を解くペア隠れマルコフモデルに基づいたアルゴリズムを開発した。 また、このアルゴリズムはより広範な文脈で使用できた。具体的には、このアルゴリズムは、ヒトのような倍数体のゲノムについて、リードが両親のどちらに由来するかを判定するアルゴリズムとして利用できた。応用例として、ヒトゲノムの複雑な領域を相同染色体ごとに再構成するソフトウェアのひな形を構築した。
|
今後の研究の推進方策 |
今後の研究方針としては、研究計画書で述べた三段階目の予定を消化することを目標にしている。つまり、リード上の転移因子の注釈をグラフ表現や系統樹を用いて記述することを目指す。具体的には、転移因子の再帰的な(例えば、入れ子構造になったような)繰り返しパターンを記述することを目的とする。 また、副次的に得られた、ヒトの複雑な領域を相同染色体ごとに再構成(アセンブリ)するソフトウェアに関しても、実データでの実証、他の直交的なデータによる検証を行い、論文出版を行う計画を立てている。
|