研究課題/領域番号 |
23K23861
|
補助金の研究課題番号 |
22H02598 (2022-2023)
|
研究種目 |
基盤研究(B)
|
配分区分 | 基金 (2024) 補助金 (2022-2023) |
応募区分 | 一般 |
審査区分 |
小区分43050:ゲノム生物学関連
|
研究機関 | 東京工業大学 |
研究代表者 |
伊藤 武彦 東京工業大学, 生命理工学院, 教授 (90501106)
|
研究期間 (年度) |
2022-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2024年度)
|
配分額 *注記 |
17,290千円 (直接経費: 13,300千円、間接経費: 3,990千円)
2024年度: 4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 8,450千円 (直接経費: 6,500千円、間接経費: 1,950千円)
2022年度: 4,680千円 (直接経費: 3,600千円、間接経費: 1,080千円)
|
キーワード | ゲノムアセンブル / de bruijn グラフ / de bruijnグラフ |
研究開始時の研究の概要 |
申請者らが開発したPlatanus-alleeアセンブラを基盤とし、相同染色体の両アレル配列を個別にフェージングして構築し、対立アレルのペアと して対応関係を含め精度高く出力することを可能にする新規アセンブラの開発を実施する。 polish用途で用いられるIllumina pair-endデータよりde bruijnグラフを構築し、Longreadにてscaffoldingする機能を新規に構築することで 実現を目指す。その際にPlatanus-alleeが持つ、相同染色体の対応を「バブル構造」として保持可能なユニークなアルゴリズムを用いることで 、ヘテロ接合性の高いゲノムへの対応を図る。
|
研究実績の概要 |
本年度は期初に立てた予定に従い、以下の3点を主に実施した。 (1) まず、本研究課題の鍵となる精度の高いリードデータを入力とする、de bruijnグラフアルゴリズムを用いたcontigグラフおよびバブル構造の接合点となるbranchグラフの構築アルゴリズ開発を実施した。この機能は、すでにPlatanus-alleeアセンブラで実装されているアルゴリズムをもとに、今後HiFiリードを入力とできるようにサイズの大きなk-merに対応できるよう、内部構造を全面的に作り替えることで実現した。 (2) Longread、Hi-Cデータを用いたcontig, branchグラフのscaffolding, phasing機能の開発を実施した。(1)で得られたグラフに対し、Longread,Hi-Cデータをマッピング、アライメントを行い、そのスコアを用いてcontig, branchグラフの架橋を構築する。この機能自体はPlatanus-alleeにも存在したが、Platanus-alleeではIllumina PE, MPをメインに取り扱っていたためLongreadはあくまでも補助的な位置付けであった。そこでエラー率の比較的高いLongreadを用いて精度高くscaffoldingするためのベンチマークテストなどを多くのケースで実施し、精度向上や今まで無視されてきたrepeat配列を介したグラフ構造の解決アルゴリズムなどの組み込みを実施した。同時にphasing機能の実装も開始した。 (3) 上記機能開発におけるベンチマークのための実シークエンスデータの取得を実施した。ゲノムサイズ、ヘテロ接合性、Hi-Cデータの取得しやすさなどを考慮し、魚、植物サンプルを中心にPacBio(CLR, HiFi)、Illumina PE, Hi-Cデータの取得を実施し、ベンチマークに活用した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
期初に計画した機能の構築は予定通りに進んでいると考えられる。しかし、ゲノムアセンブル方法を取り巻く環境は、非常に早いペースで変化しており、各種新規手法が発表されている。特にHiFi+Hi-Cによりphasingまでを行うゲノム構築が主流となりつつあるため、世の中の技術にキャッチアップし、それを超えるものの開発に今以上にスピード感を持って取り組む必要性が大きいと感じている。
|
今後の研究の推進方策 |
上記進捗状況でも述べたように、20223年度は期初に予定していたスケジュールでの開発は進められている。一方、世界的な技術進展が予想よりも遥かに早いため、本研究の遂行も予定を前倒しで進めていく必要があると思われる。一部開発途中段階のアセンブラであっても、一旦暫定版として、論文化・公開を図ることも視野に入れる予定である。 特に期初には導入をあまり考えていなかった、染色体の両アレルを別々に構築するphasing解析が広く一般的に行われるようになってきていることからHiCデータを有効に活用することで、精度高くphasingしつつscaffoldingしていくアセンブラを目指していきたい。 昨年度に他機関で発表されたアセンブラでは、長く繋がるものの対立アレル由来の配列が余分に出力されるなど下流解析のことを考えると、出力結果をそのまま使用することは難しい場合が多い。このような問題にフォーカスすることで、過不足なく配列を出力し、たとえば下流の拡大・縮小遺伝子ファミリー解析などが精度高く行えるようなアセンブラを開発することで優位性をアピールできると思われる。
|