研究課題/領域番号 |
20K15769
|
研究機関 | 東京工業大学 |
研究代表者 |
梶谷 嶺 東京工業大学, 生命理工学院, 助教 (40756706)
|
研究期間 (年度) |
2020-04-01 – 2023-03-31
|
キーワード | ヘテロ接合性 / ハプロタイプ / ゲノム多様性 |
研究実績の概要 |
本年度では多個体ハプロタイプ解析用の効率的な配列決定手法の開発を実施した。方針としては、ハプロタイプの新規配列構築ソフトウェアであるPlatanus-allee(Kajitani et al. 2019)を発展させ、より低コストに解析を可能とすることを目指した。当ツールはハイスループットDNAシークエンサーの出力配列より2倍体生物ゲノム中のハプロタイプを決定可能であるが、その性能を十分に発揮させるには複数種類のmate-pair(3-20 kbpのDNA配列の両端を読み取る方式)ライブラリを必要とし、コストが大きくなるため多個体のサンプル群を処理することが困難であるという問題が存在していた。その解決のため、低コストだが一度に読み取れる断片長が短いショートリード方式と1分子ロングリードDNAシークエンサーの出力を組み合わせて正確性と結果配列の連続性を効率的に高めるようアルゴリズムを改良した。最初の試みとしてPlatanus-alleeの配列決定過程にエラー修正機能の追加を行い、2倍体ゲノムデータによるベンチマークにおいてハプロタイプスイッチエラー(誤ったハプロタイプ組を接続するケース)の数を半減させることに成功した。更にアルゴリズムの抜本的な改良として、ロングリード内のエラーの無い領域をショートリードを駆使して検出し、その結果を活用して配列延長を行うツールも所属研究室の大学院生と共同で開発した(石井ら、第9回生命医薬情報学連合大会、2020)。ベンチマークではロングリードベースのツールを上回る正確性を示すケースの存在も確かめられた。 公開データベースから多数種のDNAシークエンシングデータを取得し、ヘテロ接合度を網羅的に集計する作業も試みており、申請書の計画通り次年度以降に引き続き手法開発を継続する。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
本年度はハプロタイプの新規配列構築ソフトウェアであるPlatanus-allee(Kajitani et al. 2019)を発展させ、より低コストに2倍体生物ゲノム中の各ハプロタイプを決定する手法を開発した。当ツールはハイスループットDNAシークエンサーの出力配列を入力として想定しているが、低コストで読み取りエラー率が小さいがリード(読み取り配列)が短いショートリードデータと、エラー率が大きいがリードが長い1分子ロングリードデータを組み合わせ、正確性と結果配列の連続性を効率的に高めるようアルゴリズムが改良されている。最初の試みとしてPlatanus-alleeの配列決定過程、特にscaffolding(ロングリードで配列を延長するステップ)にエラー修正機能を複数追加し、ハプロタイプスイッチエラーの数を半減させることに成功した。更にアルゴリズムを抜本的に改良したバージョンも所属研究室の大学院生と共同で開発した(石井ら、第9回生命医薬情報学連合大会、2020)。この開発手法ではエラーの少ないショートリードの配列セット中の部分配列(k-mer)の出現回数情報を基にロングリード中からエラーの無い領域を特定し、それらを基にショートリードで予め構築された配列(contig)をつなぎ合わせる。エラーを多く含んだロングリードでは類似度の高いハプロタイプ配列組を区別しにくいという問題が従来は存在していたが、この方法を用いることでそれらを区別しつつそれぞれが延長されることが期待される。また、contig間を直接架橋するロングリードが存在しない場合でも、局所的にロングリード同士をつなぎ合わせて解決を行う機能も実装した。センチュウのゲノムデータ等を用いたベンチマークでは、CanuやFlyeといったロングリードベースのツールと比較して高い正確性を示すケースを確認した。
|
今後の研究の推進方策 |
開発されたハプロタイプ配列決定ツールは、正確性については高い性能を示すものの、ショートリード由来のcontigをつなぎ合わせる特性から結果配列にギャップ(配列不明領域)が多く含まれるという欠点も存在する。本年度にそれら領域をロングリードで補完する試みも行ったが、最終的な配列正確性が大きく下がってしまう問題があり正式な仕様として採用しなかった。今後はこの問題に対処した上で、当初の計画である多個体のハプロタイプ情報を内包したグラフ構造の構築ツール開発に取り掛かる予定である。同用途のツールは既に発表されているものの、正確性評価などは方法が定まっていないため、評価手法も合わせて開発を進める。 並行して公開データベースから多数種のDNAシークエンシングデータを取得し、ヘテロ接合度を網羅的に集計するツールの開発も引き続き行う。本年度は棘皮動物等の高ヘテロ接合性サンプルで解析ツール: GenomeScope(Ranallo-Benavidez et al. 2019)のモデルフィッティングが失敗し、真の値から大きく外れた推定値が度々報告される問題が顕在化したため、対処法を今後検討し結果の精度を向上させていく予定である。 サンプル採取過程は本研究課題の対象でないものの、棘皮動物、頭索動物、刺胞動物等の高ヘテロ接合性サンプルに関する共同研究体制も構築したため、これらのゲノムの解析経験で得られる知見もツールの開発に反映し、当初の計画通り非モデル生物データの拡充に貢献できるようにも研究を進める。
|
次年度使用額が生じた理由 |
コロナ禍により当初の計画にあったサンプル収集体制(共同研究)が構築できなかったことが主要因である。次年度以降は再び高ヘテロ接合性生物の確保、DNAシークエンシングのために経費を使用し、手法開発とゲノム多様性の知見獲得の両方を推進していく予定である。
|