Project/Area Number |
21K21281
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
1001:Information science, computer engineering, and related fields
|
Research Institution | Tokyo Medical and Dental University |
Principal Investigator |
Ito Satoshi 東京医科歯科大学, M&Dデータ科学センター, 助教 (30525358)
|
Project Period (FY) |
2021-08-30 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥2,080,000 (Direct Cost: ¥1,600,000、Indirect Cost: ¥480,000)
Fiscal Year 2022: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 全ゲノム解析 / GPU / HPC |
Outline of Research at the Start |
次世代シーケンサーによって、人の全ゲノムシーケンスは安価かつ高速に実施できるようになった。これにより、これまで不可能であった研究が実施可能になった。しかし、現在主流であるクラウドシステムでは、データ転送および解析に要する時間が共に大幅に増えることが新たな問題である。 本研究ではGPUを用いた解析パイプラインの開発を支援するフレームワークを開発する。 演算性能が高く研究室内で運用可能なGPUは、これらを同時に解決できる。一方、GPU用プログラムの開発には高度な専門知識が必要である。 本フレームワークを用いることで、本分野研究者によるGPU用パイプラインの開発が可能となる。
|
Outline of Final Research Achievements |
We developed the basic functionality required to implement a whole genome analysis pipeline on a GPU. In particular, We focused on MarkDuplicates and I/O, which are difficult to parallelize and require the most computation time. 1. We employed a judgment algorithm in MarkDuplicates that does not use pair read information. This improvement eliminate the acquisition of pair read information at distant locations within a file, establishes data locality in the judgment process, and dramatically improves processing speed. 2. We developed a new I/O functions that read/write data using a large size buffer to remove small data size read/write. The buffer size is 100-200MB and the BGZF data for read/write are compressed/decompressed all at ones.
|
Academic Significance and Societal Importance of the Research Achievements |
スーパーコンピュータやクラウドでの計算が期待するほどの劇的な高速化を得にくい現状において、ParabricsとDRAGENシステムだけがGPU/FPGAによる圧倒的な高速解析を実現した成功例である。一方で、これらは改変不可能なブラックボックスであり、範囲外の解析ではその恩恵を享受できない。本ソフトウェアは、ブラックボックス部分を開発者自身で組み上げることを可能にする環境である。BAM作成時点で既存解析フローが適用できない研究が散見されており、そのような分野に対する高速ソフト開発が加速することが期待できる。
|