研究課題/領域番号 |
21K21281
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
1001:情報科学、情報工学およびその関連分野
|
研究機関 | 東京医科歯科大学 |
研究代表者 |
伊東 聰 東京医科歯科大学, M&Dデータ科学センター, 助教 (30525358)
|
研究期間 (年度) |
2021-08-30 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
2,080千円 (直接経費: 1,600千円、間接経費: 480千円)
2022年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2021年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
|
キーワード | 全ゲノム解析 / GPU / HPC |
研究開始時の研究の概要 |
次世代シーケンサーによって、人の全ゲノムシーケンスは安価かつ高速に実施できるようになった。これにより、これまで不可能であった研究が実施可能になった。しかし、現在主流であるクラウドシステムでは、データ転送および解析に要する時間が共に大幅に増えることが新たな問題である。 本研究ではGPUを用いた解析パイプラインの開発を支援するフレームワークを開発する。 演算性能が高く研究室内で運用可能なGPUは、これらを同時に解決できる。一方、GPU用プログラムの開発には高度な専門知識が必要である。 本フレームワークを用いることで、本分野研究者によるGPU用パイプラインの開発が可能となる。
|
研究成果の概要 |
全ゲノム解析パイプラインをGPU上で実装するために必要な機能の開発を行った。特に、MarkDuplicatesとI/Oを中心に開発を行った。具体的には、 1.重複判定アルゴリズムを精査し、ペア情報を使用しない判定アルゴリズムを採用した。結果、ファイル内で離れた位置にあるペア情報の取得を排除し、データローカリティを確立、飛躍的な速度向上を実現した。 2.長時間を要する~数十バイト単位での入出力を排除し、大きなバッファ単位での入出力ルーチンを作成した。100MB程度のバッファ単位I/Oを行い、格納するBGZFデータは一気に圧縮・解凍を行うようにした。その結果、GPU上での高速処理を達成した。
|
研究成果の学術的意義や社会的意義 |
スーパーコンピュータやクラウドでの計算が期待するほどの劇的な高速化を得にくい現状において、ParabricsとDRAGENシステムだけがGPU/FPGAによる圧倒的な高速解析を実現した成功例である。一方で、これらは改変不可能なブラックボックスであり、範囲外の解析ではその恩恵を享受できない。本ソフトウェアは、ブラックボックス部分を開発者自身で組み上げることを可能にする環境である。BAM作成時点で既存解析フローが適用できない研究が散見されており、そのような分野に対する高速ソフト開発が加速することが期待できる。
|