全ゲノム解析パイプラインをGPU上で実装するために必要な機能の開発を行った。特に、MarkDuplicatesとI/Oを中心に開発を行った。具体的には、 1.重複判定アルゴリズムを精査し、ペア情報を使用しない判定アルゴリズムを採用した。結果、ファイル内で離れた位置にあるペア情報の取得を排除し、データローカリティを確立、飛躍的な速度向上を実現した。 2.長時間を要する~数十バイト単位での入出力を排除し、大きなバッファ単位での入出力ルーチンを作成した。100MB程度のバッファ単位I/Oを行い、格納するBGZFデータは一気に圧縮・解凍を行うようにした。その結果、GPU上での高速処理を達成した。
|