研究課題/領域番号 |
20K21826
|
研究機関 | 東京大学 |
研究代表者 |
笠原 雅弘 東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
|
研究期間 (年度) |
2020-07-30 – 2023-03-31
|
キーワード | 不揮発メモリー / アルゴリズム / 配列アラインメント / ゲノムデータベース |
研究実績の概要 |
DNAシークエンサーの技術進歩により大規模なゲノム解析が従来より安価で気軽に実施できるようになった。このため、ゲノム解析で大容量のメモリーを必要とする場面が激増している。このため、ゲノム計算を明示的にサポートする大規模な学術用計算機センターではメモリーを大量に搭載した計算ノードを多数用意して、ユーザーが数TB程度のメモリーを用いる計算であっても実行可能としている。しかし、DNAシークエンサーとその試薬代の価格低下の速度は、計算機の速度向上と価格低下より速いため、計算機資源が相対的に高価になってきており、将来的にゲノム解析の大きなネックになる可能性が高い。 そこで、本研究では高価なDRAMメモリーの代わりにビット単価がより安価な不揮発メモリーを用いてシステム全体として高価なDRAMの消費量を抑制しつつ、様々なゲノム解析アルゴリズムを実行できるように新規アルゴリズムを開発することを目指した。本年度は、不揮発メモリーとビットマップベースのグラフを用いた配列検索アルゴリズムに対して、ビットマップを圧縮することで、大量に必要としていた不揮発メモリーの使用量を削減したアルゴリズムを考案した。また、ビットマップベースのグラフを用いた場合には、検索して見つかったターゲット配列の配列メタデータを取得する計算効率/記憶容量効率の良い手法が存在しなかったが、ハッシュ関数を用いて配列そのものからメタデータへの索引を張る手法を考案し、この問題を軽減することができた。また、本アルゴリズムは主にDNA配列を対象として研究を進めていたが、アミノ酸配列の検索に対して拡張するべく理論的検討を行った。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
一般的なSSDを用いたアルゴリズムの検討や開発については期待通りかそれ以上に進行している。一方、研究申請時に利用することを想定していた不揮発メモリーの一つである Intel社 の Optane メモリーは、コロナ禍や戦争に起因する半導体製品の不足や価格高騰などもあり以前の Intel 社の宣伝に反して(システム全体としては)極めて高値で推移しており、優位性が出ていない。このため、全体としてはおおむね順調とした。
|
今後の研究の推進方策 |
引き続きアルゴリズム面およびソフトウェア実装の改良を進め、不揮発メモリーを用いた省DRAMメモリーのゲノム解析アルゴリズム実装を進めていく。また、本研究で開発している大容量データベースに対する検索アルゴリズムの実応用を共同研究者とともに進め、不揮発メモリーの低コスト性が実際に有用となるケースの実証を引き続き行っていく。
|
次年度使用額が生じた理由 |
研究申請時に利用することを想定していた不揮発メモリーの一つである Intel社 の Optane メモリーは、以前の Intel 社の宣伝に反して極めて高値で推移しているため(正確には Optane メモリーを搭載したシステム全体の価格が高い)DRAM を用いたシステムに対するコストパフォーマンス優位性が、ゲノム解析アルゴリズムにおいては今のところほぼゼロであり、またこのため、本予算で Optane メモリーを大量に搭載したシステムを購入するためには金額が不足していた。このため、Gen 4 PCI Express 接続の SSD を数多く搭載し、Optaneメモリーを利用したSSDも一部搭載することで IOPS を増やした不揮発メモリーストレージを次年度に導入し、当初の目的に沿った不揮発メモリーアルゴリズム開発を目指す。
|