2018 Fiscal Year Annual Research Report
A system for accelerating large-scale genome analysis
Project/Area Number |
16K16145
|
Research Institution | The University of Tokyo |
Principal Investigator |
笠原 雅弘 東京大学, 大学院新領域創成科学研究科, 准教授 (60376605)
|
Project Period (FY) |
2016-04-01 – 2019-03-31
|
Keywords | 再現性 / コンテナ仮想化 / ワークフロー / 並列計算 |
Outline of Annual Research Achievements |
ゲノム研究に用いられる大規模並列計算では計算に用いるソフトウェア数が膨大となり、様々なバージョンや依存関係を持ち、時には互いにコンフリクトするソフトウェアを同時に使用しなければならない。このような目的のためにはコンテナ仮想化がよく用いられるが、Docker や Singularity のような管理者権限を用いてインストールする必要があるコンテナ仮想化エンジンは、限られた数の科学技術向けHPCクラスターでしかサポートされていない。また、Univa Grid Engine や CUDA などのホスト環境を必要とするソフトウェアはコンテナ内からホスト環境へのアクセスを必要とする。これらの問題を解決するため、管理者権限を一切使用しない、ホスト環境との “composability” を実現したコンテナ仮想化エンジン LPMX を開発し、オープンソースで公開した。また、ファイルシステムレイヤーをサポートし、Docker イメージを直接用いることができるよう実装した。 一方、ゲノム研究ではパイプライン的な計算を多用し、例えばがん研究では100以上の解析ソフトウェアを用いることもあるが、解析ソフトウェアのインストールには数ヶ月の時間がかかる事もしばしばあった。そこで、以前から開発を行っていた Local Package manager(LPM)を改良し、セットアップ方法を共有することで解析ソフトウェアのセットアップに必要なハンズオンタイムを大幅に短縮した。また、ユーザーからのパッケージ投稿を(再度)可能とした。また、Bioconda 等の広く利用されているサードパーティーパッケージをサポートすることでユーザーに対してより高いユーザビリティを提供できるようになった。また、コンテナ仮想化との統合を進めている。
|
Research Products
(5 results)