研究課題/領域番号 |
16K16145
|
研究機関 | 東京大学 |
研究代表者 |
笠原 雅弘 東京大学, 大学院新領域創成科学研究科, 講師 (60376605)
|
研究期間 (年度) |
2016-04-01 – 2019-03-31
|
キーワード | 並列分散計算 / ハイパフォーマンスコンピューティング / ゲノム解析 |
研究実績の概要 |
現在公開しているプロトタイプモデル実装の Tiny Cloud Engine をベースに、ゲノム研究の現場において実用的なワークフロー並列実行エンジンの開発・設計・実装を進めた。特に、生物学研究でよく使われているいくつかのスーパーコンピューターセンターにおける仕様を調査し、様々なネットワーク構成・セキュリティ設定においても動作することができるようにモジュール設計を改良した。大規模ゲノム解析で頻出するタイプの、通信が必要となるデータ分割式の並列計算を非並列アルゴリズム実装をベースにして簡便に記述する手法をいくつかのアプリケーションにおいて検討し、精度と性能の評価を行った。アプリケーションのファイルアクセスを自動で追跡するライブラリについて、移植性や動作の制限について現状の問題点を回避する手法を開発した。 また、解析に使用する巨大なデータファイルを計算に先立って移動する必要が無いように、データファイルの格納位置がローカルでない場合の処理ルーチンを実装した。ファイルの実体がリモートでもローカルでもどちらでもアクセスできるように、暗号化および認証を行う安全なデータ転送プロトコルを設計・実装・公開した。また、リモートにデータが存在する解析結果を簡便に表示するために、リモートに存在する画像やHTMLファイルを透過的にローカルのビューアーやブラウザーで開くことのできる機能も実装・公開した。リモート側から可能な動作の制限システムを実装・公開した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
おおむね計画通りに進んでいると言える。特に本研究を進めるうえで必要となるマルチノード環境での死活監視とメンバーシップ管理および分散データベースを実現するために必要な実装のうち多くの機能が、企業が開発して既に無料でソースコードを公開している分散ミドルウェアで既に実現されていることが分かったためかなりの手間が省けたと言って良く当初の計画と比べてシステムの実用に向けて予定より大きく進んでいる。また、ソフトウェアの仮想化をサポートするスーパーコンピューターセンターが増えてきたために計画は加速されている。 一方、ゲノム解析ソフトウェアの動作を動的に解析するための REM モジュールで使用していたシステムコールのフック部において、macOS のセキュリティ対策による仕様変更により動作しなくなってしまった仕組みがあり、様々な回避方法を検討したもののユーザーの利便性を落とさずに解決する方法は存在しないことが分かった。現在では、macOSのセキュリティ対策設定を一部無効にすることを前提とすることで開発を継続しているが、この調査・検討のためにかなりの時間を消費しており、総合的にはほぼ予定通りの進捗である。
|
今後の研究の推進方策 |
引き続いて Tiny Cloud Engine の次期バージョン開発を続けていく。ゲノム解析で使用する解析パイプラインを実際にシステム上に実装して自分たちのグループで使用することで問題点の洗い出しと改良に努める。また、大規模ゲノム解析計算を行っている外のグループと協業してスケーラビリティとロバストネスの向上に努める。また、ある程度多くの環境で動作する目処がついた時点でソフトウェアの公開を行う予定である。また、メーリングリストや Wiki などを整備し、ユーザーコミュニティの形成に努めていく。また、余力があれば使用方法の講習会などを開催しユーザーベースの拡大にも努める。 また、Local Package Manager などとの連携機能を実装し、再現性のある科学計算を実現するための機能を拡充していく。必要に応じて Docker のサポートも追加したい。
|
次年度使用額が生じた理由 |
発生した残額(直接経費の3%)は十分少額であり、通常の研究過程で発生しうる発生費用のゆらぎで十分説明できると考えている。それ以上の説明の必要があるとすれば、年度末に手伝いをお願いした謝金支出について、先方都合により若干の時間減があったため。
|
次年度使用額の使用計画 |
昨年度に使用する予定だった謝金は2017年度にすべて支出して使用する。
|