2012 Fiscal Year Annual Research Report
Project/Area Number |
12J08253
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
佐藤 賢斗 東京工業大学, 大学院・情報理工学研究科, 特別研究員(DC2)
|
Keywords | スーパーコンピュータ / チェックポイント・リスタート / プロセス・マイグレーション / Infiniband |
Research Abstract |
プロセス・マイグレーションのためのチェックポイントとデータの転送の高速化を行った。多数プロセスのマイグレーションでは、計算リソースに多大な負荷を与えると予測される。一昨年(2011年)のローレンスリバモア国立研究所で3ヶ月の滞在、研究活動を通じて、チェックポイントによるネットワーク及びストレージへの負荷は無視できず、事実、東京工業大学学術国際情報センターのスーパーコンピュータTSUBAME2.0でも同様の問題を抱えている。このため、より軽量な(Light weight)チェックポイントを行うシステムとチェックポイントの頻度を精緻に決定するための数理モデルが必要である。そこで、本年度では、世界的に多くのスーパーコンピュータに搭載されている InfinibandのRDMA(Remote Direct Memory Access)機能を利用し、非同期的にチェックポイントを行うシステムを開発した。これをローレンスリバモア国立研究所で開発されているSCR(Scalable Checkpoint/Restart)ライブラリと組み合わせることにより非同期かつ階層型チェックポイント(複数のストレージを使い分ける)を実現し、チェックポイントによるアプリケーションへのオーバーヘッドを削減しつつ、並列ファイルシステムへの負荷を軽減した。また、この非同期かつ階層型チェックポイントの最適な頻度を決定するため、マルコフモデルを用いた数理・確率モデルを用いた最適化手法を提案した。評価の結果、このシステムを次世代スーパーコンピュータに適用することにより、チェックポイント及びリスタートによるオーバーヘッドを1.1~1.8倍の削減できることを示した。ここで得られた成果は、国内外の会議で発表を行った。特に、採択率21%と大変選別の厳しい国際会議SC12において論文が採択され、本研究は、国際的に期待度が高くなりつつある。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
既に平成25年度の研究目的である(1)"プロセス・マイグレーション機構の性能モデルを構築"を、"マルコフモデルを用いた数理・確率モデル"として、(2)"階層型ストレージの有効利用と実環境への適用"を、"階層型チェックポイントの次世代スーパーコンピュータへの適用"として一部実現している。また、ここまでの成果は既に論文としてまとめ、国際会議に採択された。これらの事実から、現在までの達成度は"当初の計画以上に進展している"と考える。
|
Strategy for Future Research Activity |
平成25年度の研究目的である、書き込み処理も考慮した、データ・マイグレーションとプロセス・マイグレーションを併用したハイブリット型マイグレーションアルゴリズムのうち、特に、プロセス・マイグレーション技術に重点を置く。それは、今後2018年ごろに登場が目されているエクサ・スケール・スーパーコンピュータ(一秒間に1018回の浮動小数点演算を行うマシン)の耐障害技術への応用が可能であるとわかったためである。エクサ・スケール・スーパーコンピュータでは、物理的なシステムのサイズやその複雑性により、システムの障害率が急激に増加すると予想されており、耐障害技術の1つとしてプロセス・マイグレーションが注目を集めている。そのため、最終年度では、主にプロセス・マイグレーションを活用することにより、本研究の最終目的である、"連携型次世代スパコンにおける大規模データ処理及びシミュレーションの高速化"を行う。
|
-
-
-
-
[Presentation] Towards a Light-weight Non-blocking Checkpointing System2012
Author(s)
Kento Sato,、Adam Moody, Kathryn Mohror, Tbdd Gamblin, Bronis R. de Supinski, Naoya Maruyama, Satoshi Matsuoka
Organizer
In HPC in Asia Workshop in conjunction with the 2012 International Supercomputing Conference (ISC'12) (Poster)
Place of Presentation
Congress Center Hamburg, Hamburg, Germany
Year and Date
2012-06-17
-