研究課題/領域番号 |
12J08253
|
研究機関 | 東京工業大学 |
研究代表者 |
佐藤 賢斗 東京工業大学, 大学院・情報理工学研究科, 特別研究員(DC2)
|
キーワード | スーパーコンピュータ / チェックポイント・リスタート / プロセス・マイグレーション / Infiniband |
研究概要 |
プロセス・マイグレーションのためのチェックポイントとデータの転送の高速化を行った。多数プロセスのマイグレーションでは、計算リソースに多大な負荷を与えると予測される。一昨年(2011年)のローレンスリバモア国立研究所で3ヶ月の滞在、研究活動を通じて、チェックポイントによるネットワーク及びストレージへの負荷は無視できず、事実、東京工業大学学術国際情報センターのスーパーコンピュータTSUBAME2.0でも同様の問題を抱えている。このため、より軽量な(Light weight)チェックポイントを行うシステムとチェックポイントの頻度を精緻に決定するための数理モデルが必要である。そこで、本年度では、世界的に多くのスーパーコンピュータに搭載されている InfinibandのRDMA(Remote Direct Memory Access)機能を利用し、非同期的にチェックポイントを行うシステムを開発した。これをローレンスリバモア国立研究所で開発されているSCR(Scalable Checkpoint/Restart)ライブラリと組み合わせることにより非同期かつ階層型チェックポイント(複数のストレージを使い分ける)を実現し、チェックポイントによるアプリケーションへのオーバーヘッドを削減しつつ、並列ファイルシステムへの負荷を軽減した。また、この非同期かつ階層型チェックポイントの最適な頻度を決定するため、マルコフモデルを用いた数理・確率モデルを用いた最適化手法を提案した。評価の結果、このシステムを次世代スーパーコンピュータに適用することにより、チェックポイント及びリスタートによるオーバーヘッドを1.1~1.8倍の削減できることを示した。ここで得られた成果は、国内外の会議で発表を行った。特に、採択率21%と大変選別の厳しい国際会議SC12において論文が採択され、本研究は、国際的に期待度が高くなりつつある。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
既に平成25年度の研究目的である(1)"プロセス・マイグレーション機構の性能モデルを構築"を、"マルコフモデルを用いた数理・確率モデル"として、(2)"階層型ストレージの有効利用と実環境への適用"を、"階層型チェックポイントの次世代スーパーコンピュータへの適用"として一部実現している。また、ここまでの成果は既に論文としてまとめ、国際会議に採択された。これらの事実から、現在までの達成度は"当初の計画以上に進展している"と考える。
|
今後の研究の推進方策 |
平成25年度の研究目的である、書き込み処理も考慮した、データ・マイグレーションとプロセス・マイグレーションを併用したハイブリット型マイグレーションアルゴリズムのうち、特に、プロセス・マイグレーション技術に重点を置く。それは、今後2018年ごろに登場が目されているエクサ・スケール・スーパーコンピュータ(一秒間に1018回の浮動小数点演算を行うマシン)の耐障害技術への応用が可能であるとわかったためである。エクサ・スケール・スーパーコンピュータでは、物理的なシステムのサイズやその複雑性により、システムの障害率が急激に増加すると予想されており、耐障害技術の1つとしてプロセス・マイグレーションが注目を集めている。そのため、最終年度では、主にプロセス・マイグレーションを活用することにより、本研究の最終目的である、"連携型次世代スパコンにおける大規模データ処理及びシミュレーションの高速化"を行う。
|