2012 Fiscal Year Annual Research Report
10億並列・エクサスケールスーパーコンピュータの耐故障性基盤
Project/Area Number |
23220003
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
Co-Investigator(Kenkyū-buntansha) |
實本 英之 東京大学, 情報基盤センター, 助教 (00545311)
|
Project Period (FY) |
2011-05-31 – 2016-03-31
|
Keywords | ハイパフォーマンスコンピューティング / エクサスケールコンピューティング / ヘテロジニアスアーキテクチャ / 耐障害性 / チェックポイント・リスタート / 国際研究者交流(アメリカ) |
Research Abstract |
"細粒度超並列・ヘテロジニアス計算環境に適した新しい耐故障手法とコストモデルの確立"を行った。特に信頼性と性能を両立するために、複合的数理モデルを用いてこれらの手法を定量化し、初年度に得られた耐故障のコストモデルと組み合わせることにより、最適なチェックポイント戦略を確立する。(1)細粒度超並列計算環境に適した階層型Group-orientedチェックポイント: 障害復旧の高速化手法として知られているメッセージロギング技術と、昨年度の成果である冗長符号を用いたチェックポイント型耐故障性インターフェース(FTI)を複合的に活用し、また、メッセージロギング時のグループとチェックポイントの冗長符号化時のグループを、ネットワークのトポロジーを考慮して階層的にグルーピングすることにより、従来に比べ、細粒度超並列計算を要する津波シミューレーションコードにおいて、より効率的なチェックポイントを実現した。 (2)階層型チェックポイントの複合的数理コストモデル:一般に並列ファイルシステムは、チェックポイント先として最も信頼性が高い場所であるが、一方で並列ファイルシステムを用いた階層型チェックポイントでは、数百GPU実行において性能向上が飽和してしまい、エクサフロップに向けてのスケーリングは困難であったが、計算とは非同期的に並列ファイルシステムへチェックポイント書き出し、また複合的数理・確率モデルに基づき、必要で十分な頻度でチェックポイントを行うことにより、津波のシミュレーションなど多くの流体計算でみられる等方メッシュの差分法による直接解法を行うHimenoベンチマークにおいて、従来型の階層型チェックポイントに比べ最大で1.1から1.8倍以上の効率化を実現した。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
25年度の計画であった、耐故障システムのオーバーヘッドの削減を、(1)細粒度超並列計算環境に適した階層型Group-orientedチェックポイントと(2)階層型チェックポイントの複合的数理コストモデル、として既に一部解決しており、当初の計画以上に進展しているといえる。
|
Strategy for Future Research Activity |
これまでの耐故障アルゴリズムおよびシステムの改良を進めるとともに、様々な障害に対応 した障害復旧手法を考案する。それには、ハードウェアだけでなく、ソフトウェアの状態を監視・記録し自律的に復旧するシステムが不可欠であるが、数十億並列にスケールさせることは困難である。このため、障害復旧手のスケーラビリティ及びこれまで確立してきた様々な機構との親和性の検証し、エクサスケールシステムに対応しうる障害復旧機構の考案を行う。
|
Research Products
(58 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Journal Article] Design and Modeling of a Non-blocking Checkpointing System2012
Author(s)
Kento Sato, Adam Moody, Kathryn Mohror, Todd Gamblin, Bronis R.de Supinski, Naoya Maruyama, Satoshi Matsuoka.
-
Journal Title
In Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12), Salt Lake City, IEEE Press
Volume: -
Pages: -
DOI
Peer Reviewed
-
[Journal Article] High-Performance General Solver for Extremely Large-scale Semidefinite Programming Problems2012
Author(s)
Katsuki Fujisawa, Toshio Endo, Hitoshi Sato, Makoto Yamashita, Satoshi Matsuoka, Maho Nakata
-
Journal Title
In Proc. of 2012 ACM/IEEE International Conference for High Performance, Networking, Storage, and Analysis (SC’12), Salt Lake City, IEEE Press
Volume: -
Pages: -
DOI
Peer Reviewed
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-