研究課題/領域番号 |
23220003
|
研究機関 | 東京工業大学 |
研究代表者 |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
研究分担者 |
實本 英之 東京大学, 情報基盤センター, 助教 (00545311)
|
研究期間 (年度) |
2011-05-31 – 2016-03-31
|
キーワード | ハイパフォーマンスコンピューティング / エクサスケールコンピューティング / 耐故障技術 / データ圧縮 / チェックポイント・リスタート / バースト・バッファー |
研究概要 |
本年度は、耐障害システム全体のオーバーヘッドを削減するため、(1) チェックポイントデータの圧縮と(2)バースト・バッファーを用いたチェックポイント戦略 (coordinated/ uncoordinated)についての研究を行った。 具体的に、(1) チェックポイントデータの圧縮では、科学技術アプリケーションでよく見られるチェックポイントデータの特徴を活かして、JPEG-2000で使用されているウェーブレット変換の多重解像度解析・量子化・符号化を利用することで、データサイズをおよそ1/10まで削減することができた。 また、(2) バースト・バッファーを用いたチェックポイント戦略については、米国ローレンス・リバモア国立研究所のBronis R de. Supinski氏と共同で、将来の高信頼スパコンの実現に向けて、バースト・バッファーを備えた、階層型ストレージの信頼性やCoordinated、Uncoordinatedチェックポイントなどの既存手法の適用性をTSUBAME及びLLNLの複数のスパコンを対象とした検証実験を行った。これは、前年度で提案した階層型チェックポイントの複合的数理モデルをベースとしており、これと制限付き自由文脈文法を用いたストレージ・モデルと組み合わせることで、より多くのアーキテクチャに対応可能なモデルへと拡張した。このモデルを用いた検証では、バースト・バッファーとUncoordinatedチェックポイントを併用することにより(Uncoordinated Burst Buffer)、従来型のストレージ・アーキテクチャ及びチェックポイント手法 (Coordinated Flat Buffer) に比べ、数十倍の効率化が実現できることを定量的に立証した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
我々は、9.研究実績で述べた通り、平成25年度までの研究目標を達成し、かつ国内・国際会議に於いて、既に研究成果を発表している。また、幾つかの研究は当初の計画の一部を前倒しで行っている。 具体的に、我々は次期TSUBAME3.0へのシステム統合のために、あらゆる側面から耐故障基盤の実現に向けて研究を行っている。中でもスパコンのように、高度に階層化されたネットワークでは、リンク故障に対する、自律的耐故障が重要であるが、ルーティング・テーブル更新では、デッドロックの問題などが内包している。そのため、平成24年度から、ルーティング・アルゴリズムに精通した、米国オークリッジ国立研究所のJens Domke氏を招聘し、自律的耐故障機構の実装及び実システムへの統合に向けた、アルゴリズムの開発にあたっている。これは、平成27年度の研究計画の自律的耐故障機構の実装のためのシステム統合の一部にあたる。 また、平成23年度に開発されたFTIは、既にLGPLライセンスでオープンソースのソフトウェアとして公開し、国際会議SC13のEmerging Technologies Boothにおいて、流布活動を行った。特に、スパコン分野において最大規模の国際学会であるSC13での流布活動は、世界的インパクトは大きいと期待される。これは、平成27年度 研究計画のオープンソースとして公開・流布活動にあたる。 以上のように、平成25年度までの研究計画は達成されており、また、幾つかの研究課題に対し、当初の計画の一部を前倒しで行っており、”当初の計画以上に進展している。”と、言える。
|
今後の研究の推進方策 |
我々は、10億並列・エクサスケールスーパーコンピュータの耐故障生基盤の確立のため、平成26年度は、当初の研究計画通りに、「エクサスケールシステムに対応し得る障害復旧機構の考案」を行う。 これまで開発してきたアルゴリズム及び、システムの改良を進めるとともに、様々な障害に対応した障害復旧手法を考案することが必要となっている。それには、ハードウェアだけでなくソフトウェアの状態を監視し記録するシステムが不可欠であるが、数十億並列にスケールさせることは困難である。更にTSUBAME2.0は設計時から既に通常のスーパーコンピュータより遥かに多い、数十にものぼる温度・電力・ファン・電源などの各種センサーが装備されており、OSの実行状態報告を含めて多くのモニタリング情報のデータストリームが発生する。これらを正にGPUが得意とするストリーム処理に適合させ、莫大なデータを統計的に処理することによって障害を検出・予測する。 また、自律的に障害復旧を行う為に、様々なシナリオを想定した障害復旧手法をシステムプログラマがあらかじめ提供し、システムがシナリオ学習を経て動的に選択するようにする。これは、超細粒度並列かつヘテロジニアスな計算環境に適した障害復旧手法が選択される場合、システムの不均質性(CPUとGPUなど)やペタバイト級の実行データの分散チェックポイントや、あるいは他手法との競合から、単一のポリシーでは最適な復旧を行うのが不可能であるからである。これらの回復手法のエクサまでのスケーラビリティ、及び先年度確立してきた様々な機構との親和性の検証が主な研究内容となる。
|