研究課題/領域番号 |
23220003
|
研究機関 | 東京工業大学 |
研究代表者 |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
研究分担者 |
實本 英之 東京工業大学, 学術国際情報センター, 助教 (00545311)
|
研究期間 (年度) |
2011-04-01 – 2016-03-31
|
キーワード | ハイパフォーマンスコンピューティング / エクサスケールコンピューティング / 耐故障技術 / データ圧縮 / チェックポイント・リスタート / バーストバッファ / 国際研究者交流(ドイツ・アメリカ) / 国際情報交換(ドイツ・アメリカ) |
研究実績の概要 |
本年度は、これまで開発してきた(1)障害復旧アルゴリズム・システムの改良、(2) スケーラビリティの確認とともに、障害復旧の起点となる(3)障害検知技術を検討した。また、これらのシステムの(4)統合に向けたアルゴリズムの開発も行った。 具体的に、(1)について、更なるチェックポイント圧縮の必要性から、昨年度開発したチェックポイントデータ圧縮技術に対し、非可逆圧縮などに用いられている量子化技術を応用した。これは、量子化の区間を、チェックポイントデータに値に応じて、最適なサイズに動的分割することによる精度向上手法で、実際の気象アプリケーションのチェックポイントを、非可逆圧縮による誤差を数%におさえつつ、圧縮サイズを一般のgzipに対し90%削減した。(2) において、近年注目されているバーストバッファ技術を適用し、この階層型ストレージをモデル化した。シミュレーションによる評価において、バーストバッファを用いることで、障害発生時でもスケーラブルな実行環境を実現できることを示した。また、(3)については、巨大なWebサービスの故障検知機構を応用・改良することで、大規模計算に対応する学習型故障予測モデルを提案した。さらに、(4)では、耐故障技術をMPIに類似したインターフェースに統合したFMI (Fault tolerant Messaging Interface) を構築した。その他、これらの基盤となるハードウェアについて、運用中のネットワークに故障が発生した場合に、適切なルーティングを行い、故障による性能低下を軽減するアルゴリズムを提案した。 特に、(2)での貢献は、将来のスーパーコンピューターに設計に大いに役に立つと期待され、国際会議 IEEE/ACM CCGrid 2014において、ベストペーパー賞を受賞し、我々のプロジェクトは国際的に高く評価されている。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
1: 当初の計画以上に進展している
理由
研究実績の概要で述べたとおり、平成26年度までの研究目標を達成し、国内・国際会議において成果発表を行っている。また、いくつかの研究については、計画の一部を前倒しで行っている。 具体的には平成27年度の計画としている自律的耐故障機構の実装のためのシステム統合を目的とした研究で、研究実績にて説明したFMI、およびネットワーク故障の対応がこれに当たる。
|
今後の研究の推進方策 |
我々は、これまでErasure codeを用いた多階層チェックポインティング、非同期チェックポインティング、チェックポイント圧縮技術、障害予測、高信頼型ストレージアーキテクチャ、自律的高信頼通信ライブラリ及び自律的復旧ルーティング機構・技術を開発してきたが、この統合システムは、多くの数理モデルに寄って構成され、様々なシナリオ、アプリケーションに対し最適な耐障害手法の動的適用を可能とする性能モデルを構築し、数10億並列・エクサスケールスーパーコンピュータの耐障害性基盤を実現する。ここでの評価では、高密度加速器+バーストバッファーアーキテクチャである運用スパコンTSUBAME2.0/2.5を積極的に利用する。このアーキテクチャは米国国立研究所の次期スパコンCORALシステムで採用される予定であり、ここでの成果は、国内のみならず世界的にもエクサスケールの耐障害技術の発展に貢献すると期待される。 また、これまで開発したソフトウェアの一部は、既にオープンソースとして公開・流布活動を行ってきたが、引き続き、成果ソフトウェアの公開・流布活動を行う。さらに、これらのソフトウェアに対し、TSUBAME2.5のような、利用率の高い常時高負荷環境である運用スパコン上においても高い信頼性で稼働できるよう改良を加える。ここで得られた研究成果は、最終的に研究代表者が率いるTSUBAME3.0の設計へ還元する予定である。本年度も、理化学研究所計算科学研究機構、米国Lawrence Livermore National Laboratory, 独Technische Universitat Dresden ZIHなどの国内外の研究・教育機関と連携しながら研究を遂行する。
|