2014 Fiscal Year Annual Research Report
10億並列・エクサスケールスーパーコンピュータの耐故障性基盤
Project/Area Number |
23220003
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
Co-Investigator(Kenkyū-buntansha) |
實本 英之 東京工業大学, 学術国際情報センター, 助教 (00545311)
|
Project Period (FY) |
2011-04-01 – 2016-03-31
|
Keywords | ハイパフォーマンスコンピューティング / エクサスケールコンピューティング / 耐故障技術 / データ圧縮 / チェックポイント・リスタート / バーストバッファ / 国際研究者交流(ドイツ・アメリカ) / 国際情報交換(ドイツ・アメリカ) |
Outline of Annual Research Achievements |
本年度は、これまで開発してきた(1)障害復旧アルゴリズム・システムの改良、(2) スケーラビリティの確認とともに、障害復旧の起点となる(3)障害検知技術を検討した。また、これらのシステムの(4)統合に向けたアルゴリズムの開発も行った。 具体的に、(1)について、更なるチェックポイント圧縮の必要性から、昨年度開発したチェックポイントデータ圧縮技術に対し、非可逆圧縮などに用いられている量子化技術を応用した。これは、量子化の区間を、チェックポイントデータに値に応じて、最適なサイズに動的分割することによる精度向上手法で、実際の気象アプリケーションのチェックポイントを、非可逆圧縮による誤差を数%におさえつつ、圧縮サイズを一般のgzipに対し90%削減した。(2) において、近年注目されているバーストバッファ技術を適用し、この階層型ストレージをモデル化した。シミュレーションによる評価において、バーストバッファを用いることで、障害発生時でもスケーラブルな実行環境を実現できることを示した。また、(3)については、巨大なWebサービスの故障検知機構を応用・改良することで、大規模計算に対応する学習型故障予測モデルを提案した。さらに、(4)では、耐故障技術をMPIに類似したインターフェースに統合したFMI (Fault tolerant Messaging Interface) を構築した。その他、これらの基盤となるハードウェアについて、運用中のネットワークに故障が発生した場合に、適切なルーティングを行い、故障による性能低下を軽減するアルゴリズムを提案した。 特に、(2)での貢献は、将来のスーパーコンピューターに設計に大いに役に立つと期待され、国際会議 IEEE/ACM CCGrid 2014において、ベストペーパー賞を受賞し、我々のプロジェクトは国際的に高く評価されている。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
研究実績の概要で述べたとおり、平成26年度までの研究目標を達成し、国内・国際会議において成果発表を行っている。また、いくつかの研究については、計画の一部を前倒しで行っている。 具体的には平成27年度の計画としている自律的耐故障機構の実装のためのシステム統合を目的とした研究で、研究実績にて説明したFMI、およびネットワーク故障の対応がこれに当たる。
|
Strategy for Future Research Activity |
我々は、これまでErasure codeを用いた多階層チェックポインティング、非同期チェックポインティング、チェックポイント圧縮技術、障害予測、高信頼型ストレージアーキテクチャ、自律的高信頼通信ライブラリ及び自律的復旧ルーティング機構・技術を開発してきたが、この統合システムは、多くの数理モデルに寄って構成され、様々なシナリオ、アプリケーションに対し最適な耐障害手法の動的適用を可能とする性能モデルを構築し、数10億並列・エクサスケールスーパーコンピュータの耐障害性基盤を実現する。ここでの評価では、高密度加速器+バーストバッファーアーキテクチャである運用スパコンTSUBAME2.0/2.5を積極的に利用する。このアーキテクチャは米国国立研究所の次期スパコンCORALシステムで採用される予定であり、ここでの成果は、国内のみならず世界的にもエクサスケールの耐障害技術の発展に貢献すると期待される。 また、これまで開発したソフトウェアの一部は、既にオープンソースとして公開・流布活動を行ってきたが、引き続き、成果ソフトウェアの公開・流布活動を行う。さらに、これらのソフトウェアに対し、TSUBAME2.5のような、利用率の高い常時高負荷環境である運用スパコン上においても高い信頼性で稼働できるよう改良を加える。ここで得られた研究成果は、最終的に研究代表者が率いるTSUBAME3.0の設計へ還元する予定である。本年度も、理化学研究所計算科学研究機構、米国Lawrence Livermore National Laboratory, 独Technische Universitat Dresden ZIHなどの国内外の研究・教育機関と連携しながら研究を遂行する。
|
Research Products
(95 results)
-
-
[Journal Article] Latent Fault Detection With Unbalanced Workloads2015
Author(s)
Moshe Gabel, Kento Sato, Daniel Keren, Satoshi Matsuoka, Assaf Schuster
-
Journal Title
Event Processing, Forecast- ing and Decision-Making in the Big Data Era 2015 (EPForDM2015) in conjunction with the 18th International Conference on Extending Database Technology (EDBT)
Volume: -
Pages: pp.118-124
Peer Reviewed
-
-
-
[Journal Article] Hybrid BFS Approach Using Semi-External Memory2014
Author(s)
Keita Iwabuchi, Hitoshi Sato, Ryo Mizote, Yuichiro Yasui, Katsuki Fujisawa, Satoshi Matsuoka
-
Journal Title
The 3rd High Performance Data Intensive Computing Workshop (HPDIC2014 ) in conjunction with IEEE International Conference on Parallel and Distributed Processing Symposium 2014 (IPDPS2014)
Volume: -
Pages: pp.1698-1707
DOI
Peer Reviewed
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] A look at Big Data in HPC2014
Author(s)
Satoshi Matsuoka
Organizer
DDN User Meeting at International Supercomputing Conference 14 (ISC14)
Place of Presentation
Congress Center Leipzig (Leipzig, Germany)
Year and Date
2014-06-24 – 2014-06-24
Invited
-
-
-
-
-
-
-
-
-
-
-