2015 Fiscal Year Annual Research Report
10億並列・エクサスケールスーパーコンピュータの耐故障性基盤
Project/Area Number |
23220003
|
Research Institution | Tokyo Institute of Technology |
Principal Investigator |
松岡 聡 東京工業大学, 学術国際情報センター, 教授 (20221583)
|
Co-Investigator(Kenkyū-buntansha) |
實本 英之 東京工業大学, 学術国際情報センター, 助教 (00545311)
|
Project Period (FY) |
2011-04-01 – 2016-03-31
|
Keywords | ハイパフォーマンスコンピューティング / エクサスケールコンピューティング / 耐故障性技術 / データ圧縮 / チェックポイント・リスタート / バーストバッファ |
Outline of Annual Research Achievements |
本年度は、1)これまで開発してきた手法の統合に向けた技術開発、2)更なる障害復旧アルゴリズム・システムの改良を行った。
1) システム統合の一環として、これまでに提案してきた統合環境FMIを含むチェックポイント手法、耐故障に関する数理モデリングの検証を可能とする、故障発生器の構築を行った。この故障発生器は、仮想化技術を用いており、従来のアプリケーションプロセスを対象としたものに加え、ハードウェアやOSに対して故障を挿入することが可能となり、計算環境全体を対象とした統合的なモデル検証を実現する。現時点では、主な故障種としてメモリ故障を対象とした実装を行っており、これまで対象としていたfail-stop な故障モデルに加え、メモリデータ化けによる誤った計算結果の出力(SDC: Silent Data Corruption)の再現も可能となっている。
また、2) 耐故障機能の改良については、非可逆圧縮によるチェックポイント手法について、科学技術計算に特化した、ウェーブレット変換を用いた非可逆圧縮手法を提案した。これは、可逆圧縮の効率が落ちる浮動小数に対応する為の手法であり、チェックポイントに誤差を含んでしまう一方、高圧縮を実現できる。このため、元データの精度や計算結果の用途によって、許容可能な誤差閾値を定めることによって、チェックポイントを効率よく圧縮し、チェックポイント保存時間の削減が可能となる。実気象アプリケーション(NICAM) を利用した評価では、誤差1.2%の状態で、圧縮サイズは一般のgzipに対し80%程度となった。
|
Research Progress Status |
27年度が最終年度であるため、記入しない。
|
Strategy for Future Research Activity |
27年度が最終年度であるため、記入しない。
|
Research Products
(55 results)
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
[Presentation] FGPA Experience at Titech2016
Author(s)
Satoshi Matsuoka
Organizer
ANL Workshop on Reconfigurable Computing for Post Moore Era
Place of Presentation
Argonne National Laboratory, IL USA
Year and Date
2016-01-21 – 2016-01-21
Int'l Joint Research / Invited
-
-
-
-
-
-
[Presentation] Japanese Supercomputer centers2015
Author(s)
Satoshi Matsuoka
Organizer
6th Annual workshop Energy Efficient HPC Working Group Annual Workshop (EE HPC WG)
Place of Presentation
Austin Convention Center, TX USA
Year and Date
2015-11-16 – 2015-11-16
Int'l Joint Research / Invited
-
-
-
-
-
-
-
-
-
-
-
-