研究課題
本年度は、1)これまで開発してきた手法の統合に向けた技術開発、2)更なる障害復旧アルゴリズム・システムの改良を行った。1) システム統合の一環として、これまでに提案してきた統合環境FMIを含むチェックポイント手法、耐故障に関する数理モデリングの検証を可能とする、故障発生器の構築を行った。この故障発生器は、仮想化技術を用いており、従来のアプリケーションプロセスを対象としたものに加え、ハードウェアやOSに対して故障を挿入することが可能となり、計算環境全体を対象とした統合的なモデル検証を実現する。現時点では、主な故障種としてメモリ故障を対象とした実装を行っており、これまで対象としていたfail-stop な故障モデルに加え、メモリデータ化けによる誤った計算結果の出力(SDC: Silent Data Corruption)の再現も可能となっている。また、2) 耐故障機能の改良については、非可逆圧縮によるチェックポイント手法について、科学技術計算に特化した、ウェーブレット変換を用いた非可逆圧縮手法を提案した。これは、可逆圧縮の効率が落ちる浮動小数に対応する為の手法であり、チェックポイントに誤差を含んでしまう一方、高圧縮を実現できる。このため、元データの精度や計算結果の用途によって、許容可能な誤差閾値を定めることによって、チェックポイントを効率よく圧縮し、チェックポイント保存時間の削減が可能となる。実気象アプリケーション(NICAM) を利用した評価では、誤差1.2%の状態で、圧縮サイズは一般のgzipに対し80%程度となった。
27年度が最終年度であるため、記入しない。
すべて 2016 2015 その他
すべて 国際共同研究 (3件) 雑誌論文 (29件) (うち国際共著 18件、 査読あり 23件、 オープンアクセス 29件) 学会発表 (22件) (うち国際学会 20件、 招待講演 22件) 図書 (1件)
HiPEAC 2016
巻: - ページ: -
7th Annual Non-Volatile Memories Workshop 2016
Graph Algorithms Building Blocks (GABB’2016)
HPDC'16
International Conference on Computational Science (ICCS 2016)
Programming Models, Languages and Compilers Workshop for Manycore and Heterogeneous Architectures (PLC2015) in conjunction with IPDPS2015
巻: - ページ: 699 - 707
10.1109/IPDPSW.2015.60
The 15th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID 2015) Doctoral Symposium
巻: - ページ: 713 - 716
10.1109/CCGrid.2015.59
The 2nd Workshop on Parallel Programming Model for the Masses (PPMM 2015) in conjunction with the 15th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID 2015)
巻: - ページ: 1075 - 1083
10.1109/CCGrid.2015.93
ハイパフォーマンスコンピューティングと計算科学シンポジウム論文集
巻: 2015 ページ: 129 - 137
巻: 2015 ページ: 73 - 80
Euro-Par 2015 Parallel Processing
巻: 9233 ページ: 687-699
10.1007/978-3-662-48096-0_53
The First International Symposium on Swarm Behavior and Bio-Inspired Robotics
10.13140/RG.2.1.1022.1920
IEEE DSDIS 2015
巻: - ページ: 61 - 68
10.1109/DSDIS.2015.30
the 5th Workshop on Python for High-Performance and Scientific Computing @ SC15
10.1145/2835857.2835858
HPC China 2015
21st IEEE International Conference on Parallel and Distributed Systems (ICPADS 2015)
巻: - ページ: 692 - 699
10.1109/ICPADS.2015.92
情報処理学会 研究報告ハイパフォーマンスコンピューティング(HPC)
巻: 2015-HPC-150 (6) ページ: 1-9
巻: 2015-HPC-150 (28) ページ: 1-6
巻: 2015-HPC-150 (20) ページ: 1-11
巻: 2015-HPC-150 (44) ページ: 1-5
巻: 2015-HPC-151 (8) ページ: 1-7
巻: 2015-HPC-152 (16) ページ: 1-7
HPC in Asia Workshop in conjunction with the International Supercomputing Conference (ISC’15)
Supercomputing2015 (SC15)
GPU Technolgy Conference Japan (GTC Japan)