1997 Fiscal Year Annual Research Report
プログラム変換による疎結合並列計算機の耐故障化に関する研究
Project/Area Number |
09680332
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Research Institution | Japan Advanced Institute of Science and Technology |
Principal Investigator |
横田 治夫 北陸先端科学技術大学院大学, 情報科学研究科, 助教授 (10242570)
|
Co-Investigator(Kenkyū-buntansha) |
杉野 栄二 北陸先端科学技術大学院大学, 情報科学研究科, 助手 (10293391)
|
Keywords | 超並列システム / 耐故障ソフトウェア / プログラム変換 / プライマリ / バックアップ / レプリカ |
Research Abstract |
100台以上の要素プロセッサを持つ超並列システムが実用マシンとして多種類販売されるようになり、それに対応し、それらのマシン上で実行される並列プログラムも、長時間の安定した連続運転を要求する実用レベルの大規模なものに変わりつつあり、超並列システムの耐故障化の要求は非常に大きくなっている。コストの面から、専用のハードウェアやオペレーティングシステムを想定せず、並列ソフトウェアによって要素プロセッサの故障をマスクする方法は魅力がある。つまり、要素プロセッサが故障した場合には、その故障をソフトウェアで検出し、そのプロセッサを用いないで故障していないプロセッサだけでプログラムを続行させるような機構を並列ソフトウェアに持たせるわけである。ただし、その場合に、個々のプログラマが耐故障を前提に並列プログラムを作成することは、プログラマへの負担が大きくなり過ぎる。 そこで、並列プログラムを自動変換することにより、要素プロセッサの故障をマスクする耐故障並列ソフトウェアを実現する方法を提案しその結果を示した。耐故障化のアプローチとしては、要素プロセッサをグル-ピングして、グループ単位でプライマリとバックアップの複数のレプリカを並行して走らせ、ソフトウェアによる故障検出後、プライマリとバックアップの内のどれかを切替える方法を取った。自動変換では、レプリカを複数作る部分、故障を検出する部分、プライマリとバックアップ間で通信し合う部分を元の並列プログラムに加えることになり、耐故障化したことにより本来のプログラムの性能が低下することを避けられない。そこで、このようなアプローチでは、実際にどの程度低下するのかをシステム構成を変化させながら考察した。
|
-
[Publications] 杉野栄二,横田治夫: "疎結合並列システム向け耐故障化並列プログラムの実行オーバーヘッド" 情報処理学会 並列処理シンポジウム JSPP97 論文集. 361-368 (1997)
-
[Publications] 杉野栄二,横田治夫: "疎結合並列計算機における耐故障並列プログラムの実行性能に関する考察" 電子情報通信学会技術研究報告. FTS97-26. 71-78 (1997)