本研究の成果を以下に示す。 (1)高効率細粒度並列処理を行なうハードウェア データフローを考慮した同期システムの考え方に基づき、複数のCPU間の共有資源アクセスを制御して、異なるCPUの間でデータのストアと複数のデータロードが一度に同期して行なえるシステムを確立した。 ・EWS上でのシミュレーションから、以下のことが明らかになった。 1.共有資源アクセスを複数のCPUで同期して行なうことによって、CPU間同期を共有メモリアクセス期間中にオーバラップして行なうことになり、事実上、同期処理時間がゼロになる。 2.1台のCPUのストアと複数のCPUのロードをオーバラップさせることによって、従来C_S+_nC_lかかっていた共有メモリアクセスを、1サイクルで実現することができる。 ・4台のトランスピュータを核とする階層構造マルチCPUシステムのプロトタイプを設計し、実際にこれを試作した。現在、スケジュール誤差の改善効果の検討を行なっている。 ・これまでに得られている成果としては、従来26ステップかかっていたFFTのバタフライ演算の細粒度並列処理が、わずか14ステップ(従来の並列処理システムと比較して46.2%の高速化)で処理できることを確認できた。 (2)高効率細粒度並列処理を実現するためのソフトウェア 「共有資源のアクセス順序まで最適化するスケジューラ」に系統的シャフリングを適用し、提案したシステムの能力を最大限に引き出すソフトウェアを開発した。このスケジュラによって、タスクを微細に分割したことによって生じる重複通信を最小化する最適化を行なっている。 ・人間が手で最適化した14ステップを得ることはできなかったが、初期解で21ステップ、最終的には18ステップ(従来の並列処理システムに対し30.7%の高速化)の実用最適解を得ることができた。 ・現在、本システムを用い、通信命令を縮小させる最適化が進むことによって、一旦分割された小さなタスクが再び再構成され、最適なクラスタリングを行なったとほぼ同じ効果が得られることを確認している。
|