2022 Fiscal Year Research-status Report
Project/Area Number |
21K11859
|
Research Institution | Keio University |
Principal Investigator |
胡 曜 慶應義塾大学, デジタルメディア・コンテンツ統合研究センター(日吉), 特任助教 (50791232)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | 大規模計算機システム / 光通信ネットワーク / FPGA結合網 / タスクスケジューリング |
Outline of Annual Research Achievements |
将来広帯域光通信技術を相互接続ネットワークに用いたデータセンターシステムを想定し、光通信トポロジ動的構成法を活用し、異種ハードウェアの物理トポロジへの最適なジョブマッピング手法を導き出した。そして、アプリケーション毎に計算ノードを柔軟に分配するスケジューリング手法を提案した。これにより、アプリケーションの通信待ち時間や総実行時間を最小化するとともにシステム全体のスケーラビリティを最大化することが期待できる。 MPIユーザーの目標は、ネットワーク内のプロセッサの空間的および時間的局所性を最大化する方法でタスクをプロセッサに割り当てることである。ただし、これは特に大規模なネットワークの場合、ランタイムでプロセッサの局所性を最大化することが不可能である場合があるため、課題となることがある。この問題に対処するために、Hamorderを提案した。これは、ランダムネットワークトポロジーに基づいたグラフ再配置に基づくオフラインノード再割り当て手法で、複数のタスクまたは単一のタスクの両方でパフォーマンスを改善するために、タスクマッピングを最適化することを目的とする。さらに、Hamorderに基づくランタイムパラメータのチューニングにより、MPIアプリケーションの改善の可能性を調査した。評価結果によると、Hamorderは、ランダムトポロジー上で最先端ソリューションのGorderアルゴリズムに比べて27.3%のパフォーマンス改善を提供した。さらに、Hamorderを使用したオートチューニングフレームワークにより、ランタイムパラメータの組み合わせを検索することで、対象となるMPIアプリケーションの平均スピードアップは1.38倍になった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
最初予定通りに研究を遂行している。 資源利用率向上やシステム全体のスケーラビリティ最大化をもたらす新たな異種ハードウェア間光通信相互結合網の設計を明らかにした。ソフトウェア的アプローチとして、タイムスロットの割り当ての衝突回避を考慮し、入力した通信パターンに合わせた最適な光通信トポロジの動的構成法を開発した。その手段として、Pythonで実装したスパコンネットワーク生成シミュレータとNetworkX/Pandas/C++で実装したトポロジ解析ツール群をすでに保有しており、10万ノード程度までのネットワーク生成・グラフ解析が可能となった。本研究が進むにつれ、ツールを随時拡張しながら活用する予定である。しかし、ターゲットとする100万ノードくらいの規模では非現実的な実行時間を要するため、アルゴリズムの改善や計算能力の増強、並びにMATLAB、Mathematicaといった有償ソフトウェアの利用も検討する必要があるという結論に至った。
|
Strategy for Future Research Activity |
システム管理者の観点からジョブマッピングとスケジューリングアルゴリズムを開発する。開発したアルゴリズムが光通信アーキテクチャ上のハードウェア資源やタイムスロットの割り当ての衝突を避け、有効な資源分配法を実現できるか否か正確に評価する。その手段として、保有したスケジューリングシミュレータを活用し、様々な並列アプリケーションを実行するトポロジを動的に計算した性能評価を行う。現在最先端の大規模計算機システムと比べて、通信待ち時間や総実行時間が短縮されることを明らかにする。また、提案されたシステム全体を実装してその実現性を検証するとともに、開発したスケジューラのプログラムをオープンソースソフトウェアとして公開する。また、本研究が進むにつれ、ツールを随時拡張しながら活用する予定である。計算能力が不足すれば、より多くの仮想計算機を利用できる高性能計算クラウドサービスにより大きな仮想計算機を構築して提案システムの効率を評価する。 なお、研究過程で得られた知見については、研究会・国際会議・論文誌などで随時発表し、産業界・学術界の技術者・研究者らと幅広い議論を交えながら研究を進める。
|
Causes of Carryover |
本研究では、100万ノードくらいの大規模計算機システムを対象としたトポロジ構成・グラフ解析およびイベント・ドリブン型スケジュールシミュレーションを計画している。これを現実的な時間内で実行するために、FPGAクラスタ、高いCPU演算能力と大容量メモリを持つメニーコア計算機、高性能計算クラウドサービスと有償数理解析ソフトウェアの併用が必要不可欠である。購入したすべての機器類は慶應義塾大学DMC研究センターに設置し、設備を集約することで費用対効果の最大化を図る。 また、大量のシミュレーションデータの集計作業を含む技術補佐のために短時間の謝金を計上している。研究補佐要員への謝金予算は、 慶應義塾大学の規定による研究補助の謝金算定基準をもとに算出する。計算機アーキテクチャや並列分散システムをはじめとする幅広い分野の論文誌・国際会議・学会で研究成果を発表するための学術論文掲載料(論文別冊を含む)、会議・学会登録料、旅費なども必要である。旅費は、最低の交通費(エコノミー)、慶應義塾大学規定の宿泊費・日当をもとに算出する。航空運賃に関しては、調達方法によって廉価なチケットを入手することが可能なので、価格が高くない時期に早めに日程を確定し購入することで、予算の節約に細心の注意を払う。なお、収集した資料のうち公開可能なものや研究成果については公開するための印刷費が必要である。報告書も同様である。
|