Job management system with dynamic traffic control functionality
Project/Area Number |
21K11912
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 60090:High performance computing-related
|
Research Institution | Osaka University |
Principal Investigator |
伊達 進 大阪大学, サイバーメディアセンター, 教授 (20346175)
|
Project Period (FY) |
2021-04-01 – 2025-03-31
|
Project Status |
Granted (Fiscal Year 2023)
|
Budget Amount *help |
¥4,160,000 (Direct Cost: ¥3,200,000、Indirect Cost: ¥960,000)
Fiscal Year 2023: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2022: ¥1,950,000 (Direct Cost: ¥1,500,000、Indirect Cost: ¥450,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
|
Keywords | スケジューラ / DTN / ジョブ管理システム / 動的トラフィック制御 / Data Centric |
Outline of Research at the Start |
本研究では、システム外部のIoTセンサ等のデータ源から生成・取得される最新データをオンデマンドに活用する高性能計算(High Performance Computing: HPC)および高性能データ分析(High Performance Data Analysis: HPDA)を実行可能な高性能計算環境の実現を目指し、プロセッサ資源とネットワーク資源を対象としたHPC・HPDA融合計算基盤向け資源制御管理フレームワークを実現する。
|
Outline of Annual Research Achievements |
本研究では、システム外部のIoTセンサ等のデータ源から生成・取得される最新データをオンデマンドに活用する高性能計算(High Performance Computing: HPC)および高性能データ分析(High Performance Data Analysis: HPDA)を実行可能な高性能計算環境の実現を目指し、プロセッサ資源とネットワーク資源を対象としたHPC・HPDA融合計算基盤向け資源制御管理フレームワークを実現する。具体的には、今日の高性能計算機システムの有するデータ移動および計算実行の非連動性を解消する、ユーザの分散並列処理要求に対応した計算資源、および、計算ジョブの実行前後に発生しうる高性能計算機システム内部と外部のストレージ間のデータ移動に伴うネットワーク資源を統合的かつ一元的に制御・管理するトラフィック動的制御機能配備型ジョブ管理システムを中核技術として開発する。本目的のために、2023年度は、ジョブ開始実行時間直前に、最新データをシステムに配置するようにするためにはより正確なジョブ実行時間が必要であることから、実際の高性能計算機システムのログを元に、機械学習を応用して、利用者の投入するジョブ要求に記載されたジョブ実行時間から実際のジョブ時間を推定する手法について検証・確認を進めた。当該手法について検証を進めた結果、利用者のジョブスクリプトに記載されたファイル名などの情報から、ジョブ実行時間の推定精度が向上することが判明した。一方で、今日の高性能計算機システムの有するデータ移動および計算実行の非連動性の達成のためには、さらなる推定精度の向上が必要であることがわかった。
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
プロセッサ・ネットワーク資源統合スケジューリングモデル・手法の考案・実装に伴い、高性能計算機システムにおけるジョブ実行開始時間を機械学習によって高精度な予測が可能になることにより、大幅にシステム利用効率およびジョブ待ち時間の短縮につながりうる可能性があることを判明したことに伴い、2023年度は機械学習を応用したスケジューリング手法の実現可能性についての調査を行った。しかし、精度向上については確認できたものの、当初予定したほど有効な精度向上が見込めなかった。そのため、やや遅れているというステータスである。
|
Strategy for Future Research Activity |
前半期に引き続き利用者の投入するジョブ要求に記載されたジョブ実行時間から実際のジョブ時間を推定する手法について調査を行いながら、提案手法の実装を行う。
|
Report
(3 results)
Research Products
(5 results)