• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

トラフィック動的制御機能配備型ジョブ管理システム

研究課題

研究課題/領域番号 21K11912
研究種目

基盤研究(C)

配分区分基金
応募区分一般
審査区分 小区分60090:高性能計算関連
研究機関大阪大学

研究代表者

伊達 進  大阪大学, サイバーメディアセンター, 教授 (20346175)

研究期間 (年度) 2021-04-01 – 2025-03-31
研究課題ステータス 交付 (2023年度)
配分額 *注記
4,160千円 (直接経費: 3,200千円、間接経費: 960千円)
2023年度: 910千円 (直接経費: 700千円、間接経費: 210千円)
2022年度: 1,950千円 (直接経費: 1,500千円、間接経費: 450千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
キーワードスケジューラ / DTN / ジョブ管理システム / 動的トラフィック制御 / Data Centric
研究開始時の研究の概要

本研究では、システム外部のIoTセンサ等のデータ源から生成・取得される最新データをオンデマンドに活用する高性能計算(High Performance Computing: HPC)および高性能データ分析(High Performance Data Analysis: HPDA)を実行可能な高性能計算環境の実現を目指し、プロセッサ資源とネットワーク資源を対象としたHPC・HPDA融合計算基盤向け資源制御管理フレームワークを実現する。

研究実績の概要

本研究では、システム外部のIoTセンサ等のデータ源から生成・取得される最新データをオンデマンドに活用する高性能計算(High Performance Computing: HPC)および高性能データ分析(High Performance Data Analysis: HPDA)を実行可能な高性能計算環境の実現を目指し、プロセッサ資源とネットワーク資源を対象としたHPC・HPDA融合計算基盤向け資源制御管理フレームワークを実現する。具体的には、今日の高性能計算機システムの有するデータ移動および計算実行の非連動性を解消する、ユーザの分散並列処理要求に対応した計算資源、および、計算ジョブの実行前後に発生しうる高性能計算機システム内部と外部のストレージ間のデータ移動に伴うネットワーク資源を統合的かつ一元的に制御・管理するトラフィック動的制御機能配備型ジョブ管理システムを中核技術として開発する。本目的のために、2023年度は、ジョブ開始実行時間直前に、最新データをシステムに配置するようにするためにはより正確なジョブ実行時間が必要であることから、実際の高性能計算機システムのログを元に、機械学習を応用して、利用者の投入するジョブ要求に記載されたジョブ実行時間から実際のジョブ時間を推定する手法について検証・確認を進めた。当該手法について検証を進めた結果、利用者のジョブスクリプトに記載されたファイル名などの情報から、ジョブ実行時間の推定精度が向上することが判明した。一方で、今日の高性能計算機システムの有するデータ移動および計算実行の非連動性の達成のためには、さらなる推定精度の向上が必要であることがわかった。

現在までの達成度 (区分)
現在までの達成度 (区分)

3: やや遅れている

理由

プロセッサ・ネットワーク資源統合スケジューリングモデル・手法の考案・実装に伴い、高性能計算機システムにおけるジョブ実行開始時間を機械学習によって高精度な予測が可能になることにより、大幅にシステム利用効率およびジョブ待ち時間の短縮につながりうる可能性があることを判明したことに伴い、2023年度は機械学習を応用したスケジューリング手法の実現可能性についての調査を行った。しかし、精度向上については確認できたものの、当初予定したほど有効な精度向上が見込めなかった。そのため、やや遅れているというステータスである。

今後の研究の推進方策

前半期に引き続き利用者の投入するジョブ要求に記載されたジョブ実行時間から実際のジョブ時間を推定する手法について調査を行いながら、提案手法の実装を行う。

報告書

(3件)
  • 2023 実施状況報告書
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 研究成果

    (5件)

すべて 2023 2022 2021

すべて 学会発表 (5件) (うち国際学会 4件)

  • [学会発表] Adaptive Job Scheduler Leveraging Deep Reinforcement Learning for Cloud-bursting Environment”2023

    • 著者名/発表者名
      Susumu Date, Shingo Kawamoto, Takeo Hosomi, Akihiro Yamashita, Seiji Yasuda, Lee Chonho
    • 学会等名
      NUG Society Meeting XXXIV(NUG2023)
    • 関連する報告書
      2023 実施状況報告書
    • 国際学会
  • [学会発表] HPCジョブ開始時刻予測に向けた機械学習によるジョブ実行時間推定の実現性及び推定精度の検証2023

    • 著者名/発表者名
      和田 哲也,遠藤新,伊達 進
    • 学会等名
      第159回システムソフトウェアとオペレーティング・システム研究発表会
    • 関連する報告書
      2023 実施状況報告書
  • [学会発表] Osaka University’s Data Aggregation Infrastructure for Supporting Data-intensive Science2022

    • 著者名/発表者名
      Susumu Date
    • 学会等名
      34th Workshop on Sustained Simulation Performance
    • 関連する報告書
      2022 実施状況報告書
    • 国際学会
  • [学会発表] Research Experiences of an On-Time Data Transfer Framework in Cooperation with Scheduler System and Future Directions2022

    • 著者名/発表者名
      Susumu Date
    • 学会等名
      The 3rd Global Research Platform Workshop (3GRP)
    • 関連する報告書
      2022 実施状況報告書
    • 国際学会
  • [学会発表] Architecture of an On-time Data Transfer Framework in Cooperation with Scheduler System2021

    • 著者名/発表者名
      Kohei Yamamoto, Arata Endo, Susumu Date
    • 学会等名
      18th Annual IFIP International Conference on Network and Parallel Computing
    • 関連する報告書
      2021 実施状況報告書
    • 国際学会

URL: 

公開日: 2021-04-28   更新日: 2024-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi