研究課題/領域番号 |
21K11846
|
研究機関 | 広島大学 |
研究代表者 |
近堂 徹 広島大学, 情報メディア教育研究センター, 准教授 (90437575)
|
研究期間 (年度) |
2021-04-01 – 2024-03-31
|
キーワード | マイクロサービス / IoT / 耐障害性 |
研究実績の概要 |
プラットフォームの重層化・複雑化により,構成するハードウェアリソースとアプリケーションサービスとの関連性に乖離が発生し,全体像の把握や障害時の問題点の特定がより困難になっている現状がある。 本研究では,コンテナ管理プラットフォームのサーバリソースやネットワーク特性などのメトリクスを網羅的な収集と,ボトルネックが予測される箇所に絞ったトレーシングツールによるトレースデータの活用を実現する。これにより,マルチモーダル情報を有機的に結合することで効率的な障害検知と原因特定を実現することを目的としている。具体的には,収集するデータの構造化および階層型分析・可視化手法を提案,実装する。さらに ,複数拠点を接続した広域分散ネットワークでのプロトタイプ実装による有効性の検証を行う。 令和3年度は,「複数メトリクスの蓄積および構造化手法の提案と実装」と「マイクロサービスにおける動的トレースデータ収集システムの実装」について進めた。マイクロサービスを構成するコンポーネントから取得できるメトリックの定常時からの変化量と,コンポーネント間の依存関係を組み合わせることで障害原因箇所を特定する手法について検討した。提案手法による障害原因箇所特定システムを開発し,ECサイトを模したマイクロサービスのベンチマークを用いた実験を行い,有効性を示した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
2: おおむね順調に進展している
理由
「複数メトリクスの蓄積および構造化手法の提案と実装」では,マイクロサービスを構成するコンポーネントとコンポーネント感の依然関係を組み合わせたメトリックスの蓄積・分析手法について具体的に検討した。具体的に,エッジ特性のメトリック(コンポーネントの応答時間,受信リクエスト数など)とコンポーネント特性のメトリック(コンテナの CPU 使用率,メモリ使用量など)を利用し,API呼び出しによるコンポーネント間の依存関係を直接捉えたモデル化を行なった。コンポーネント間の依存関係を DAG(有向非巡回グラフ)でモデル化し,構築したDAGのエッジへ重み付けする。最後に,重み付けした複数のDAGを用いて,各コンポーネントの障害への貢献度を表す異常度を算出することで障害原因を特定する手法を提案した。 「マイクロサービスにおける動的トレースデータ収集システムの実装」では,前述の手法に基づく障害原因箇所特定システムのプロトタイプシステムを実装し,マイクロサービスのベンチマークを用いた実験を行い,提案手法による障害原因箇所の特定精度と特定時間を評価した。コンポーネント特性のメトリックの取得にはcAdvisor,トレースログの取得にはIstio,取得したメトリックの収集・蓄積にはPrometheusを使用し,SLO(サービスレベル目標:Service Level Objective)に基づいた障害検知をトリガに障害箇所を特定することが可能となっている。 ECサイトを模したマイクロサービスで障害を再現する実験を行った結果,全コンポーネントのうち障害原因箇所を81.0%で上位1番目に,100.0%の精度で上位2番目に特定でき,またコンテナ数が約300個のマイクロサービスであれば2分以内に特定できることを示した。
|
今後の研究の推進方策 |
昨年度に引き続き,障害特定精度や検知時間の短縮に向けたアルゴリズムの検討を進めていく。そのためには,新たな意思決定モデル等の導入が必要になるため,既存の障害原因特定システムでの手法などとの比較評価を進めながら,手法の改善をおこなっていく。また,特定結果の可視化手法の検討や広域環境での評価実験などを進めていく予定である。
|
次年度使用額が生じた理由 |
(理由) 研究会発表および情報収集のための会議が新型コロナウィルス感染症の影響によりオンライン開催等になり,旅費として計上していた支出がなかったため。また,評価実験の一部については,既存の計算機資源を用いて実施したことにより今年度の機器購入を見送ったこと。 (次年度の使用計画) 必要性を見極めた上での出張費を計上するとともに,実験に必要なPC等の機器購入を行う予定である。
|