2017 Fiscal Year Annual Research Report
Construction of hardware failure prediction tool set using big data
Project/Area Number |
15K00066
|
Research Institution | Japan Aerospace EXploration Agency |
Principal Investigator |
藤田 直行 国立研究開発法人宇宙航空研究開発機構, 航空技術部門, 主幹研究開発員 (70358480)
|
Project Period (FY) |
2015-04-01 – 2018-03-31
|
Keywords | 障害検出 / 原因特定 / 障害予測 / ビッグデータ |
Outline of Annual Research Achievements |
近年の計算機環境の大規模化に伴いハードウェアシステムの障害の影響も年々大きくなっている。そのため、ハードウェアの障害を事前に予測するシステムの構築が求められている.研究所や企業などにおいてハードウェア障害が発生すると,管理者は原因の究明と復旧作業などの対応に追われ,円滑なコンピュータ利用のサービスが妨げられる.しかし,障害の起きる原因は多様であり,パフォーマンスの低下やトラフィック状況などのハードウェアの内部情報を監視しているだけでは障害の予兆を捉えることは難しい.そのため、コンピュータの内部情報やシステムの設置状況などの外部情報を包括的に精査することによって障害の予兆を捉えるための研究を行っている。 本年度は,ハードディスクのS.M.A.R.T.(Self-Monitoring,Analysis and Reporting Technology)情報を機械学習させることによって、ハードディスク障害の予測に関する解析を行った.評価指標として,機械学習による予測で壊れると推測しかつ実際に壊れた個体ハードディスクの個数を全ハードディスク個数で割ったもの、いわゆる陽性的中率(PRE)を用いた.その結果,壊れる日が近ければ近いほど、PREに影響を与える特有の兆候が表れることが観測された。また、S.M.A.R.T.情報を機械学習させて検出力を高めてあげることによって、かなりの高い精度で障害予測が的中することが示された。さらに、学習と故障までの期間という観点から、故障までの日数と近い期間の判定機による検出力が高いということがわかった。このことから、学習に用いたデータの中には、壊れるまでの期間に応じて、その期間特有の傾向が見られるのではないかと考えられる。したがって、データに応じて学習データを使い分けることで,全体として,より検出力の高いシステムの構築が期待できることが改めて確認された.
|
Research Products
(3 results)