2021 Fiscal Year Research-status Report
振る舞いのグラフ化と深層学習によるマルウェア検出手法に関する研究
Project/Area Number |
21K11880
|
Research Institution | Iwate University |
Principal Investigator |
中谷 直司 岩手大学, 理工学部, 准教授 (20322969)
|
Project Period (FY) |
2021-04-01 – 2024-03-31
|
Keywords | マルウェア検出 / 深層学習 / 振る舞い検知 |
Outline of Annual Research Achievements |
本研究は,マルウェアを検出することを目的に,振る舞いのグラフ化と深層学習によるマルウェア検出手法を提案する.ソフトウェアの振る舞い,すなわち“APIの呼び出しログ”をもとにマルウェアを検出する手法として,自然言語処理を応用する手法がいくつか提案されている.すなわち“APIの呼び出しログ”と“自然言語処理における文書”の類似点に着目し,単語の特徴量であるtf-idfをAPIに対して適用したり,文書全体の特徴量であるDoc2Vecをログファイルに適用したものを,深層学習の入力データとすることでマルウェアを検出する手法が提案されている.しかし,tf-idfやDoc2Vecなどは本来は100万語を超える自然言語を処理するためのものであるため,せいぜいが数万語のAPI呼び出しログに適用するには最適とは言い難い.そこで本研究では,自然言語処理の考え方をベースにしつつ,通常の文章では見られない繰り返しや並列動作などを表現するためAPI呼び出しログをグラフ化し,そのデータ表現を用いることで計算機資源を削減した,深層学習によるマルウェア検出手法の提案を目指している. 初年度である本年度は,ソフトウェアの振る舞い,すなわち“APIの呼び出しログ”を繰り返しや並列動作などを表現しつつグラフ構造に変換する手法について研究を行った.本研究は最終的には変換したグラフを深層学習により学習し,マルウェアを検出する手法の構築を目指している.しかし,グラフ化と深層学習を同時に進めると問題が複雑になり解決が難しくなるため,本年度はグラフ化だけに絞り結果は可視化することでマルウェア間の類似性を探る手法を取った.また,深層学習の扱いに慣れる意味で,グラフではない既存のデータを用いた深層学習によるマルウェアの検出や,ネットワークからの侵入検知などにも取り組み有用性を示した.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本研究は当初の計画から研究全体を大きく2つに分けて行う予定であり,初年度である本年度はその第1段階として,ソフトウェアの振る舞い,すなわち“APIの呼び出しログ”を繰り返しや並列動作などを表現しつつグラフ構造に変換する手法について研究を行った.変換したグラフを深層学習により学習し,マルウェアを検出する部分については次の段階としている.これは,グラフ化と深層学習によるマルウェア検出を同時に進めると,検出に問題がある場合に,その問題がグラフ変換の部分にあるのか,それとも深層学習の部分にあるのかが分離困難になることを避けるためである.現状ではグラフ変換の結果を可視化することで,マルウェア間に類似性を表現できていることを人間の目で見て確認している.このグラフ化の精度確認について,何らかの定量的な評価を行うことができればと考えているが,この点を除けば研究はおおむね順調に進展している.
|
Strategy for Future Research Activity |
本研究はソフトウェアの振る舞い,すなわち“APIの呼び出しログ”を繰り返しや並列動作などを表現しつつグラフ構造に変換する部分と,その変換したグラフを元に深層学習によりマルウェアを検出する部分に分けることができる.これまでの研究でグラフ変換の部分については目処が立ったと考えているので,今後は深層学習によるマルウェア検出の部分に取り組んでいく.深層学習は数学的な解析が十分に進んではいないので,その手法の選択やパラメータの調節などにはある程度の経験則が必要になってくる.この点を踏まえて本年度の研究において,グラフではない既存のデータを用いた深層学習によるマルウェア検出や,ネットワークに対する外部からの侵入検知に深層学習を応用する手法などの研究も行ってきた.これらの経験を活かし,今後は変換したグラフを元に深層学習によりマルウェア検出を行う研究に取り組んでいく.
|
Causes of Carryover |
世界的な半導体不足の影響により商品入荷の目処が立たず,当初予定していた機材を購入することができなかった.納品が確実で金額的に購入可能な商品から選択せざるを得なかったため,深層学習に使う計算機のスペックが予定よりも若干低いものとなり,その分が差額となった.また,新型コロナウイルスの感染拡大に伴い多くの研究会が対面ではなくオンラインでの開催となったため,出張旅費として確保していたものが不要となり,参加費が対面開催のときよりも低価格に変更されたため残額が生じた. 深層学習に使う計算機を実際に運用してみると,データ保存領域が十分ではなかったためその拡張と,電力の安定供給のための無停電電源装置の導入に次年度使用額を当てたいと考えている.
|
Research Products
(2 results)