振る舞いのグラフ化と深層学習によるマルウェア検出手法に関する研究

Research Project

Project/Area Number	21K11880
Research Category	Grant-in-Aid for Scientific Research (C)
Allocation Type	Multi-year Fund
Section	一般
Review Section	Basic Section 60070:Information security-related
Research Institution	Iwate University
Principal Investigator	中谷直司岩手大学, 理工学部, 准教授 (20322969)
Project Period (FY)	2021-04-01 – 2025-03-31
Project Status	Granted (Fiscal Year 2023)
Budget Amount *help	¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000) Fiscal Year 2023: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000) Fiscal Year 2021: ¥2,210,000 (Direct Cost: ¥1,700,000、Indirect Cost: ¥510,000)
Keywords	マルウェア検出 / 深層学習 / 振る舞い検知 / ビヘイビア手法 / グラフ化
Outline of Research at the Start	ソフトウェアの振る舞い，すなわち“APIの呼び出しログ”と“自然言語処理における文書”との類似点に着目し，自然言語処理手法を適用したデータを深層学習の入力とすることでマルウェアを検出する手法が提案されている．しかし，それらは本来100万語を超える自然言語を処理するための手法であるため，せいぜい数万語のAPI呼び出しログに適用するには最適とは言い難い．そこで本研究では，自然言語処理の考え方をベースにしつつ，通常の文章では見られない繰り返しや並列動作などを表現するためAPI呼び出しログをグラフ化し，そのデータ表現を用いることで計算機資源を削減した，深層学習によるマルウェア検出手法の提案を目指す．
Outline of Annual Research Achievements	本研究は，マルウェアを検出することを目的に，振る舞いのグラフ化と深層学習によるマルウェア検出手法を提案する．ソフトウェアの振る舞い，すなわち“APIの呼び出しログ”をもとにマルウェアを検出する手法として，自然言語処理を応用する手法がいくつか提案されている．すなわち“APIの呼び出しログ”と“自然言語処理における文書”の類似点に着目し，単語の特徴量であるtf-idfをAPIに対して適用したり，文書全体の特徴量であるDoc2Vecをログファイルに適用したものを，深層学習の入力データとすることでマルウェアを検出する手法が提案されている．しかし，tf-idfやDoc2Vecなどは本来は100万語を超える自然言語を処理するためのものであるため，せいぜいが数万語のAPI呼び出しログに適用するには最適とは言い難い．そこで本研究では，自然言語処理の考え方をベースにしつつ，通常の文章では見られない繰り返しや並列動作などを表現するためAPI呼び出しログをグラフ化し，そのデータ表現を用いることで計算機資源を削減した，深層学習によるマルウェア検出手法の提案を目指している．３年目である本年度は，これまでの研究成果であるソフトウェアの振る舞い，すなわち“APIの呼び出しログ”のグラフ構造化の結果を踏まえ，“APIの呼び出しログ”から得られたグラフを特徴量として深層学習で学習し，その類似性を基にマルウェアと正常なソフトウェアの２つに分類することで，マルウェアかどうかが不明なソフトウェア群からマルウェアを検出する手法の研究開発を行った．また，“APIの呼び出しログ”をグラフ以外の方法で可視化し，その類似性からマルウェアを分類する手法や，深層学習の１つであるCNNを用いたマルウェア検出手法などにも取り組み有用性を示した．
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 本研究は当初の計画から研究全体を大きく２つに分けて行う予定であり，初年度はその第１段階として，ソフトウェアの振る舞い，すなわち“APIの呼び出しログ”を繰り返しや並列動作などを表現しつつグラフ構造に変換する手法について研究を行った．変換の結果得られたグラフを可視化することで，マルウェア間に類似性を表現できていることは人間の目で見て確認できている．すなわち，マルウェアかどうかが不明なソフトウェア群を全てグラフとして可視化し，既にマルウェアと分かっているグラフとの類似性を人間が判断することで，マルウェアの検出が可能となっているといえる．そこで，昨年度からはこのグラフを特徴量として深層学習で学習し，類似性を基にしたマルウェア検出手法の研究開発を行ってきた．開発したシステムはマルウェア検出手法として形にはなっているが，今のところ，その正解率（マルウェアを検出する割合と，正常なソフトウェアを誤検出しない割合を総合的に示した指標）は論文等で発表するに値する十分な成果とは言えない状況である．そこで，当初の予定では本年度で終了するはずだった本研究課題を，来年度も継続して行うために延長することにした．
Strategy for Future Research Activity	本研究はソフトウェアの振る舞い，すなわち“APIの呼び出しログ”を繰り返しや並列動作などを表現しつつグラフ構造に変換する部分と，その変換したグラフを元に深層学習によりマルウェアを検出する部分に分けることができる．初年度の研究でグラフ変換の部分については目処が立ち，昨年度からは深層学習によるマルウェア検出の部分に取り組んでいる．開発した深層学習によるマルウェア検出手法はシステムとして形にはなっているが，その精度はあまり高くないのが現状である．深層学習の手法の選択やパラメータの調節などにはある程度の経験則が必要になってくるが，これまでの研究経験を元に今後改善できるものと考えている．また，今年度も“APIの呼び出しログ”をグラフ以外の方法で可視化し，その類似性からマルウェアを分類する手法や，深層学習の１つであるCNNを用いたにマルウェア検出手法などの研究も行い，“APIの呼び出しログ”の性質を把握し，深層学習に関する経験を重ねてきた．これらの経験を元に，今年度は研究成果を論文等で発表することを目指している．

Report

(3 results)

Research Products
(6 results)

All 2023 2022 2021

All Presentation (6 results)

[Presentation] 表層解析によるランダムフォレストとCNNを用いたマルウェア検出2023
- Author(s)
  藤原大樹，中谷直司
- Organizer
  情報処理学会東北支部研究会（岩手大学）
- Related Report
  2023 Research-status Report
[Presentation] ベクトル化コストを削減した機械学習によるマルウェア検出2023
- Author(s)
  小原大和，中谷直司
- Organizer
  情報処理学会東北支部研究会（岩手大学）
- Related Report
  2023 Research-status Report
[Presentation] IoT機器の通信ログに基づく異常通信判別システムの構築2022
- Author(s)
  菅原雪乃，中谷直司
- Organizer
  情報処理学会東北支部研究会（岩手大学）
- Related Report
  2022 Research-status Report
[Presentation] 表層解析とLightGBMによるマルウェア検出の高速化2022
- Author(s)
  藤原大樹，中谷直司
- Organizer
  情報処理学会東北支部研究会（岩手大学）
- Related Report
  2022 Research-status Report
[Presentation] Network Intrusion Detection Classifier Based On Convolutional Neural Network2022
- Author(s)
  Yu Zhang, Naoshi Nakaya
- Organizer
  芸術科学会東北支部大会
- Related Report
  2021 Research-status Report
[Presentation] 表層解析を用いたLightGBMによるマルウェアの検出2021
- Author(s)
  菅原雪乃，中谷直司
- Organizer
  情報処理学会東北支部研究会（岩手大学）
- Related Report
  2021 Research-status Report

振る舞いのグラフ化と深層学習によるマルウェア検出手法に関する研究

Principal Investigator

中谷 直司 岩手大学, 理工学部, 准教授 (20322969)

¥3,250,000 (Direct Cost: ¥2,500,000、Indirect Cost: ¥750,000)

Current Status of Research Progress

Reason

Report

Research Products

[Presentation] 表層解析によるランダムフォレストとCNNを用いたマルウェア検出2023

Author(s)

Organizer

Related Report

[Presentation] ベクトル化コストを削減した機械学習によるマルウェア検出2023

Author(s)

Organizer

Related Report

[Presentation] IoT機器の通信ログに基づく異常通信判別システムの構築2022

Author(s)

Organizer

Related Report

[Presentation] 表層解析とLightGBMによるマルウェア検出の高速化2022

Author(s)

Organizer

Related Report

[Presentation] Network Intrusion Detection Classifier Based On Convolutional Neural Network2022

Author(s)

Organizer

Related Report

[Presentation] 表層解析を用いたLightGBMによるマルウェアの検出2021

Author(s)

Organizer

Related Report

中谷直司岩手大学, 理工学部, 准教授 (20322969)