研究課題/領域番号 |
21K11880
|
研究種目 |
基盤研究(C)
|
配分区分 | 基金 |
応募区分 | 一般 |
審査区分 |
小区分60070:情報セキュリティ関連
|
研究機関 | 岩手大学 |
研究代表者 |
中谷 直司 岩手大学, 理工学部, 准教授 (20322969)
|
研究期間 (年度) |
2021-04-01 – 2025-03-31
|
研究課題ステータス |
交付 (2023年度)
|
配分額 *注記 |
3,250千円 (直接経費: 2,500千円、間接経費: 750千円)
2023年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2021年度: 2,210千円 (直接経費: 1,700千円、間接経費: 510千円)
|
キーワード | マルウェア検出 / 深層学習 / 振る舞い検知 / ビヘイビア手法 / グラフ化 |
研究開始時の研究の概要 |
ソフトウェアの振る舞い,すなわち“APIの呼び出しログ”と“自然言語処理における文書”との類似点に着目し,自然言語処理手法を適用したデータを深層学習の入力とすることでマルウェアを検出する手法が提案されている.しかし,それらは本来100万語を超える自然言語を処理するための手法であるため,せいぜい数万語のAPI呼び出しログに適用するには最適とは言い難い.そこで本研究では,自然言語処理の考え方をベースにしつつ,通常の文章では見られない繰り返しや並列動作などを表現するためAPI呼び出しログをグラフ化し,そのデータ表現を用いることで計算機資源を削減した,深層学習によるマルウェア検出手法の提案を目指す.
|
研究実績の概要 |
本研究は,マルウェアを検出することを目的に,振る舞いのグラフ化と深層学習によるマルウェア検出手法を提案する.ソフトウェアの振る舞い,すなわち“APIの呼び出しログ”をもとにマルウェアを検出する手法として,自然言語処理を応用する手法がいくつか提案されている.すなわち“APIの呼び出しログ”と“自然言語処理における文書”の類似点に着目し,単語の特徴量であるtf-idfをAPIに対して適用したり,文書全体の特徴量であるDoc2Vecをログファイルに適用したものを,深層学習の入力データとすることでマルウェアを検出する手法が提案されている.しかし,tf-idfやDoc2Vecなどは本来は100万語を超える自然言語を処理するためのものであるため,せいぜいが数万語のAPI呼び出しログに適用するには最適とは言い難い.そこで本研究では,自然言語処理の考え方をベースにしつつ,通常の文章では見られない繰り返しや並列動作などを表現するためAPI呼び出しログをグラフ化し,そのデータ表現を用いることで計算機資源を削減した,深層学習によるマルウェア検出手法の提案を目指している. 3年目である本年度は,これまでの研究成果であるソフトウェアの振る舞い,すなわち“APIの呼び出しログ”のグラフ構造化の結果を踏まえ,“APIの呼び出しログ”から得られたグラフを特徴量として深層学習で学習し,その類似性を基にマルウェアと正常なソフトウェアの2つに分類することで,マルウェアかどうかが不明なソフトウェア群からマルウェアを検出する手法の研究開発を行った.また,“APIの呼び出しログ”をグラフ以外の方法で可視化し,その類似性からマルウェアを分類する手法や,深層学習の1つであるCNNを用いたマルウェア検出手法などにも取り組み有用性を示した.
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
4: 遅れている
理由
本研究は当初の計画から研究全体を大きく2つに分けて行う予定であり,初年度はその第1段階として,ソフトウェアの振る舞い,すなわち“APIの呼び出しログ”を繰り返しや並列動作などを表現しつつグラフ構造に変換する手法について研究を行った.変換の結果得られたグラフを可視化することで,マルウェア間に類似性を表現できていることは人間の目で見て確認できている.すなわち,マルウェアかどうかが不明なソフトウェア群を全てグラフとして可視化し,既にマルウェアと分かっているグラフとの類似性を人間が判断することで,マルウェアの検出が可能となっているといえる.そこで,昨年度からはこのグラフを特徴量として深層学習で学習し,類似性を基にしたマルウェア検出手法の研究開発を行ってきた.開発したシステムはマルウェア検出手法として形にはなっているが,今のところ,その正解率(マルウェアを検出する割合と,正常なソフトウェアを誤検出しない割合を総合的に示した指標)は論文等で発表するに値する十分な成果とは言えない状況である.そこで,当初の予定では本年度で終了するはずだった本研究課題を,来年度も継続して行うために延長することにした.
|
今後の研究の推進方策 |
本研究はソフトウェアの振る舞い,すなわち“APIの呼び出しログ”を繰り返しや並列動作などを表現しつつグラフ構造に変換する部分と,その変換したグラフを元に深層学習によりマルウェアを検出する部分に分けることができる.初年度の研究でグラフ変換の部分については目処が立ち,昨年度からは深層学習によるマルウェア検出の部分に取り組んでいる.開発した深層学習によるマルウェア検出手法はシステムとして形にはなっているが,その精度はあまり高くないのが現状である.深層学習の手法の選択やパラメータの調節などにはある程度の経験則が必要になってくるが,これまでの研究経験を元に今後改善できるものと考えている.また,今年度も“APIの呼び出しログ”をグラフ以外の方法で可視化し,その類似性からマルウェアを分類する手法や,深層学習の1つであるCNNを用いたにマルウェア検出手法などの研究も行い,“APIの呼び出しログ”の性質を把握し,深層学習に関する経験を重ねてきた.これらの経験を元に,今年度は研究成果を論文等で発表することを目指している.
|