2021 Fiscal Year Research-status Report
機械学習による誤りが引き起こす情報セキュリティ問題に関する研究
Project/Area Number |
18K11248
|
Research Institution | Tokyo University of Technology |
Principal Investigator |
宇田 隆哉 東京工科大学, コンピュータサイエンス学部, 准教授 (50350509)
|
Co-Investigator(Kenkyū-buntansha) |
柴田 千尋 法政大学, 理工学部, 准教授 (00633299)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 情報セキュリティ / 深層学習 / 人工知能 / Adversarial Examples |
Outline of Annual Research Achievements |
本プロジェクトでは、人工知能に使用されている深層学習を情報セキュリティに適用した場合の問題点について研究を行った。中でも、深層学習を使用して亜種マルウェアを検出する際にファイルサイズの問題点とその解決策を述べた論文と、筆記から特徴を抽出して個人識別に用いる手法を提案した論文が、情報処理学会論文誌に採録となった。 マルウェア検出に人工知能のひとつである機械学習が用いられる例は多数挙げられる。とりわけ、連続したnバイトを用いるn-gramと呼ばれる手法による検出精度は優れていて実用的である。しかし、亜種マルウェアでは共通するバイトが多く、ファイルサイズが小さくならないため、メモリサイズや処理速度を考慮すると機械学習が困難であった。本プロジェクトでは、この問題点を解決する、n-gram圧縮および抽出手法を考案し、最終的な研究成果が論文誌に採録となった。 筆記を個人識別に用いる研究に関しても、人工知能のひとつである機械学習が用いられる例はある。しかし、既存の手法では筆記をそのまま機械学習するため、その筆記しか訓練の対象とならず、同一の文字や署名でなければテスト時に適切に分類できないという問題がある。本プロジェクトの研究では、筆記を分解し、分解されたパーツに含まれる特徴を機械学習することで、訓練時に入力されていない文字や単語でもテスト時に分類できるようにした。最終的な研究成果は論文誌に採録となった。 また、人工知能は訓練時のデータセット汚染により騙されるという点に着目し、マルウェア検出率を下げる研究も行った。非常に大規模な犯罪組織か国家が関与しなければ困難ではあるが、良性のデータセットに用いられると思われると予想されるフリーウェアの5%程度を汚染すれば、その後に攻撃に使用する予定の亜種マルウェアの検出率を一定程度下げられることが実験により示された。この成果は国内シンポジウムにて発表した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成30年度のおわりに、サイズの大きい亜種マルウェアをn-gramを用いて小さいサイズにすることで、深層学習を使用して検出する方法について国内研究会にて発表した。平成31年度に、この研究をまとめて査読付ジャーナル論文に投稿したが、関連研究との比較が不十分とのことで不採録となった。既存研究でも特徴の圧縮は行っているが、サイズを小さくするためにn-gramの出現回数や順序といった情報を捨てており、これらが検出率に影響する恐れがある。一方、本プロジェクトの提案手法では、出現回数や順序、一定範囲内の共起度を保つことができる。再投稿した論文は、情報処理学会論文誌に採録となり、令和4年4月号に掲載された。 亜種マルウェア検出に関しては、訓練時のデータセット汚染により人工知能を騙せる可能性について気づいたため、実験を行い、成果を国内シンポジウムにて発表した。 筆記を個人識別に用いる研究に関しては、査読者に誤解を与える書き方になっていた経緯もあり、修正や追加実験に時間を要した。なお、被験者による実験が必要であったが、コロナウイルスによる影響により以前のように実験を行えないという問題も生じた。これらの問題を乗り越えて査読付ジャーナル論文に投稿した論文は、情報処理学会論文誌に採録となり、令和4年4月号に掲載された。 進捗が、完全に当初の計画通りではなかった理由はコロナウイルスによるものである。参加を予定していた国際会議や国内研究会がオンライン開催に変更されてしまったり、開催の有無が早期に決まらず投稿の予定が立たなかったりする事態に見舞われた。 本プロジェクトがおおむね順調に進展していると判断したのは、上記のように研究内容は充実していたが、口頭での研究発表が予定通りではなかったためである。
|
Strategy for Future Research Activity |
亜種マルウェアをn-gramと深層学習を用いて検出する手法については、査読付ジャーナル論文に採録されたため一区切りがついた。しかし、バイト単位のn-gramを前処理する際、データセットのサイズによっては膨大な時間が掛かるという問題がある。本プロジェクトでは、接尾辞配列を用いてこの問題を解決した手法を考案し、令和3年3月の国際会議にて発表した。最終的な成果を査読付英文ジャーナル論文に投稿したが、説明が不明瞭である点とどれだけ高速化可能であるかの比較評価が行われていない点を理由に不採録となった。追加の比較評価については完了したため、説明文を改善し、査読付英文ジャーナル論文に再投稿する予定である。 シワに耐性のある敵対的パッチについては、Thysらが考案したオリジナルのパッチを改良し、全方向からの撮影に耐性を持たせたものを考案した。手法に難点があり、評価も十分とはいえないため、今後も研究を進めていく。 人間に読めないナンバープレートを深層学習を使用して読むという研究については、読み取り精度が低い段階で、本プロジェクトとは関係なく査読付ジャーナル論文にすでに採録になっている。人間に読めないナンバーに対して、高い精度で人工知能が読み取れる場合と読み取れない場合があるため、その理由の解明こそが、まさに本プロジェクトのテーマに合致するものであると考え、今後も研究を進めていく。
|
Causes of Carryover |
査読付ジャーナル論文に採録となった論文の掲載が令和4年度4月であったため、次年度使用額が生じた。 次年度はこの掲載料を支出する。 その他、国内での研究発表を予定している。
|
Research Products
(4 results)