本年度は、本研究の基盤技術となる、トラフィック情報の種類と、ログのレコード内の情報の相関を求める方法に関する研究を行った。トラフィック情報としては、一般に用いられている、特定のIPアドレスやネットワークアドレスの範囲について、HTTPやSMTP、SSHなどのプロトコル別の、バイト数やパケット数を単位時間ごとにカウントした時系列データを利用した。ログのレコード内の情報を、それらの多種多様なトラフィック情報との間で比較するために、時系列のデータとして表現する方法について、重点的に検討を行った。多様な表現形式を持つテキストログのレコードを一般化して扱うために、レコードの種類を表す定型文の部分と、IPアドレスなどの変数となる部分を、人間の知識を用いずに計算機処理によって自動的に発見して分離する機能を設計した。また、その機能により分離・抽出される定型文の、単位時間当たりの出現度数によって、ログから時系列データを構成し、それとトラフィックの時系列データとの間で、相関係数を用いて相関の強さを表現する方式を提案した。提案方式により、ログに含まれる多様な情報項目の中から、特定のトラフィックと関連性が高いレコードの記述が、自動的に提示できるようになる。実環境で得られたトラフィックデータとログデータを用いた実験により、特定のトラフィックの時系列データと、ログの定型文の時系列データとの間で、相関の強弱の差が現れていることを確認した。これは、提案手法による相関の度合いの評価の有効性と応用可能性を示しており、本研究の目的を達成する上で重要な結果である。 以上の結果をまとめ、国内研究会に投稿し、口頭発表を行った。
|