近年の情報システムはなんらかの形でログデータ(記録データ)を大量に生成しており、それらを蓄積して有用な情報を取り出したい、何が起きているのかを理解したい、という要求はデータベース技術に求められる本質的な要求である。本研究の目的は、この課題に答えるため、ログデータ系列から指定した系列パターンを満たす部分系列を効率良く選び出す機構、および、ログデータ列を適切に理解可能な情報へと変換する機構、の2つを実現することである。具体的には、次の2つのソフトウェアを開発した: 1 ログデータ系列からの部分系列選択のために、データベース述語の正規表現をパターンとした系列パターン照合アルゴリズムN-OPSを開発した。評価の結果、N-OPSによる述語実行回数は、通常の非決定性有限オートマトンによる手法より大幅に削減されることを示した。本提案手法は、データベースレコードxを引数としたSQL文を述語P(x)とおいて、そのような述語の連接と閉包によるパターン照合検索を効率よく実行するものであり、一般的なログデータの系列検索に適した技法である。 2 ログデータ系列は、一般に多次元属性を有しており、当該系列の中で何が起きているかを認識する作業には多くの分析次元から見たデータ変形やデータ抽出を必要とする。この作業を効率的、効果的に行うため、多次元データキューブモデルに従ってデータマイニングを行う機構アイテムセットキューブを開発した。本研究では、アイテムセットキューブを用いたアクセスログデータからのユーザ行動の分析を行い、有効性を示した。 さらに、上記に加え、アイテムセットキューブの出力となるアイテムセットの系列から、特徴的な部分系列を自動的に判定するアルゴリズムとして、多構造データベース演算(MSDB)の適用技法を考案した。計算機システムログ系列を対象に評価した結果、MSDB演算の判定能力の有効性を示すことができた。
|