研究概要 |
ネットワーク上を時間的に変化しながら流れる大量半構造データストリームからの情報獲得が緊急の課題となっている.本研究では,このような高速半構造データストリームから有用な情報を効率よく獲得する超高速オンライン型データマイニング・システムの研究開発を行った. 平成15年度は,オンライン半構造パターン照合と半構造データマイニングの2つの情報獲得問題について,以下のように基本的なアルゴリズムを設計・開発した. (1)ネットワーク侵入検出と,移動ロボット群の動画ストリーム解析,XMLデータストリーム検索・配信等の実際のデータストリーム応用を解析し,オンライン型データマイニング・システムに必要なパターン照合問題とデータマイニング問題の洗い出しを行った(全員). (2)標準的なXPathパターンの線形時間計算可能な部分族に焦点を絞り,一方向逐次走査に基づくデータストリーム指向の半構造パターン照合手法を開発した.パターン照合のためのさまざまな有限状態機械と高速実装法を開発し,標準的なXMLストリームに直接適用可能な手法を実現した(竹田・石野,有村).さらに,Hedgeモデルに基づく新しいXMLデータ変換手法とその高速な実現法を開発した. (3)オンラインパターン発見について,滑り窓や指数的忘却技法を取り入れ,ストリームの時間変化に柔軟に追従する半構造データ向けの適応的パターン発見手法を開発した(篠原・竹田・有村).研究項目2と3で開発した半構造パターン照合技法とオンライン発見手法を元に、申請者等が開発した高速半構造パターン発見アルゴリズムFREQTをより現実的なクラスの半構造データの族が扱えるよう拡張し,データストリーム指向の高速な半構造パターン発見アルゴリズムを開発した(有村). (4)並行して,開発したアルゴリズムの計算量の理論的解析を行い,個々のアルゴリズムの最適化をおこなった(全員).
|