2004 Fiscal Year Annual Research Report
大規模データストリームからの超高速データマイニングの研究
Project/Area Number |
15300036
|
Research Institution | Hokkaido University |
Principal Investigator |
有村 博紀 北海道大学, 大学院・情報科学研究科, 教授 (20222763)
|
Co-Investigator(Kenkyū-buntansha) |
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 教授 (50216909)
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
笠原 義晃 九州大学, 情報基盤センター, 助手 (60284577)
石野 明 九州大学, 情報基盤センター, 助手 (10315129)
喜田 拓也 北海道大学, 大学院・情報科学研究科, 助教授 (70343316)
|
Keywords | データストリーム / データマイニング / XMLデータ / 半構造データ / パターン照合 / 系列パターン / XPath / 木マイニング |
Research Abstract |
ネットワーク上を時間的に変化しながら流れる大量半構造データストリームから有用な情報を効率よく獲得する超高速オンライン型データマイニング・システムの研究開発を行った.平成16年度は,オンライン半構造パターン照合と半構造データマイニングの2つの情報獲得問題について,以下のように基本的なアルゴリズムを設計・開発した. (1)半構造データストリームマイニングの調査と定式化:ネットワーク侵入検出やXMLデータストリーム検索・配信等の実際のデータストリーム応用を解析し,ストリームデータマイニングに関する最新の技術動向の調査を行った(有村・喜田・池田・笠原). (2)ストリーム指向半構造パターン変換技術の開発:データストリームを左から右へ一方向逐次走査に基づいた新しいXMLテキスト走査技術ASAXと,高速な軽量XMLデータ処理系XMatchを開発し,実データ上で従来の主記憶にデータ木を展開するタイプのXpath処理系に対して10数倍以上の高速化と著しい記憶効率の改善を得た(有村・喜田).本成果に関する発表に対して,第一著者が情報処理学会山下記念研究賞をH16年11月に受賞した. (3)系列パターン発見について,複数のパターンのブール結合をマイニングする効率よいアルゴリズムを開発した(篠原・竹田).さらに,前年度に引き続き,ストリームの時間変化に柔軟に追従する半構造データ向けの適応的パターン発見手法を開発した(有村). (4)研究項目2と3で開発した半構造パターン照合技法とオンライン発見手法を元に、申請者等が開発したアルゴリズムFREQTを拡張し,より現実的なクラスの半構造データ族に対する高速半構造パターン発見アルゴリズムを開発した(有村).これに関連して,電子情報通信学会第14回データ工学ワークショップ優秀論文賞をH16年7月に受賞した. (5)並行して,開発したアルゴリズムの計算量の理論的解析を行い,個々のアルゴリズムの最適化をおこなった(全員).
|
Research Products
(6 results)