研究分担者 |
竹田 正幸 九州大学, 大学院システム情報科学研究院, 教授 (50216909)
篠原 歩 東北大学, 大学院情報科学研究科, 教授 (00226151)
喜田 拓也 北海道大学, 大学院情報科学研究科, 准教授 (70343316)
坂本 比呂志 九州工業大学, 情報工学部, 准教授 (50315123)
平田 耕一 九州工業大学, 情報工学部, 准教授 (20274558)
|
研究概要 |
インターネットとWebサービス技術の急速な発展を背景として,WebページやXMLデータに代表される半構造データが,大量に流通・蓄積されるようになってきた.我々は,このような大規模半構造データに対する学習と発見の理論的基盤,及び効率的なパターン照合,データ圧縮,索引構造などの実用的処理基盤を構築し,これらの成果を高速知識発見システムに応用することを目的として研究を遂行した. 半構造データに対するパターン発見の理論研究では,木構造データのためのカーネル関数の設計と解析を行い,一般的な木構造の学習困難性が#P-完全であることを理論的に示した.本研究は,2006年度人工知能学会論文賞を受賞した.また,ストリームデータからの知識発見の理論研究としてエピソードマイニングに取り組み,直列エピソードのみから構成できるエピソードと非並列エピソードが等価になることを理論的に示した.本手法を細菌感受性検査データに適用し,効果を検証した. 半構造データ処理基盤の研究として,一方向逐次処理に基づくパスパターンの高速照合技術を開発した.本手法は,数千〜数万クエリの同時処理が可能であり,既存手法と比較して実行速度で約4〜6倍,メモリ使用量で約6倍以上の圧倒的な性能を達成した.さらに,この技術を応用し,高速かつ省メモリなXMLストリーム処理システムの開発に成功した.本システムは,一般的なXMLデータベース管理システムとは異なり,クエリ種別に対する性能依存性が極めて小さいという特徴を有する.半構造データに対する索引技術としては,グラフ上の高速な到達可能性判定を実現する効率よい索引構造を提案・実装した.本研究は第18回データ工学ワークショップ(DEWS2007)の優秀論文賞を受賞した.テキスト圧縮の研究においては,ASCIIテキストを主対象とした従来のBPE圧縮技術を日本語テキストに拡張した.さらに,圧縮パターン照合の観点からも有効な新たな圧縮法の開発に成功した.
|