研究分担者 |
有川 節夫 九州大学, 大学院・システム情報科学研究院, 特任教授 (40037221)
石野 明 東北大学, 大学院・情報科学研究科, 助教 (10315129)
岡本 青史 (株)富士通研究所, ナレッジ研究センター, 主任研究員 (90399717)
浅井 達哉 (株)富士通研究所, ナレッジ研究センター, 研究員 (40399720)
坂内 英夫 九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)
|
研究概要 |
以下の3つの課題を研究項目として,研究を遂行した. I. 一方向逐次処理に基づく非定型データ処理技術 前年度に開発した高速・軽量なXMLストリーム処理器XAXENに基づき,動的にパストライの構築を行う DXAXENを開発した。この処理系は,数千〜数万のクエリを同時に処理することが可能で,ストリーム処理手法として有名なXMLTK, YFilterと比較して,実行速度で約2〜7倍,メモリ使用量で約5〜20倍の圧倒的な性能を達成した. II.データ圧縮に基づく高速非定型データ処理技術 一方向逐次処理に基づく非定型データを高速化するためのもうひとつの技術として,代表者らが世界に先駆けて開発した「テキスト圧縮による高速化」技術がある.本年度は,圧縮パターン照合の観点から新 たな圧縮法を開発し,圧縮率の向上と高速化の両方を達成した. III.非定型データからのパターン発見技術 文字列の組み合わせ的性質に着目し,これから文字列データ集合における「異質性」を定量化すること に成功した.この異質性を高速かつ省メモリで計算するデータ構造とアルゴリズムを新たに開発し,Web スパム検出の問題に適用して,その有効性を確認した.
|