2007 Fiscal Year Annual Research Report
Project/Area Number |
19024061
|
Research Institution | Kyushu University |
Principal Investigator |
竹田 正幸 Kyushu University, 大学院・システム情報科学研究院, 教授 (50216909)
|
Co-Investigator(Kenkyū-buntansha) |
有川 節夫 九州大学, 大学院・システム情報科学研究院, 特任教授 (40037221)
石野 明 東北大学, 大学院・情報科学研究科, 助教 (10315129)
岡本 青史 (株)富士通研究所, ナレッジ研究センター, 主任研究員 (90399717)
浅井 達哉 (株)富士通研究所, ナレッジ研究センター, 研究員 (40399720)
坂内 英夫 九州大学, 大学院・システム情報科学研究院, 准教授 (20323644)
|
Keywords | アルゴリズム / XML / XML ストリーム / 半構造データ / バターン照合 / データ圧縮 / 圧縮バターン照合 / バターン発見 |
Research Abstract |
以下の3つの課題を研究項目として,研究を遂行した. I. 一方向逐次処理に基づく非定型データ処理技術 前年度に開発した高速・軽量なXMLストリーム処理器XAXENに基づき,動的にパストライの構築を行う DXAXENを開発した。この処理系は,数千〜数万のクエリを同時に処理することが可能で,ストリーム処理手法として有名なXMLTK, YFilterと比較して,実行速度で約2〜7倍,メモリ使用量で約5〜20倍の圧倒的な性能を達成した. II.データ圧縮に基づく高速非定型データ処理技術 一方向逐次処理に基づく非定型データを高速化するためのもうひとつの技術として,代表者らが世界に先駆けて開発した「テキスト圧縮による高速化」技術がある.本年度は,圧縮パターン照合の観点から新 たな圧縮法を開発し,圧縮率の向上と高速化の両方を達成した. III.非定型データからのパターン発見技術 文字列の組み合わせ的性質に着目し,これから文字列データ集合における「異質性」を定量化すること に成功した.この異質性を高速かつ省メモリで計算するデータ構造とアルゴリズムを新たに開発し,Web スパム検出の問題に適用して,その有効性を確認した.
|
Research Products
(4 results)