2003 Fiscal Year Annual Research Report
幾何構造データからの効率的なデータマイニングシステム
Project/Area Number |
14780303
|
Research Institution | Hiroshima City University |
Principal Investigator |
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
|
Keywords | 可逆的圧縮 / 幾何構造データ / 発見的手法 / 構造パターン / データマイニングシステム |
Research Abstract |
(1)平成14年度提案した幾何構造データの圧縮手法の効率化: 平成15年度は、Web文書などに代表される木構造を有するデータを対象とした可逆的圧縮手法の理論的な考察およびその実装・計算機実験を行った。一般に、幾何構造データは複雑なグラフ構造を有しているため、これまでに理論的な研究の蓄積がある木構造を有するデータに対する可逆的な圧縮手法について考察した。ひとつは、可逆的な圧縮の概念をグラフ文法で与え、多項式時間での近似困難性を示した。さらに、1つの巨大な木の圧縮を与えるグラフ文法を生成するアルゴリズムを与えた。また、アルゴリズムの有効性を示すため、計算機に実装し評価実験を行なった。もうひとつは、時系列データなどの随時データが入ってくるものを随時圧縮する手法を提案した。また、そのアルゴリズムを実装し評価実験を行い、その有効性を確認した。これらのアルゴリズムは、木の特徴を活かすことで効率性を得ているため、幾何構造データに直接応用することはできないが、「幾何構造データは位置情報を有している」という特徴を活かすことにより、木に対して開発した手法を拡張することを今後研究していく予定である。 (1)圧縮グラフデータ上のパターン照合アルゴリズムの設計: 本研究では、木構造データの圧縮を、変数を有する木と代入で表現している。これまで、木構造データを表現することができる、変数を有する木を学習するアルゴリズムについて研究を行なっている。この研究過程においてパターン照合アルゴリズムの効率化を図っている段階であり、まだ幾何構造データを対象とした効率的なパターン照合アルゴリズムの設計には至っていない。これまでの研究において、幾何構造データおよび木構造データを対象とした圧縮手法に関して多くの蓄積が得られたため、今後効率的なパターン照合アルゴリズムの開発および実装に研究の主体を移していく予定である。
|
Research Products
(5 results)
-
[Publications] T.Uchida, T.Mogawa, Y.Nakamura: "Finding Frequent Structural Features among Words in Tree-Structured Documents"Proc.PAKDD 2004. (発表予定).
-
[Publications] 中田, 佐野, 内田ら: "グラフ合成に基づく監視制御システムソフトウェアの生成"電気学会論文誌(C). Vol.124,No.1. 196-203 (2004)
-
[Publications] Y.Suzuki, T.Shoudai, T.Uchida et al.: "Efficient Learning of Ordered and Unordered Tree Patterns with Contractible Variables"Proc.ALT 2003(LNAI 2842). 114-128 (2003)
-
[Publications] K.Yamagata, T.Uchida, T.Shoudai, Y.Nakamura: "An Effective Grammar-Based Compression Algorithm for Tree Structured Data"Proc.ILP2003(LNAI 2835). 383-400 (2003)
-
[Publications] Y.Itokawa, T.Uchida, T.Shoudai, et al.: "Finding Frequent Subgraphs from Graph Structured Data with Geometric Information and Its Application to Lossless Compression"Proc.PAKDD2003(LNAI 2637). 582-594 (2003)