2002 Fiscal Year Annual Research Report
幾何構造データからの効率的なデータマイニングシステム
Project/Area Number |
14780303
|
Research Institution | Hiroshima City University |
Principal Investigator |
内田 智之 広島市立大学, 情報科学部, 助教授 (70264934)
|
Keywords | 可逆的圧縮 / 幾何構造データ / 発見的手法 / 構造パターン / データマイニングシステム |
Research Abstract |
(1)幾何構造データのグラフ表現とその圧縮手法の開発: 2000年に、申請者は幾何構造データをグラフで表現するために、変数をもち、頂点間の位置関係を辺としてもつようなレイアウト項グラフという新しいグラフの概念を提案している。このレイアウト項グラフと論理プログラミングの代入の概念を使い、文字列上の可逆圧縮手法のひとつであるLZ圧縮手法を幾何構造データの可逆圧縮に拡張した手法を提案した。この手法は、圧縮する対象である幾何構造データに複数出現する部分グラフを変数で置き換えることにより、圧縮を実現する手法である。このため、複数出現する部分グラフを見つける発見的手法をまず提案し、その後複数の圧縮手法の提案を行った。さらに、平成14年度購入したワークステーションで計算機上に実装し、提案手法の評価実験を行った。その結果、ランダムに自動生成された幾何構造データのサンプルデータを用いたため、20パーセント程度しか圧縮することができなかった。さらに、時間的な評価として、圧縮する部分構造発見後に行う圧縮そのものにかかる時間と比べ、前処理としての複数出現する部分構造の発見に多大な時間を要しており、この時間短縮が急務であるという指針を得た。その解決策として、一般のグラフに対して頻出する部分グラフを見つける手法が幾つか提案されているが、それらを精査し本研究に応用できるか否かを含め、新たなる手法の提案を行う予定である。 (2)圧縮グラフデータ上のパターン照合アルゴリズムの設計: レイアウト項グラフ上のグラフ同型問題は多項式時間で解くことができるが、部分グラフ同型問題はNP完全であることが分かった。これにより、圧縮グラフデータそのものを対象とするパターン照合アルゴリズムの効率化には、近似的な手法やPCクラスタリングなどの分散処理手法などさらなる高速化に向けた手法の開発が必要であるという指針を得た。
|
Research Products
(6 results)
-
[Publications] Y.Itokawa, T.Uchida, et al.: "Finding Frequent Subgraphs from Graph Structured Data with Geometric Information and Its Application to Lossless Compression"Proc. PAKDD 2003. (発表予定).
-
[Publications] 糸川裕子, 内田智之, 正代隆義, 宮原哲浩, 中村泰明: "グラフパターンを用いた幾何構造データの可逆的な圧縮手法"人工知能学会研究会資料(SIG-FAI-A202-13). 73-78 (2002)
-
[Publications] Y.Suzuki, T.Shoudai, T.Miyahara, T.Uchida: "Ordered Term Tree Languages Which Are Polynomial Time Inductively Inferable from Positive Data"Proc. ALT 2002 (LNAI 2533). 188-202 (2002)
-
[Publications] Y.Suzuki, T.Uchida, et al.: "Polynomial Time Inductive Inference of Ordered Tree Patterns with Internal Structured Variables from Positive Data"Proc. COLT 2002 (LNAI 2375). 169-184 (2002)
-
[Publications] K.Furukawa, T.Uchida, et al.: "Extracting Characteristic Structures among Words in Semistructured Documents"Proc. PAKDD 2002 (LNAI 2336). 356-367 (2002)
-
[Publications] T.Miyahara, T.Uchida, et al.: "Discovery of Frequent Tag Tree Patterns in Semistructured Web Documents"Proc. PAKDD 2002 (LNAI 2336). 341-355 (2002)