2009 Fiscal Year Annual Research Report
二分決定グラフに基づく大規模半構造データベースの効率的解析処理の研究
Project/Area Number |
09J01891
|
Research Institution | Hokkaido University |
Principal Investigator |
岩崎 玄弥 Hokkaido University, 大学院・情報科学研究科, 特別研究員(DC2)
|
Keywords | データマイニング / 二分決定グラフ / BDD / ZDD / WZDD |
Research Abstract |
本研究では,二分決定木に対して簡約化規則を適用することで得られる二分決定グラフ(BDD : Binary Decision Diagrams)というデータ構造を用いて,半構造データを解析処理する手法を開発することを目的とする.また,1993年に申請者の所属研究室の准教授である湊によって提案されたゼロサプレス型二分決定グラフ(ZDD : Zero-suppressed BDD)は,疎な組合せ集合データをBDDよりも効率よく扱うことができることで国際的に広く知られている. これまでの我々の研究によって,ZDDを有効に利用するための基盤技術が整いつつあるが,一方,現実のデータマイニングの問題では,ウェブページやXML文書に代表される半構造データの利用が進んでおり,データに対する効率のよい解析手法が求められている.しかし,半構造データはRDBなどと違い,明示的な構造を持たないので,RDBを対象とした従来のデータマイニング手法をそのまま半構造データに適用することは困難である. Weighted ZDD (WZDD)というものがE.Loekitoらにより提案された.WZDDはZDDの特殊な形態のもので,アイテムの組合せの頻度を効率よく表現できるという特徴を持っている.ZDDで頻度を表す手法としてZDD-Vectorが湊により提案されているが,申請者らはこれらのデータ構造を用いて頻出パタンを抽出し,比較する実験を行った.結果,両手法とも膨大な頻出パタンを効率よく表現できていることがわかった.また,節点数のに関して,使用したデータベースによって結果に違いが見られた.これらの研究結果に関して,Sixth Workshop on Learning with Logic and Logic for Learning (LLLL2009)にて発表を行った.
|