2012 Fiscal Year Research-status Report
クラス指向グラフパターン設計手法の開発とグラフマイニングへの応用
Project/Area Number |
23500182
|
Research Institution | Kyushu University |
Principal Investigator |
正代 隆義 九州大学, システム情報科学研究科(研究院, 准教授 (50226304)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Keywords | グラフパターン / グラフマイニング / グラフアルゴリズム / グラフ構造データ / データマイニング / 機械学習 / 機械発見 / 帰納推論 |
Research Abstract |
本研究課題の目的は、グラフ理論的なグラフクラスには現れない新しいグラフクラスの設計手法の確立と、そのグラフクラスをベースとするグラフマイニングシステムの開発を行うことである。本年度は、昨年度に提案したグラフ構造の新しいパターン表現に対して、グラフマイニングで最も基本的なアルゴリズムである、照合アルゴリズム、学習アルゴリズム、列挙アルゴリズムを提案した。 最も扱いやすいグラフ構造データである木構造データに対するパターン表現として項木パターンがある。これは超辺置換により共通構造を柔軟に表現するが、超辺の次元次第でパターン照合問題がNP困難になる。一方、我々は昨年度に、辺縮約により共通構造を表現する木構造パターン(木縮約パターン)を導入した。木縮約パターンは頂点を変数とみなすので、項木パターンとは異なる共通構造表現が可能である。本年度は、昨年度提案した照合アルゴリズムの時間計算量を向上させ、変数頂点の次数をパラメータとするFPTアルゴリズムを提案した。また、木構造データからの効率的かつ効果的な木構造パターンマイニングを目的として、木縮約パターンの最悪多項式時間遅延列挙アルゴリズムを提案した。 一方で、グラフ系列の特徴をグラフの更新ルールとして捉えるための基盤として、ストリームデータの頻出イベント系列を列挙するストリームアルゴリズムについて研究を行った。イベント系列出現数をどのようにカウントするかは頻出イベント系列列挙の重要な鍵となる。本課題では、先着優先による頻出度カウントのもとで、精度保証付き頻出イベント系列発見ストリームアルゴリズムを提案し、実データ上で提案アルゴリズムの有効性を確認した。グラフ系列に対するストリームアルゴリズムの提案は今後の重要な課題である。 以上が、本年度に得た研究実績の概要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成24年度の研究実施計画では、主として、1。グラフパターンクラスとグラフマイニングアルゴリズムに関する研究、2。フォーマルグラフシステムにより定義されたグラフパターンクラスの機械学習理論の研究、3。基本アルゴリズムの実装、の3つに大別して研究を実施するとした。 それに対して、平成24年度の研究実績では、1のグラフパターンクラスとグラフマイニングアルゴリズムの研究に関して、ググラフマイニングで最も基本的なアルゴリズムである、照合アルゴリズム、学習アルゴリズム、列挙アルゴリズムを提案している。特に、照合アルゴリズムに関しては、FPTアルゴリズムを提案し、計算時間の理論的な向上を達成している。3の基本アルゴリズムの実装は既に終わっている。現在、本格的なグラフマイニングシステム構築に向けて、高速化・省メモリー化を行うとともに、各種グラフデータに対して、本格的な実証実験に取り組んでいる。 2に対しては、既に平成23年度の研究で、フォーマルグラフシステムと密接に関係する木幅定数のグラフに対して、既にグラフパターンと多項式時間グラフパターン照合アルゴリズムの提案を行っている。このことにより、フォーマルグラフシステムにより定義されるグラフクラスに対するパターン照合アルゴリズムの設計の大きな基盤を構築することができたと考えており、今後、1との整合性を考慮しつつ学習アルゴリズムの開発と実装を行う必要がある。 以上のことから、全体的に見て、研究計画はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
平成24年度は、グラフ構造データの新しいグラフパターン表現に対して、効率の良い照合・学習・列挙アルゴリズムを提案した。またそれらの結果を一般のグラフに適用するため、グラフクラスの効率の良い変換方法も同時に考察してきた。本研究中に提案した照合・学習・列挙アルゴリズムは、平成23年度に購入したマルチコアCPUコンピュータ上で実装され、既に化学化合物グラフデータや糖鎖データ、ネットワークトラフィックデータを対象に既に本格的な実験を行い、様々な知見を得ている。 今後は、平成23、24年度の結果を踏まえ、理論と実践の両面から本格的なグラフマイニングシステムの開発を行う。理論面では、グラフ文法やフォーマルグラフシステムにより定義されたグラフパターンクラスの機械学習の研究を行う。グラフ文法やフォーマルグラフシステムをグラフパターンクラスの定義のために用いるため、定義されたどのクラスにも適用可能な一般化されたパターン照合アルゴリズムの設計が必要である。一方、グラフパターンクラス再設計のためには、発見されたグラフパターンから得られるメタな知識のフィードバックの仕組みが必要である。このためにはグラフパターンクラスの高速な探索アルゴリズムの設計が必要であり、これらのアルゴリズムをエンジンとして効率の良い知識の洗練化システムの実働化を行う。 グラフパターンクラスの機械学習の理論展開で得られた研究成果は、迅速に計算機実験でその実働性を評価する。グラフパターンクラスの探索には非常に多くのCPU パワーを必要とする。従って、探索アルゴリズムの設計には可能な限り高速化・省メモリー化を行う。これらの研究過程で得られた研究成果は可能な限り迅速に国内・国際会議で発表する。
|
Expenditure Plans for the Next FY Research Funding |
次年度の研究費は、平成23年度に購入したマルチコアCPUコンピュータのソフトウェア購入、メモリー等の増設、維持管理に必要な費用、または分担者との研究打ち合わせに必要な旅費として使用する予定である。
|