2011 Fiscal Year Research-status Report
クラス指向グラフパターン設計手法の開発とグラフマイニングへの応用
Project/Area Number |
23500182
|
Research Institution | Kyushu University |
Principal Investigator |
正代 隆義 九州大学, システム情報科学研究科(研究院, 准教授 (50226304)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Project Period (FY) |
2011-04-28 – 2014-03-31
|
Keywords | グラフパターン / グラフマイニング / グラフアルゴリズム / グラフ構造データ / データマイニング / 機械学習 / 機械発見 / 帰納推論 |
Research Abstract |
本研究課題の目的は、グラフ理論的なグラフクラスには現れない新しいグラフクラスの設計手法の確立と、そのグラフクラスをベースとするグラフマイニングシステムの開発を行うことである。平成23年度は、グラフ構造データベースに含まれるグラフ構造がどのように生成されたかについてグラフ上の演算・操作に着目し、グラフパターンの機械学習アルゴリズムの設計と解析を行った。 第一の結果として、cographと呼ばれるグラフクラスに対する多項式時間機械学習アルゴリズムの提案があげられる。Cographは1個の頂点から和演算と補演算を繰り返して生成できるグラフである。Cographのクラスは、ある種のスケジューリング問題や索引のクラスタリングなどで用いられている。本研究では、cographをベースとする新しいグラフパターンを設計し、その多項式時間機械学習アルゴリズムを提案した。また、本結果とともに一般のグラフをcographにする手法を用いることで、実データに対する効率の良いグラフマイニング手法の開発が期待できる。 第二の結果として、辺で結ばれた2頂点を1つの頂点に融合する操作「辺縮約」に基づくグラフ構造の新しいパターン表現の提案がある。本研究では、そのグラフ構造パターンの照合アルゴリズムを提案し、グラフ構造パターンの木幅が定数と見なせる場合、多項式時間で動作することを示した。ほとんどの化学化合物グラフは木幅が定数とみなせることから、本アルゴリズムを用いたグラフマイニングシステムを開発することで、化学化合物における新しい知識発見が期待される。 その他の結果として、ストリームデータに頻出する時系列を列挙する近似ストリームアルゴリズムの提案がある。提案したアルゴリズムは、時間変化するグラフデータの特徴をグラフパターンとして捉えるための基礎と成り得る。 以上が、本年度に得た研究実績の概要である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成23年度の研究実施計画では、主として、1.グラフパターン照合アルゴリズムの研究、2.グラフパターンクラスの探索アルゴリズムの研究、3.グラフマイニングシステムのプロトタイプの実働化、の3つに大別して研究を実施するとした。それに対して、平成23年度の研究実績では、1と2のグラフマイニングアルゴリズムの理論的研究に関して、グラフ上の操作・演算を使って定義されるCographと呼ばれるグラフクラスに対して、多項式時間で動作するグラフパターン照合アルゴリズムを開発し、実装している。それだけでなく、本格的なグラフマイニングに向けて多項式時間グラフパターン学習アルゴリズムも提案している。また、グラフ文法と密接に関連する木幅定数のグラフに対して、グラフパターンと多項式時間グラフパターン照合アルゴリズムの提案を行っている。このことにより、フォーマルシステムにより定義されるグラフクラスに対するパターン照合アルゴリズムの設計の大きな基盤を構築することができたと考えている。また、3のグラフマイニングシステムの実働化に関しては、実データ、特にネットワークトラフィックデータに対して、グラフマイニングの計算機実験を行い、悪質なマルウェアのあぶり出しを目的とするデータスクリーニング技術の開発に貢献している。一方、平成23年度の研究成果の一部は、アルゴリズムの実装と計算機上の実験結果の調整から、まだ公表が終わっていない。この公表は平成24年度に計画しており、全体的に見て、研究計画はおおむね順調に進展していると言える。
|
Strategy for Future Research Activity |
平成23年度は、主としてグラフ操作・演算に基づくグラフクラスに対して、グラフパターンと効率の良い機械学習アルゴリズムの設計を行った。またそれらの結果を一般のグラフに適用するため、グラフクラスの効率の良い変換方法も同時に考察してきた。一般のグラフのターゲットグラフクラスへの変換方法については、平成23年度に購入したマルチコアCPUコンピュータを用いて、化学化合物グラフデータやネットワークトラフィックデータを対象に既に予備実験を行って今後の研究方針に対する知見を得ている。 今後は、平成23年度の結果を踏まえ、理論と実践の両面から本格的なグラフマイニングシステムの開発を行う。理論面では、フォーマルグラフシステム(FGS)により定義されたグラフパターンクラスの機械学習の研究を行う。FGSをグラフパターンクラスの定義のために用いるため、FGS で定義されたどのクラスにも適用可能な一般化されたパターン照合アルゴリズムの設計が必要である。一方、グラフパターンクラス再設計のためには、発見されたグラフパターンから得られるメタな知識のフィードバックの仕組みが必要である。このためにはグラフパターンクラスの高速な探索アルゴリズムの設計が必要であり、これらのアルゴリズムをエンジンとして効率の良い知識の洗練化システムの実働化を行う。 グラフパターンクラスの機械学習の理論展開で得られた研究成果は、迅速に計算機実験でその実働性を評価する。グラフパターンクラスの探索には非常に多くのCPU パワーを必要とする。従って、探索アルゴリズムの設計には可能な限り高速化・省メモリ化を行う。これらの研究過程で得られた研究成果は可能な限り迅速に国内・国際会議で発表する。
|
Expenditure Plans for the Next FY Research Funding |
平成23年度の研究を推し進め、フォーマルグラフシステム(FGS)により定義されたグラフパターンクラスの機械学習アルゴリズムの研究を行う。このためには、分担者および連携研究者との定期的な研究打ち合わせを行う必要がある。また、得られた研究成果は、速やかに国内外の学会・研究集会で研究発表を行う。これらのことを踏まえ、平成24年度は、平成23年度に購入したマルチコアCPUコンピュータのソフトウェア購入、メモリー等の増設、維持管理に必要な費用を確保した上で、国内外の学会・研究集会への参加費用と研究打ち合わせに必要な費用として十分な旅費を確保する。 平成23年度に得られた研究成果の一部は、アルゴリズムの実装と計算機上の実験結果の調整から、まだ公表が終わっていない。このことから、平成23年度の収支状況報告において次年度使用額が存在するが、これは該当する研究成果を速やかに公表するための旅費として使用する計画である。これを含めて、海外発表は欧州での国際会議で延べ2回を予定している。
|