2013 Fiscal Year Annual Research Report
クラス指向グラフパターン設計手法の開発とグラフマイニングへの応用
Project/Area Number |
23500182
|
Research Institution | Kyushu University |
Principal Investigator |
正代 隆義 九州大学, システム情報科学研究科(研究院, 准教授 (50226304)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Keywords | グラフパターン / グラフマイニング / グラフアルゴリズム / グラフ構造データ / データマイニング / 機械学習 / 機械発見 / 帰納推論 |
Research Abstract |
急増するビッグデータの中には、半構造データと呼ばれるデータが多く存在する。半構造データからのデータマイニング技術の開発は我々にとって最重要な課題のひとつである。このことを踏まえ、平成25年度は、昨年度までの研究で培われたグラフ構造からのデータマイニング(グラフマイニング)のアイデアと知識を基に、グラフパターンクラス設計の基盤確立を行い、さらにグラフマイニング技術の高速化とその限界を明らかにした。 形式グラフ体系は一階述語論理の項の代わりに超グラフを扱う論理プログラムであり、グラフ文法の一つとみなすことができる。本年度の第一の結果は、形式グラフ体系により定義されるグラフパターンで,文脈決定可能かつ多項式時間質問学習可能なクラスの一つを示したことである。このことは、高い表現力と高速な機械学習を両立させるグラフパターンクラスが形式グラフ体系のクラスとの関連で議論できることを示しており、今後の研究を進める上で意義深い結果である。 第二の結果として、 半構造データに対する機械学習の高速化とその限界に関する結果をあげる。半構造データの重要な機械学習問題の一つとして、木構造データの二値分類問題がある。本研究課題では、昨年度までに、木縮約パターンと呼ばれる木構造パターンを提案し、その多項式時間機械学習について詳細に議論している。本年度は、学習の高速化を目指して,木縮約パターンによる木構造データの二値分類問題に対するマルコフ連鎖モンテカルロ法を用いたアルゴリズムを提案した。そのアルゴリズムを糖鎖データに対して適用した結果、カーネル法に基づくアルゴリズムの結果には劣るが、一つのパターンで分類を行う手法としては良好な結果を得た。また、この問題に関しては、計算困難性・近似困難性についても議論し、木縮約パターンの限界を明らかにした。 以上が、昨年度までの結果を踏まえた本年度の研究実績の概要である。
|