2014 Fiscal Year Annual Research Report
形式グラフ体系の機械学習とグラフマイニングに関する研究
Project/Area Number |
26280087
|
Research Institution | Kyushu International University |
Principal Investigator |
正代 隆義 九州国際大学, 国際関係学部, 教授 (50226304)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | グラフ文法 / グラフパターン / 形式体系 / 計算論的学習 / 機械学習 / 帰納推論 / グラフマイニング / グラフアルゴリズム |
Outline of Annual Research Achievements |
平成26年度の研究計画に従って、次の1と2に関する研究を行った。 1.グラフ理論的グラフクラスによるグラフパターン学習理論の進展:GとHを無向グラフとし、Gを辺縮約によってHに変換できるかを考える。ただし、次のような条件を設定する。Hの頂点集合の部分集合Uを指定する。HのUに属さない頂点vは、vへ縮約されるGの頂点数がちょうど1個となる頂点とする。本研究課題では、グラフHの頂点のうち、独立かつ次数2の頂点をUの頂点と指定すると、Hが部分k-木である場合に、GからHへの変換が多項式時間計算可能であることを証明した。この定理を踏まえ、新たに部分k-木縮約パターンという新しいグラフパターンを導入した。特に、部分1-木縮約パターン、これを単に木縮約パターンと呼ぶ、に関して、順序木集合が与えられたとき、それらに共通する木縮約パターンを発見する問題を最適化問題として定式化し、その問題の計算量理論的下界を数学的に証明した。 2.形式グラフ体系によるグラフパターンの計算量理論的階層構造の解明:形式グラフ体系とは、グラフを項として直接扱うことが出来る一種の論理プログラムである。本研究課題では、文脈決定正則形式グラフ体系を形式グラフ体系のサブクラスとして導入し、そのクラスにより生成されるグラフ言語の全体が、多項式時間で教師付き学習(MAT)可能であることを数学的に証明した。また、形式グラフ体系により設計されたグラフパターンクラスのPAC学習可能性についても論じた。PAC学習とは、学習アルゴリズムの出す仮説に誤差を許す学習モデルで、現実世界のでータを扱う際、でータの揺らぎを許容できるので都合がよい。本研究課題では、形式グラフ体系がPAC学習可能であるための十分条件を数学的に証明した。 以上が本研究課題で平成26年度に行った研究結果である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成26年度の研究計画では、1.グラフ理論的グラフクラスによるグラフパターン学習理論の進展、及び2.形式グラフ体系によるグラフパターンの計算量理論的階層構造の解明を行うこととしていた。 1の研究を行うにあたって、これまで我々によって提案された区間グラフパターン、外平面的グラフパターン、Cographパターン、TTSPグラフパターン、部分k-木パターンの表現能力と多項式時間機械学習可能性を十分吟味した。その中でも、部分k-木パターンはほとんどの現実的なグラフ構造データを表現できることで有望であるが、計算量理論的な限界のため文字列パターンの変数に対応する頂点の次数を上げられない欠点があった。そこで、本研究課題では、それを克服するために、辺縮約によるグラフパターン、部分k-木縮約パターンを導入し、その多項式時間パターンマッチングアルゴリズムを提案した。本アルゴリズムを基盤とし、今後の研究として、部分k-木縮約パターンの多項式時間機械学習理論を展開していくことが可能である。 2ではまず、形式グラフ体系に現れる様々な論理プログラム的パラメータによって形式グラフ体系を階層化することから始めた。本研究課題では、その中で、多項式次元を持つクラスを明らかにした。また、同時に枚挙による学習アルゴリズムを提案することで、PAC学習可能な形式グラフ体系を明らかにした。これは形式グラフ体系全体の多項式時間機械学習可能性を議論する上で必要不可欠な結果であり、形式グラフ体系の機械学習理論の基盤のひとつと成りうるものである。また、PAC学習以外にMAT学習についても多項式時間機械学習可能なクラスを明らかにしており、今後の展開によっては、学習モデルの違いによる学習可能性の解明も期待できる。 以上のことより、研究計画は順調に遂行されていると判断される。
|
Strategy for Future Research Activity |
平成 26 年度の研究結果を踏まえ、研究分担者・連携研究者との緊密な情報交換のもと、以下の研究を遂行する。 形式グラフ体系によるグラフパターンの計算量理論的階層構造の解明:計算論的学習理論の主要な学習モデルのひとつである質問学習について、形式グラフ体系により生成されるグラフ言語の学習可能性を検証する。そして、形式グラフ体系によるグラフパターンクラスを統一的に扱える効率の良いグラフパターン学習アルゴリズムの設計を行う。 形式グラフ言語の学習アルゴリズムの設計と計算論的学習理論の評価:正例からの帰納推論は計算論的学習理論において研究の中心となる学習モデルのひとつである正例から多項式時間帰納推論可能であることを証明するには、グラフパターン照合・発見のための多項式時間アルゴリズムが得られること、及び帰納推論可能であるためのいくつかの条件を示すことできれば十分である。正例からの多項式時間帰納推論は学習ターゲットに到達するために仮ターゲットを特殊化する方向で、質問学習は一般化する方向で探索することが、それぞれの学習モデルになじみやすいことがわかっている。したがって、質問学習と正例からの帰納推論を並行して議論することで、形式グラフ言語の学習アルゴリズムの設計に必要な技術が明らかになると期待できる。 形式グラフ言語によるグラフマイニングアルゴリズムの開発:論理プログラムの機械学習に関する限界は、我々のグラフパターンクラスにも同じかそれ以上に重要な問題となる。これには、グラフパターンクラス空間の効率の良い探索手法の確立が不可欠である。計算量理論的な効率の良さにこだわらず、積極的に確率的・近似的・発見的手法を取り入れ、実社会で使える技術の構築を目指す。
|
Causes of Carryover |
次年度使用額が生じることとなった理由は次の3点である。1.平成26年度に達成した初期段階の成果を発表する場として第12回文法推論に関する国際会議(The 12th International Conference on Grammatical Inference)を予定していたが、同国際会議の開催地が国内となったため、旅費の使用額が少なく終わったこと。2.平成27年度に掲載確定している論文の掲載料を確保する必要があること。3.平成27年度に当初予定していなかった国際会議に論文投稿を計画しており、その旅費を確保する必要があること。以上の理由により約55万円を次年度使用とした。
|
Expenditure Plan for Carryover Budget |
平成27年度は主として、形式グラフ言語の学習アルゴリズムの設計と計算論的学習理論の評価を行う。そのため、計算機による評価を十分に行う必要がある。平成26年度において理論をサポートするための計算機実験を行うに必要な計算機と種々のハードウェアの準備は終わったので、平成27年度前半に計算機に導入することができるソフトウェアを整備し、同年度後半には本格的な計算機実験を開始する計画である。この計画には特に、本課題の研究分担者と連携研究者との頻繁な打ち合わせ及び共同作業が不可欠である。そのことを考慮し、十分な通信費と旅費を確保する。経費の使用には平成27年度に未使用である分の予定を最優先し、研究成果は可能な限り迅速に国内・国際会議及び学術雑誌等で発表することとする。
|
Research Products
(8 results)