2015 Fiscal Year Annual Research Report
形式グラフ体系の機械学習とグラフマイニングに関する研究
Project/Area Number |
26280087
|
Research Institution | Kyushu International University |
Principal Investigator |
正代 隆義 九州国際大学, 国際関係学部, 教授 (50226304)
|
Co-Investigator(Kenkyū-buntansha) |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Project Period (FY) |
2014-04-01 – 2017-03-31
|
Keywords | グラフ文法 / グラフパターン / 形式体系 / 計算論的学習 / 機械学習 / 帰納推論 / グラフマイニング / グラフアルゴリズム |
Outline of Annual Research Achievements |
平成27年度の研究計画に従い、グラフパターン言語に対する多項式時間学習アルゴリズムの設計と解析に関する研究を行った。 正例からの帰納推論は計算論的学習理論において研究の中心となる学習モデルのひとつである。正例から多項式時間帰納推論可能であるためには、グラフパターン照合・発見のための多項式時間アルゴリズムが得られること、及び帰納推論可能であるためのいくつかの条件を示すことができれば十分である。順序項木パターンは、構造的変数を持つことが出来るラベル付き順序木構造パターンで、XML文書やRNAの二次構造のような順序木構造パターンを表現することが出来る。一方、文字列パターンの研究でよく知られているタンパク質データベースPROSITEでは、文字列で表されたタンパク質のクラスを表現するパターンとして、正規パターンの変数に代入可能な文字列の長さに制約を課すPROSITEパターンが定義されている。順序木構造パターンにはPROSITEパターンのような照合する木の数値的特徴を表現するパターンは知られていなかったが、本研究では、そのようなパターンとして高さ制約付き順序項木パターンを定義し、このパターンのクラスが、変数のラベルが全て異なり、かつ変数をチェーンとして持たないとき、正例から多項式時間帰納推論可能であることを証明した。 実用的側面からの研究成果として、ネットワークトラヒックデータからインターネットのインシデントを学習する手法の提案を上げる。本手法は、トラヒックデータのパケット間距離とパケットクラス分類に基づいて作成した重み付き有向グラフに対して、グラフカット半教師あり学習を適用する手法である。このような事例では、計算量理論的な効率の良さにこだわらず、確率的・近似的・発見的手法を取り入れ、実社会で支える技術の構築を目指している。 以上が本研究課題で平成27年度に行った研究結果である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
平成27年度の研究計画では、(1)グラフ理論的グラフクラスによるグラフパターン学習理論の進展、(2)形式グラフ体系によるグラフパターンの計算量理論的階層構造の解明、及び(3)形式グラフ体系言語の学習アルゴリズムの設計と計算論的学習理論の評価を行うこととしていた。 (1)の研究を行うにあたって、順序項木パターンの多項式時間機械学習可能性は本年度までで十分吟味したと考えている。順序項木パターンはほとんどの現実的な順序木構造データを表現できることで有望である。さらに、本研究では、主にバイオインフォマティックスにおける実用面を重視し、高さ制約付き順序項木パターンの多項式時間機械学習可能性を議論した。本研究の成果は、学術雑誌に投稿済みである。 (2)では、本研究課題開始と同時に形式グラフ体系に現れる様々な論理プログラム的パラメータによって形式グラフ体系を階層化することから始めている。そして、形式グラフ体系のパラメータ化されたクラスに対する枚挙による学習アルゴリズムを提案し、PAC学習可能な形式グラフ体系を明らかにした。この点から研究計画は順調に推移していると考える。(3)では、PAC学習以外にMAT学習についても多項式時間機械学習可能なクラスを明らかにしており、その研究成果論文の国際会議への投稿を計画中である。 以上のことより、研究成果の公表が研究計画と比較してやや遅れているが、研究計画自体は順調に推移していると考えている。
|
Strategy for Future Research Activity |
平成 27 年度の研究結果を踏まえ、研究分担者・連携研究者との緊密な情報交換のもと、以下の研究を遂行する。 形式グラフ体系言語の学習アルゴリズムの設計と計算論的学習理論の評価:正例からの帰納推論は計算論的学習理論において研究の中心となる学習モでルのひとつである正例から多項式時間帰納推論可能であることを証明するには、グラフパターン照合・発見のための多項式時間アルゴリズムが得られること、及び帰納推論可能であるためのいくつかの条件を示すことできれば十分である。正例からの多項式時間帰納推論は学習ターゲットに到達するために仮ターゲットを特殊化する方向で、質問学習は一般化する方向で探索することが、それぞれの学習モでルになじみやすいことがわかっている。したがって、質問学習と正例からの帰納推論を並行して議論することで、形式グラフ体系言語の学習アルゴリズムの設計に必要な技術が明らかになると期待できる。 形式グラフ体系言語によるグラフマイニングアルゴリズムの開発:論理プログラムの機械学習に関する限界は、我々のグラフパターンクラスにも同じかそれ以上に重要な問題となり得る。これには、グラフパターンクラス空間の効率の良い探索手法の確立が不可欠である。計算量理論的な効率の良さにこだわらず、積極的に確率的・近似的・発見的手法を学習アルゴリズムに取り入れ、実社会で使える技術の構築を目指す。 グラフマイニングの確率化・近代化による規模耐久性の追求:グラフパターン照合・発見アルゴリズムの設計の段階から、積極的に並列アルゴリズムを考察し、マルチコア・マルチプロセッサ上で動作する並列グラフパターンアルゴリズムとして実装する方法を明らかにし、徹底的に高速化を追求する。
|
Research Products
(6 results)