2015 Fiscal Year Annual Research Report

形式グラフ体系の機械学習とグラフマイニングに関する研究

Research Project

Project/Area Number	26280087
Research Institution	Kyushu International University
Principal Investigator	正代隆義九州国際大学, 国際関係学部, 教授 (50226304)
Co-Investigator(Kenkyū-buntansha)	内田智之広島市立大学, 情報科学研究科, 准教授 (70264934)
Project Period (FY)	2014-04-01 – 2017-03-31
Keywords	グラフ文法 / グラフパターン / 形式体系 / 計算論的学習 / 機械学習 / 帰納推論 / グラフマイニング / グラフアルゴリズム
Outline of Annual Research Achievements	平成27年度の研究計画に従い、グラフパターン言語に対する多項式時間学習アルゴリズムの設計と解析に関する研究を行った。正例からの帰納推論は計算論的学習理論において研究の中心となる学習モデルのひとつである。正例から多項式時間帰納推論可能であるためには、グラフパターン照合・発見のための多項式時間アルゴリズムが得られること、及び帰納推論可能であるためのいくつかの条件を示すことができれば十分である。順序項木パターンは、構造的変数を持つことが出来るラベル付き順序木構造パターンで、XML文書やRNAの二次構造のような順序木構造パターンを表現することが出来る。一方、文字列パターンの研究でよく知られているタンパク質データベースPROSITEでは、文字列で表されたタンパク質のクラスを表現するパターンとして、正規パターンの変数に代入可能な文字列の長さに制約を課すPROSITEパターンが定義されている。順序木構造パターンにはPROSITEパターンのような照合する木の数値的特徴を表現するパターンは知られていなかったが、本研究では、そのようなパターンとして高さ制約付き順序項木パターンを定義し、このパターンのクラスが、変数のラベルが全て異なり、かつ変数をチェーンとして持たないとき、正例から多項式時間帰納推論可能であることを証明した。実用的側面からの研究成果として、ネットワークトラヒックデータからインターネットのインシデントを学習する手法の提案を上げる。本手法は、トラヒックデータのパケット間距離とパケットクラス分類に基づいて作成した重み付き有向グラフに対して、グラフカット半教師あり学習を適用する手法である。このような事例では、計算量理論的な効率の良さにこだわらず、確率的・近似的・発見的手法を取り入れ、実社会で支える技術の構築を目指している。以上が本研究課題で平成27年度に行った研究結果である。
Current Status of Research Progress	Current Status of Research Progress 2: Research has progressed on the whole more than it was originally planned. Reason 平成27年度の研究計画では、(1)グラフ理論的グラフクラスによるグラフパターン学習理論の進展、(2)形式グラフ体系によるグラフパターンの計算量理論的階層構造の解明、及び(3)形式グラフ体系言語の学習アルゴリズムの設計と計算論的学習理論の評価を行うこととしていた。 (1)の研究を行うにあたって、順序項木パターンの多項式時間機械学習可能性は本年度までで十分吟味したと考えている。順序項木パターンはほとんどの現実的な順序木構造データを表現できることで有望である。さらに、本研究では、主にバイオインフォマティックスにおける実用面を重視し、高さ制約付き順序項木パターンの多項式時間機械学習可能性を議論した。本研究の成果は、学術雑誌に投稿済みである。 (2)では、本研究課題開始と同時に形式グラフ体系に現れる様々な論理プログラム的パラメータによって形式グラフ体系を階層化することから始めている。そして、形式グラフ体系のパラメータ化されたクラスに対する枚挙による学習アルゴリズムを提案し、PAC学習可能な形式グラフ体系を明らかにした。この点から研究計画は順調に推移していると考える。(3)では、PAC学習以外にMAT学習についても多項式時間機械学習可能なクラスを明らかにしており、その研究成果論文の国際会議への投稿を計画中である。以上のことより、研究成果の公表が研究計画と比較してやや遅れているが、研究計画自体は順調に推移していると考えている。
Strategy for Future Research Activity	平成 27 年度の研究結果を踏まえ、研究分担者・連携研究者との緊密な情報交換のもと、以下の研究を遂行する。形式グラフ体系言語の学習アルゴリズムの設計と計算論的学習理論の評価：正例からの帰納推論は計算論的学習理論において研究の中心となる学習モでルのひとつである正例から多項式時間帰納推論可能であることを証明するには、グラフパターン照合・発見のための多項式時間アルゴリズムが得られること、及び帰納推論可能であるためのいくつかの条件を示すことできれば十分である。正例からの多項式時間帰納推論は学習ターゲットに到達するために仮ターゲットを特殊化する方向で、質問学習は一般化する方向で探索することが、それぞれの学習モでルになじみやすいことがわかっている。したがって、質問学習と正例からの帰納推論を並行して議論することで、形式グラフ体系言語の学習アルゴリズムの設計に必要な技術が明らかになると期待できる。形式グラフ体系言語によるグラフマイニングアルゴリズムの開発：論理プログラムの機械学習に関する限界は、我々のグラフパターンクラスにも同じかそれ以上に重要な問題となり得る。これには、グラフパターンクラス空間の効率の良い探索手法の確立が不可欠である。計算量理論的な効率の良さにこだわらず、積極的に確率的・近似的・発見的手法を学習アルゴリズムに取り入れ、実社会で使える技術の構築を目指す。グラフマイニングの確率化・近代化による規模耐久性の追求：グラフパターン照合・発見アルゴリズムの設計の段階から、積極的に並列アルゴリズムを考察し、マルチコア・マルチプロセッサ上で動作する並列グラフパターンアルゴリズムとして実装する方法を明らかにし、徹底的に高速化を追求する。

Research Products
(6 results)

All 2016 2015

All Journal Article (1 results) (of which Peer Reviewed: 1 results, Open Access: 1 results, Acknowledgement Compliant: 1 results) Presentation (5 results) (of which Int'l Joint Research: 1 results)

[Journal Article] An Efficient Pattern Matching Algorithm for Ordered Term Tree Patterns2015
- Author(s)
  Yusuke Suzuki, Takayoshi Shoudai, Tomoyuki Uchida, Tetsuhiro Miyahara
- Journal Title
  
  IEICE Transactions on Fundamentals of Electronics, Communications and Computer Sciences
  
  Volume: E98-A Pages: 1197-1211
- DOI
  10.1587/transfun.E98.A.1197
- Peer Reviewed / Open Access / Acknowledgement Compliant
[Presentation] A Semi-Supervised Data Screening for Network Traffic Data using Graph Min-Cuts2016
- Author(s)
  正代隆義, 村井光, 岡本敦
- Organizer
  情報処理学会第107回数理モデル化と問題解決(MPS)研究会
- Place of Presentation
  山口湯田温泉山口健康づくりセンター
- Year and Date
  2016-03-08 – 2016-03-08
[Presentation] Acquisition of Multiple Tree Structured Patterns by an Evolutionary Method using Sets of Tag Tree Patterns as Individuals2015
- Author(s)
  Shotarou Tani, Tetsuhiro Miyahara, Yusuke Suzuki, Tomoyuki Uchida
- Organizer
  4th IIAI International Congress on Advanced Applied Informatics (AAI 2015)
- Place of Presentation
  Okayama Convention Center
- Year and Date
  2015-07-16 – 2015-07-16
- Int'l Joint Research
[Presentation] 文脈決定正則形式グラフ体系の多項式時間MAT学習2015
- Author(s)
  正代隆義
- Organizer
  第13回論理と計算セミナー
- Place of Presentation
  福岡工業大学
- Year and Date
  2015-07-04 – 2015-07-04
[Presentation] 構造データからの頻出多ポート項木パターン枚挙アルゴリズム2015
- Author(s)
  糸川裕子, 内田智之
- Organizer
  2015人工知能学会全国大会
- Place of Presentation
  公立はこだて未来大学
- Year and Date
  2015-05-31 – 2015-05-31
[Presentation] VLDC木パターン集合を個体とする進化的手法による複合的木構造パターンの獲得2015
- Author(s)
  中居翔平, 宮原哲浩, 鈴木祐介, 久保山哲二, 内田智之
- Organizer
  2015人工知能学会全国大会
- Place of Presentation
  公立はこだて未来大学
- Year and Date
  2015-05-30 – 2015-05-31

2015 Fiscal Year Annual Research Report

形式グラフ体系の機械学習とグラフマイニングに関する研究

Principal Investigator

正代 隆義 九州国際大学, 国際関係学部, 教授 (50226304)

Current Status of Research Progress

Reason

Research Products

[Journal Article] An Efficient Pattern Matching Algorithm for Ordered Term Tree Patterns2015

Author(s)

Journal Title

DOI

[Presentation] A Semi-Supervised Data Screening for Network Traffic Data using Graph Min-Cuts2016

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] Acquisition of Multiple Tree Structured Patterns by an Evolutionary Method using Sets of Tag Tree Patterns as Individuals2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 文脈決定正則形式グラフ体系の多項式時間MAT学習2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] 構造データからの頻出多ポート項木パターン枚挙アルゴリズム2015

Author(s)

Organizer

Place of Presentation

Year and Date

[Presentation] VLDC木パターン集合を個体とする進化的手法による複合的木構造パターンの獲得2015

Author(s)

Organizer

Place of Presentation

Year and Date

正代隆義九州国際大学, 国際関係学部, 教授 (50226304)