2015 Fiscal Year Research-status Report
グラフ文法圧縮データからの省メモリ高速グラフマイニング手法の開発
Project/Area Number |
15K00313
|
Research Institution | Hiroshima City University |
Principal Investigator |
内田 智之 広島市立大学, 情報科学研究科, 准教授 (70264934)
|
Co-Investigator(Kenkyū-buntansha) |
正代 隆義 九州国際大学, 国際関係学部, 教授 (50226304)
宮原 哲浩 広島市立大学, 情報科学研究科, 准教授 (90209932)
|
Project Period (FY) |
2015-04-01 – 2019-03-31
|
Keywords | アルゴリズム / グラフ文法圧縮 / データマイニング / 機械学習 |
Outline of Annual Research Achievements |
研究課題の目的は、既存の文字列上の文法圧縮法を、超辺書換グラフ文法を用いてビッググラフデータを可逆圧縮するグラフ文法圧縮法に拡張し、グラフ文法圧縮がもたらす超効率グラフマイニング手法を開発することで、グラフ構造を有するビッググラフデータからより広くより深い知識を抽出する、省メモリ高速グラフマイニング手法を開発することである。初年度にあたる平成27年度は、主として以下の2テーマについて研究を行った。 1. グラフ文法圧縮の理論展開:文字列を対象とした文法圧縮手法について調査し、これまでに蓄積されたグラフ文法に関する知見から文脈自由グラフ文法の一つである超辺書換グラフ文法(HRGG)を用いたグラフ文法圧縮手法へ拡張する際の理論的諸問題について考察した。また、無順序木や外平面グラフのクラスを対象としたグラフ文法圧縮手法およびそれらグラフクラスの圧縮データを対象とした高速マイニング手法についても並行して研究を行った。その結果、計算量的困難が伴うグラフクラスを扱う前に、これまでに多くの知見を有している順序木のクラスを対象としたグラフ文法圧縮手法についての理論展開を行うこととした。 2. グラフ文法圧縮データに対する省メモリパターンマッチングアルゴリズムの開発:1で得られた知見をもとに、制限されたHRGGにより構造圧縮された順序木を圧縮項木と定義し、その圧縮項木上で頻出するパスを陽に展開することなく高速に枚挙するアルゴリズムを提案し、計算機上に実装を行い、人工データを用いた評価実験結果を示して提案アルゴリズムの頑強性・高速性を示した。今後、この提案手法を圧縮項木からの頻出部分木の抽出に拡張し、さらに圧縮項木データから特徴的な木構造パターンを高速に抽出する手法へと展開していく予定である。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
初年度となる平成27年度は、1. グラフ文法圧縮の理論展開、2. グラフ文法圧縮データに対する省メモリパターンマッチングアルゴリズムの開発を研究テーマとして計画した。 研究テーマ1において、文字列文法圧縮手法に関する研究成果について調査し、超辺書換グラフ文法(HRGG)圧縮へ拡張可能であることを確認した。その過程で、グラフ文法圧縮の対象とするグラフクラスをまずは順序木のクラスに限定し、与えられた巨大な順序木を生成するできるだけ小さなサイズのHRGGを構築する最適化問題について検討することにした。この検討結果から、当初計画から若干の軌道修正を行った。研究テーマ2において、1の軌道修正に基づき、制限されたHRGGにより圧縮された順序木を陽に解凍することなく頻出するパスを抽出する手法を提案し、大きな人工データを用いた評価実験を行ってその有用性を示した。 初年度である平成27年度は基礎的な理論展開を行う計画であったため、これまでに公表されている関連研究調査を行うなど、今後の理論展開の礎を築くことができたと考えている。また、対象とするグラフのクラスを制限したことで、ある制限のもとで定義されたHRGG圧縮データから陽に展開することなく頻出するパスを枚挙するアルゴリズムを提案し、計算機上に実装した上で評価実験まで行えたことは計画以上の成果だと考えている。 全体としては、軌道修正を行ったことでの遅れを考慮しても概ね順調に進展していると判断している。
|
Strategy for Future Research Activity |
グラフ文法圧縮の理論展開に関して、平成27年度に行った若干の軌道修正に基づき、今後は順序木のクラスについてできるだけ小さなサイズにグラフ文法圧縮する手法の開発と、そのグラフ文法圧縮された順序木を対象とした機械学習手法、とくに質問学習および帰納推論、について理論展開していく。また、グラフ文法圧縮された順序木に対する成果を、無順序木、TTSPグラフ、外平面的グラフへと順次拡張していく予定である。 グラフ文法圧縮データに対する省メモリパターンマッチングアルゴリズムの開発に関しては、まずは平成27年度に得られた研究成果を、より制限の少ないHRGGにより圧縮された順序木を陽に解凍することなく頻出するグラフ構造(部分木など)を抽出する手法に拡張し、さらにグラフ文法圧縮データから特徴的な木構造パターンを枚挙する手法へと展開していく予定である。そのために、平成28年度中に購入予定の計算機と現有の計算機と使って提案手法の実装およびより大きなデータを対象とした評価実験を繰り返し省メモリ・高速な手法へと昇華させていくための計算機環境を整える予定である。また、研究過程で得られた研究成果はできるだけ迅速に国内および国際会議で発表し、雑誌等へ投稿する予定である。
|
Causes of Carryover |
以下の理由により次年度使用額が生じた。 平成27年度中に得られた研究成果を国内・海外発表するための旅費やそれに伴う学会参加費、研究分担者および研究連携者間の研究打合せをSkypeミーティング等で行ったことと、研究計画の若干の軌道修正を行ったことにより、平成27年度末に購入する予定の計算機の購入時期を半年程度遅らせることとしたことによる。
|
Expenditure Plan for Carryover Budget |
平成27年度中にはまとめきれずに残ってしまった未発表成果を、国際会議あるいは国内会議で順次発表していくための旅費・学会参加費、論文投稿費等に充当する予定である。さらに、国際会議で発表した論文を順次Journalに投稿していく予定であるが、投稿前には必ず論文校正を行う必要がある。そのための費用も確保しておく必要がある。また半年程度購入時期を遅らせた計算機を平成28年度中頃には購入する予定である。
|