研究課題
2019年度までに系列やグラフデータの部分構造に基づく予測マイニングの基礎方法論を整備してきた.この枠組みにより膨大な部分構造から予測に寄与する見込みのあるものをスクリーニングすることで,最適性を保証しつつ効率的な計算が可能になる.2020年度はこれらをさらに発展させ,さらに多様な問題設定を扱うことができる枠組みを構築してきた.例えば,グラフデータは非常に汎用性の高いデータの表現方法であるが,既存の方法ではグラフの頂点や辺に属性値のついたものを扱うことが難しかった.化合物や結晶のデータならグラフの頂点となる原子に様々な実数値属性が付くことが多く,グラフの接続関係だけでなく属性値も予測に重要な役割を果たし得る.このような属性付きグラフデータから,部分グラフの頂点や辺に,属性値の「区間」を付与した表現により解釈可能な表現を抽出する方法論を構築した.この場合,属性値の空間からどのように重要な区間を見出すかが問題になるが,ここでは区間パターンマイニングと呼ばれる手法と,これまでに本研究課題で構築してきた予測マイニングの枠組みを組み合わせた新たな方法論を構築した.これにより,「ある部分グラフにおいて各頂点の属性値が特定の区間に入った場合」といったより柔軟な特徴表現が現実的な計算量で可能になる.またさらに技術的な発展として,これまでデータに対する仮定としてきた単調性の制限を外す新たな枠組みを構築した.この仮定は不要なパターンを枝刈りするために本質的であったが,現実のデータ解析では必ずしも成立するとは言えないものであった.ここでは,単調性の代わりに,探索の過程に於いてパターンサイズの最大増分が定まることから得られる枝刈り基準を定義することで,最適性の保証を保ったまま提案する枠組みの適用範囲が広げられることを示した.
令和2年度が最終年度であるため、記入しない。
すべて 2021
すべて 雑誌論文 (1件) (うち国際共著 1件、 査読あり 1件、 オープンアクセス 1件) 学会発表 (2件)
Communications Biology
巻: 4 ページ: 362
10.1038/s42003-021-01878-9