Research Abstract |
マイニングにおいては,頻度や相関において一定の特徴を持つ要素パターンを抽出する.一方,この研究では特に,要素間の関係分析に直結させるために,要素の関係に変化が生じたものを列挙する方式を与え,これを構造変化マイニングと呼んだ.研究計画調書執筆段階においては,複数の時間等で識別された「クラス」(本研究計画調書でいう文脈に相当)間の関係変化として,重回帰分析の精度向上に寄与する新たな説明変数の候補を,変化において顕著なパターン(本研究計画調書でいう語群に相当)から抽出することを意図していた.これは,被説明変数と構造方程式をある程度事前に与えることを想定している.しかし,被説明変数自体も抽出のターゲットにする方がより一般性がある.この立場から,正および負の相関,さらには,偏相関も扱いうるk-way相互情報量が,クラス変化の前後で増加するような(被説明変数と説明変数を内部に含む)変数パターンを検出する目標に切り替えた. この場合,k-way相互情報量を計算するためには変数の観測値に基づく個体集合の細分を,パターン探索の各段階で保持しなければならない.これは,x^2統計量に基づく相関マイニングにおいても全く同様であり,その問題点を克服するために,細分により得られる分布が独立な場合からある程度離れていることを要請する制約(独立性の帰無仮説が棄却できること)を導入し,ある程度解決できることも既に知られていた.k-way相互情報量も基本的には独立な場合とのダイバージェンスの意味での「距離」を計量しているので,本研究もそれに基づく制約を導入し,枝刈を行う方式を採用した.さらに,k-way相互情報量がクラス変化の前後で増大する条件を,変数を頂点にもつ離散グラフにおけるクリーク制約として翻訳・実装したものを,国際会議と欧文雑誌に公表した. さらに,単に上記の要請を満たす変数群をマイニングするのではなく,最適化条件を満たす変数群のみを検出する新たな最適化方式を策定・実装し,大幅な計算時間の改善を確認した.基本的にはサポート変化マイニングにおけるjumping emerging patternの考え方を,統計的・情報量的相関変化に応用したものであり,2012年7月の国際会議で公表予定である(採択済み).
|