Research Abstract |
年度初頭に示した研究計画で述べた研究項目は下記のAおよびBの2つである. 研究項目A:構造変化マイニングにおいていかなる構造を抽出できるかは,主要なクラスターや概念間の類似性・近接性および非類似性・非近接性の定義にも依存する.一つの有力な定義は,相関・非相関であることには言うまでもないが,研究項目Aにおいては,確率変数間の相関が時間やトピックに応じて,非相関の状態からある程度相関した状態に変化する現象を検出する問題を考えた.相関の尺度としては,データベースのサイズに対して比較的に安定的である,多変数のカルバックライブラー情報量で定め,相関の向上を実現する変数群を枚挙するアルゴリズムを設計・実装・評価した.情報量を用いる理由は,負の相関や,条件付けして初めて検出できる相関(偏相関も含む)も扱えることによる.相関変化に寄与しない変数群を効率的に排除するためのWクリーク制約,冗長な変数を排除し収束を早めるための経験則,などもとりいれたものである.実験結果は,速度,品質ともに良好であり,通常のエマージングパターンやコントラスと法では検出が困難なものを検出できた.成果は既に国際会議に投稿済みである. 研究項目B:これはトッピック毎に作成したデータベース間での変化を検出する.主要な複数のクラスター間の関連性を調べるための基本手法として位置づけている.今年度は,2つのデータベース間に対して実施した.相関尺度としては研究項目Aで用いた情報量を使うことも可能であるが,情報量の計算にはデータ集合の分割を動的に計算・保持する必要性があり,大規模なデータに対してはメモリ効率が一般に悪いことから,自己相関行列から定義されるグラフに対するクラスタリング法を拡張し,相関変化発見にも使える新たな方式を与えた.クラスタリング法に準拠することから,一種の最適化問題の解法を与えることになる.本研究においては,分枝限定法に基づく制約付き最適化問題として定式化したが,相関が変化しない変数の組合せをできうる限り回避する探索が実現されており,よって,相関変化検出器として高速な探索が実現されている.成果の公表状況は,国内学会発表予定,国際会議は投稿論文を執筆中である.
|