研究実績の概要 |
本研究の対象は2つの離散値属性間の2項関係から部分関係を抽出することによる知識発見である.知識発見が対象とする2項関係としては,買い物データの顧客と商品の関係,自然言語データにおける本文とキーワードの関係,Webページ間のリンクにおける参照元と参照先の関係がある.発見の対象となる知識として,数学的に定義された閉集合と実応用で利用されてきた密集合がある.閉集合はノイズを許さず,後者はめノイズを許容する. 本研究では,密集合を弱閉集合として,閉集合の拡張として集合論的に定式化した上で,弱閉集合間の代数的性質を明確にした.グラフ理論を用いれば,閉集合は2部グラフの完全部分グラフという解釈できることに着眼し,一般の完全グラフにノイズを許したk-Plexという概念を新たに2部グラフ向けに定義しなおした(k,l)-Plexという概念を用いることにより,弱閉集合を数学的に定義した. さらに,閉集合の高速列挙アルゴリズムであるLCMを範として,弱閉集合に対する列挙アルゴリズムを設計した.そのアルゴリズムを動作検証の用の2項関係データに適用することにより,実用上は十分効率的であることを検証した.理論上は部分グラフをすべて探索するため指数時間かかってしまうという性質も提示した. 実データとして,日本を訪問した外国人旅行者の経路を集めたデータを借用できたので,弱閉集合の考え方を経路データ向けに修正した.2項データは,顧客データの場合,一人の顧客に対して商品の有限集合が対応する一方で,経路データは,一人の旅行者の場合に,辿った経路が対応する.そこで,旅行者と経路の組に対する弱閉集合を定義したうえで,経路データからの知識発見アルゴリズムを範とした弱閉集合の列挙アルゴリズムを構築した.実データへ適用することで,外国旅行者がよく辿る経路を弱閉集合として列挙することに成功した.
|