シンボリック・データ・アナリシスは、膨大なデータの統合・要約で生ずるシンボリック・データ(ヒストグラム、区間、有限集合などの記述による、複雑なデータ)の解析を目的としている。分位数法は、ヒストグラム、区間、有限集合などを、背景となる累積分布関数の利用によって、予め定められた個数の分位数に帰着することができる。これによって、与えられたシンボリック・データは、統一的に通常の数値データに変換可能であり、一般的な数量化の方法が実現されることになる。このような考え方に基づいて、本年度は、以下に述べる、「分位数法に基づく主成分分析法(Statistical Analysis and Data Miningに掲載確定)」の成果を得た。 d種類の特徴(属性)により記述された、N個のオブジェクトから成る(Nオブジェクト)×(d特徴)のシンボリック・データが与えられたとする。分位数に基づく主成分分析法では、予め整数m(例えば4分位法ではm=3)を選択することで、各オブジェクトに対する各特徴値(ヒストグラム、区間、有限集合など)を、(m+1)個の数値の組に変換する。さらに、d特徴に関するオブジェクト系列の単調性が、各特徴に関する入れ子の構造で規定される性質を利用することで、与えられたN個のオブジェクトのそれぞれが、d特徴による(m+1)個の部分オブジェクトに分解可能となる。したがって、与えられたシンボリック・データは、{N×(m+1)部分オブジェクト}×(d特徴)の標準的数値データに還元される。その後、順位相関行列の固有値問題を通じて、通常の主成分分析を適用可能としている。この方法においては、各シンボリック・オブジェクトは、因子平面上で、(m+1)個の部分オブジェクトを結ぶm個の矢印の連鎖として表示され、オブジェクトの性質が一連の矢印の長さや向きによって表現される。
|