シンボリック・データ・アナリシスは、膨大なデータの統合・要約で生ずる、シンボリック・データ(ヒストグラム、区間、有限集合などの記述による複雑なデータ)の解析を目的としている。ヒストグラム、区間、有限集合などによる記述から、適当な分布関数を介して分位数に還元する方法は、シンボリック・データを数値データに帰着させる、統一的な数量化の方法を提供する。本課題の成果として、シンボリック・データに対して、分位数の単調性に基づく、主成分分析の方法を開発した。分位数法による主成分分析においては、d個の特徴で記述される各シンボリック・オブジェクト(事例)が、予め選択された分位数mに対して、(m+1)個のd次元(数値)ベクトル(サブオブジェクト)の組として表現される。従って、与えられたN(オブジェクト)×(d特徴)のシンボリック・データは、(N×(m+1)サブオブジェクト)×(d特徴)の数値データに変換される。変換後の数値データに対して、SpearmanもしくはKendallの順位相関行列に基づく主成分分析を実行する。各シンボリック・オブジェクトは、因子平面上で、(m+1)個のサブオブジェクトの連鎖として再現される。本方法の有用性は、Journal of Statistical Analysis and Data Miningに報告した。
|