本研究は膨大なデータの縮約や要約によって生成されるシンボリック・データの解析法の開発が目的である。N個のシンボリック・オブジェクトがヒストグラムや区間などを値とするd種類の特徴で記述された、サイズがNxdのシンボリック・データであるとする。本研究で提案する分位数法は、Nxdのシンボリック・データを、{Nx(m+1)サブ・オブジェクト}x(d特徴)の数値データに変換する。ここでmは、1以上の整数であり、例えば4分位を用いる場合は、m=4とする。分位数による統一的な数量化の後、以下のシンボリック・データ・アナリシスの方法を開発した。1)主成分分析の方法:各シンボリック・オブジェクトは、因子平面上で、(m+1)個のサブ・オブジェクトを繋ぐm個の矢印の連鎖として表現され、各主成分の解釈も通常の方法と同様に行われる。また、分位数の性質から(m+1)個のサブ・オブジェクトはd次元ベクトルとして単調性を満たしており、主要な主成分は高い寄与率を示す。尚、単調性に注目することで、n種類のNxdデータを一括して解析可能であり、3way dataの主成分分析法として新たなツールを提供する。2)階層的概念クラスタリング:各オブジェクトが記述される特徴空間において、コンパクトネスとよぶ尺度を定め、この尺度を最小化するように階層的に概念クラスターを生成する。コンパクトネスは、オブジェクト間の親近性の尺度の役割を果たすと同時に、コンパクトネスを最小化することが、そのクラスターの概念と全概念との非類似性を最大化することを意味しており、クラスター生成のクオリティーの評価も同時に行っていることを明らかにした。3)累積概念グラフ:シンボリック・オブジェクトを単調な折れ線グラフで可視化する方法を開発した。4)回帰分析法:単調性に基づいた、ルックアップ・テーブル型回帰モデルを提案した。
|