クラスタリングは特に重要なデータ解析手法として、多くの分野で用いられている.本研究課題では,これまでに研究を推し進めてきた球面ファジィクラスタリングを実世界,実社会の現象や事象への適用を可能とするために,不完全データのための球面ファジィクラスタリング技法を確立することを目的にしている. 平成29年度は,リニア統計における完全情報最尤推定法に対応する球面完全化手法群を開発した.事前に欠損値の確率密度分布を決める必要があり,リニア統計では正規分布が仮定される.そこでまずは,球面統計において正規分布に対応するvon Mises-Fisher分布を仮定して球面完全化法を開発した.開発手法群の定量的性能を評価するために,手順1に基づいた実験を,開発手法群と従来法を定量的に比較するために手順2に基づいた実験を行った.完全情報最尤推定法はEMアルゴリズムに基づいていて,クラスタリングもまた混合密度分布の混合係数が未知という意味でEMアルゴリズムの枠組みで論じられることがある.その意味では,完全化とクラスタリングを同時に行って,欠損値と混合係数を合わせた未知変数を解く手法も考え,研究代表者が開発した球面クラスタリング技法群をEMアルゴリズムの枠組みで見直して,欠損値も同時に得るアルゴリズムを開発した.von Mises-Fisher分布に基づく球面クラスタリングが外れ値に影響を受けるのに対して,Pearson VII型分布に基づいて外れ値に頑健な球面クラスタリング開発を試みた.集中度パラメータを固定した場合のアルゴリズムを導出することはできたが,集中度パラメータの推定を陽に行うことが非常に難しいことが判明したため,何らかの数値解法を構築する必要があることが分かった.
|