クラスタリングはデータの規則性や構造を発見する手法として知られている。近年では、大規模データに潜む因果関係や相互作用の解明を目的として、グラフデータのクラスタリング(グラフクラスタリング)が注目を集めている。しかしグラフデータは、個体間の情報を表現するという特徴ゆえに、構造的ゆらぎを避けることができない。そこで本研究では、ゆらぎの無視から重視という発想の転換を着想とする新たな知識融合型クラスタリングの構築に取り組んだ。また、大規模・不確実・不確定なデータを柔軟に処理するデータ解析の新たな方法論の構築に取り組んだ。 平成30年度は研究計画に従い、知識ベースに基づくグラフクラスタリングの再開発による大規模データマイニングの実用化について番号順に実施した。1.知識ベースの再構築と数理モデルの検討を進めるために、これまでの検討に加えて、サイズ均等、位相的データ解析などを用いた数理モデルの開発に取り組んだ。2.クラスタリングで大規模データを扱う際の課題である最適クラスタ数の検討について、定量的評価指標である妥当性基準および自動推定アルゴリズムであるx-medoidsを構築した。これらの手法は、拡散カーネルなどを用いて重み付けを行うことで、重みなし・重みありのグラフデータを扱うことが可能である。開発手法について、分類性能、クラスタ数の推定、計算時間について評価したところ、一部の開発手法においてグラフクラスタリングの代表的手法であるLouvain法を上回る結果となった。3. 大規模データを高速に解析し、有用な情報を抽出する新たなクラスタリング手法を開発するために、位相的データ解析の諸技法をクラスタリングに導入することを検討した。これまでのところ、ベクトルデータに対するアルゴリズムを構築し、分類規則の観点からその特徴を明らかにした。
|