研究実績の概要 |
前年度に提案したDPVQは, 密度推定を必要とするため, 高次元データに対しては不安定となる. 一方で, 高次元データに対しては, k-means法による代表点の分布とデータの分布の乖離は小さい. そこで, 本年度の研究では, k-means法による代表点を用いてクラスタリングを行った場合の損失の乖離具合の評価を行った. 具体的には, normalized cutという方法に対して, k-means法による代表点を用いて近似した場合, 真の分布に対する損失代表点の収束先の分布に対する損失との差が重み付きのWasserstein距離で上からおさえられることを示した. また, 前年度の研究では, 提案手法 (DPVQ) によって生成された代表点の経験分布が母集団分布に分布収束ためには, データの次元に応じて代表点数のオーダーを変化させる必要があった. 経験的には, 次元とは関係なくサンプルサイズに対して特定のオーダーで設定すれば上手く機能している. そのため, 本年度は, より詳細な評価を行うことで, 統一的な理論の導出を試みた. また, 別の研究として, L1-convex clusteringに対する高速なアルゴリズム (C-PAINT)の開発を行った. C-PAINTは, 動的計画法に基づくアルゴリズムであり, L1-convex clusteringをサンプルサイズに対して線形な時間で実行することができる. 実際に, 一千万点のデータに対してノートPCを用いても2分弱で解を得ることができるため, 非常に大規模なデータにも適用できる.
|