2021 Fiscal Year Research-status Report
大規模・複雑データに対するクラスタリング法の開発とその理論的性質の解明
Project/Area Number |
20K19756
|
Research Institution | Osaka University |
Principal Investigator |
寺田 吉壱 大阪大学, 基礎工学研究科, 講師 (10738793)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 計算量削減 / 漸近理論 / 動的計画法 |
Outline of Annual Research Achievements |
前年度に提案したDPVQは, 密度推定を必要とするため, 高次元データに対しては不安定となる. 一方で, 高次元データに対しては, k-means法による代表点の分布とデータの分布の乖離は小さい. そこで, 本年度の研究では, k-means法による代表点を用いてクラスタリングを行った場合の損失の乖離具合の評価を行った. 具体的には, normalized cutという方法に対して, k-means法による代表点を用いて近似した場合, 真の分布に対する損失代表点の収束先の分布に対する損失との差が重み付きのWasserstein距離で上からおさえられることを示した. また, 前年度の研究では, 提案手法 (DPVQ) によって生成された代表点の経験分布が母集団分布に分布収束ためには, データの次元に応じて代表点数のオーダーを変化させる必要があった. 経験的には, 次元とは関係なくサンプルサイズに対して特定のオーダーで設定すれば上手く機能している. そのため, 本年度は, より詳細な評価を行うことで, 統一的な理論の導出を試みた. また, 別の研究として, L1-convex clusteringに対する高速なアルゴリズム (C-PAINT)の開発を行った. C-PAINTは, 動的計画法に基づくアルゴリズムであり, L1-convex clusteringをサンプルサイズに対して線形な時間で実行することができる. 実際に, 一千万点のデータに対してノートPCを用いても2分弱で解を得ることができるため, 非常に大規模なデータにも適用できる.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
提案手法であるDPVQの理論的性質の解明において, データの次元に対して統一的な理論の導出に時間がかかっており, 成果の論文化に遅れが生じている.
|
Strategy for Future Research Activity |
共同研究者との議論を積極的に行うことで, 新しい証明のアプローチを検討する. また, 国内外の学会で発表をすることで, 様々な研究者と議論を深める.
|
Causes of Carryover |
新型コロナウイルスの影響で, 国内外の研究者との対面での打ち合わせや学会への参加が難しかったため, 次年度使用額が生じた. オンラインでの議論には限界があるため, 2022年度は可能な限り対面での研究打ち合わせを行う.
|
Research Products
(4 results)