2022 Fiscal Year Research-status Report
大規模・複雑データに対するクラスタリング法の開発とその理論的性質の解明
Project/Area Number |
20K19756
|
Research Institution | Osaka University |
Principal Investigator |
寺田 吉壱 大阪大学, 大学院基礎工学研究科, 准教授 (10738793)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Keywords | 教師なし学習 / 大規模データ / クラスタリング |
Outline of Annual Research Achievements |
本年度は, 大規模クラスタリングの近似法に関する研究(研究1)と大規模データにも適用可能なconvex clustering algorithmの開発(研究2)を行った. (研究1)研究1では, 先行研究の母集団レベルでのズレの問題点を解決した新たなスペクトルクラスタリングの近似アルゴリズムを開発した. また, このアルゴリズムは, 本研究でこれまでに提案した密度推定を必要とする方法と異なり, 高次元データに対しても適用可能な汎用的な近似法となっている. (研究2)Convex clusteringはk-means法とは異なり局所解の問題が無く, 適切な重みを与えることで柔軟なクラスタ構造を捉えることができる. 一方で, 既存の最適化アルゴリズムは計算コストが高く, 大規模なデータに対しては適用することができなかった. 研究2では, この問題を解決するため, サンプルサイズが100万を超える大規模データに対しても適用可能なconvex clusteringのアルゴリズムを開発した. 具体的には, 一般の重みを伴ったL2 convex clusteringに対して, Majorization-Minimizationに基づく効率の良いalgorithm (CCMM) を提案した. さらに, L1 convex clusteringに対しては, 重みが木構造をもつときに効率良く最適化できることに注目し, 重みが木構造をもつ場合に限定されるが, 大規模データに適用可能な非常に効率的なアルゴリズム (TGCC) を提案した. この方法を用いれば, 100万点のデータに対して, 1分ほどでcluster pathと呼ばれる解の軌道と階層的クラスタ構造を得ることができる. CCMMに関しては論文化し, 投稿を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は, 大規模データに対する近似法と大規模データに適用可能な柔軟なクラスタリング法の開発という2点において, 研究が大きく進展したため, 概ね順調に進展しているという評価とした.
|
Strategy for Future Research Activity |
来年度は, 本年度の成果のうち, 論文化できていない研究成果である近似法の理論研究とL1 convex clusteringの研究をそれぞれ論文にまとめて, 学術誌に投稿する. また, 提案手法のR言語のpackage作成と公開, 及び実データ解析への応用を目指す.
|
Causes of Carryover |
新型コロナウィルスの影響で, 国際会議に対面での参加ができなかったため, 差額が生じた. 次年度は, 論文の英文校閲費と国際会議への対面参加のための旅費に用いる.
|
Research Products
(7 results)