Project/Area Number |
20K19756
|
Research Category |
Grant-in-Aid for Early-Career Scientists
|
Allocation Type | Multi-year Fund |
Review Section |
Basic Section 60030:Statistical science-related
|
Research Institution | Osaka University |
Principal Investigator |
寺田 吉壱 大阪大学, 大学院基礎工学研究科, 准教授 (10738793)
|
Project Period (FY) |
2020-04-01 – 2024-03-31
|
Project Status |
Granted (Fiscal Year 2022)
|
Budget Amount *help |
¥2,990,000 (Direct Cost: ¥2,300,000、Indirect Cost: ¥690,000)
Fiscal Year 2022: ¥520,000 (Direct Cost: ¥400,000、Indirect Cost: ¥120,000)
Fiscal Year 2021: ¥1,300,000 (Direct Cost: ¥1,000,000、Indirect Cost: ¥300,000)
Fiscal Year 2020: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
|
Keywords | 教師なし学習 / 大規模データ / クラスタリング / 計算量削減 / 漸近理論 / 動的計画法 |
Outline of Research at the Start |
近年,データの大規模化・複雑化に伴い,教師なし分類問題の重要性が再認識されている.しかし,大規模なデータに対しては計算コストの低いk-means法のような単純な方法のみが適用されており,データの背後の分類構造を十分に捉えることができていない可能性がある.本研究では,複雑なクラスタ構造を捉えることが可能で,かつ,大規模なデータに対しても高速に実行可能なクラスタリング法を提案し,その理論的保証を与える.
|
Outline of Annual Research Achievements |
本年度は, 大規模クラスタリングの近似法に関する研究(研究1)と大規模データにも適用可能なconvex clustering algorithmの開発(研究2)を行った. (研究1)研究1では, 先行研究の母集団レベルでのズレの問題点を解決した新たなスペクトルクラスタリングの近似アルゴリズムを開発した. また, このアルゴリズムは, 本研究でこれまでに提案した密度推定を必要とする方法と異なり, 高次元データに対しても適用可能な汎用的な近似法となっている. (研究2)Convex clusteringはk-means法とは異なり局所解の問題が無く, 適切な重みを与えることで柔軟なクラスタ構造を捉えることができる. 一方で, 既存の最適化アルゴリズムは計算コストが高く, 大規模なデータに対しては適用することができなかった. 研究2では, この問題を解決するため, サンプルサイズが100万を超える大規模データに対しても適用可能なconvex clusteringのアルゴリズムを開発した. 具体的には, 一般の重みを伴ったL2 convex clusteringに対して, Majorization-Minimizationに基づく効率の良いalgorithm (CCMM) を提案した. さらに, L1 convex clusteringに対しては, 重みが木構造をもつときに効率良く最適化できることに注目し, 重みが木構造をもつ場合に限定されるが, 大規模データに適用可能な非常に効率的なアルゴリズム (TGCC) を提案した. この方法を用いれば, 100万点のデータに対して, 1分ほどでcluster pathと呼ばれる解の軌道と階層的クラスタ構造を得ることができる. CCMMに関しては論文化し, 投稿を行った.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は, 大規模データに対する近似法と大規模データに適用可能な柔軟なクラスタリング法の開発という2点において, 研究が大きく進展したため, 概ね順調に進展しているという評価とした.
|
Strategy for Future Research Activity |
来年度は, 本年度の成果のうち, 論文化できていない研究成果である近似法の理論研究とL1 convex clusteringの研究をそれぞれ論文にまとめて, 学術誌に投稿する. また, 提案手法のR言語のpackage作成と公開, 及び実データ解析への応用を目指す.
|