2019 Fiscal Year Research-status Report
Construction of convex optimization schemes for large-scale subspace clustering and its theoretical guarantees
Project/Area Number |
19K20336
|
Research Institution | The University of Tokyo |
Principal Investigator |
松島 慎 東京大学, 大学院情報理工学系研究科, 准教授 (90721837)
|
Project Period (FY) |
2019-04-01 – 2021-03-31
|
Keywords | 機械学習 / クラスタリング / 部分空間クラスタリング / 凸最適化 |
Outline of Annual Research Achievements |
本研究の目的は大規模部分空間クラスタリングのための汎用計算機に特化された凸最適化スキームの構築とその理論保証である。 目的の達成のため、1)大規模部分空間クラスタリングのための汎用計算機に特化された凸最適化スキームの構築、2)部分空間クラスタリングの大規模アルゴリズムの理論保証を行う計画である。 本年度では、大規模部分空間クラスタリングのためのアルゴリズムを開発した。従来データ数の二乗以上の計算量が必要である学習手法に関し、本提案アルゴリズムではデータ数に比例する計算量のアルゴリズムを開発した。具体的にはSSC(Sparse Subspace Clustering, スパース部分空間クラスタリング)の類似度行列に関して、非零の要素の数をデータ数に比例する量で抑えるアルゴリズムを開発し、計算の効率がよいことおよび精度が高いことを様々なデータセットを用いて実験的に示した。さらに、提案アルゴリズムの部分空間の推定に関する理論保証も行った。具体的には、列生成法と同様のアルゴリズムを用いて最適化するアルゴリズムに関して、目的関数の近似解であっても本来のSSCと同様の理論保証ができることを示した。本研究成果は機械学習の最も重要な国際会議の一つであるThirty-Third Conference on Neural Information Processing Systems (NeurIPS 2019)に採択され、バンクーバーにて発表を行った。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
本研究で明らかにすべきことは、1)スパース性や低ランク性などの解の特質を利用することでいかに大規模なデータから効率的な学習が可能であるか2)大規模アルゴリズムの構築のためには類似度行列の近似計算が不可欠であるが、この近似が部分空間の推定にどのような影響を及ぼすかの2つであった。 本年度はおおむね本研究で明らかにすべきことを明らかにすることができた。 すなわち、解のスパース性を利用することで計算量がデータ数に比例するアルゴリズムを構築することができることを明らかにし、さらに構築されたアルゴリズムの出力に関する理論解析を行い、計算量を削減するために行った近似が理論解析の本質的な部分には支障がないことを明らかにした。
|
Strategy for Future Research Activity |
マルチスレッディングなどの計算機の特質を利用したアルゴリズムを開発し、さらに効率の高い最適化を可能にする。また、より大規模なデータに開発されたアルゴリズムを適用することにより、部分空間クラスタリングの大規模データへの実用性を示す。
|
Causes of Carryover |
新型コロナウイルスによる状況の変化が原因で旅程が組めなくなった・物品の調達等が遅れたため次年度使用額が生じた。 この状況が解消され次第速やかに次年度使用額を合わせた額の旅費および物品費を計上する予定である。
|