2020 Fiscal Year Research-status Report
大規模・複雑データに対するクラスタリング法の開発とその理論的性質の解明
Project/Area Number |
20K19756
|
Research Institution | Osaka University |
Principal Investigator |
寺田 吉壱 大阪大学, 基礎工学研究科, 講師 (10738793)
|
Project Period (FY) |
2020-04-01 – 2023-03-31
|
Keywords | 計算量削減 / 漸近理論 |
Outline of Annual Research Achievements |
本年度の研究では, 大規模なクラスタリングにおける汎用的な計算量削減方法の開発とその理論的性質の解明を行った. 具体的には, データの背後の分布(母集団分布)の構造を壊さないようなデータの代表点の計算方法である密度保存ベクトル量子化法 (Density-Preserving Vector Quantization; DPVQ) を提案した. DPVQは, 単純な重み付きk-means法であり, 大規模なデータに対しても容易に適用可能である. また, 提案手法によって生成された代表点の経験分布が漸近的に母集団分布に収束することを証明した. 提案手法により生成した(サンプルサイズよりも少ない)代表点に対して, クラスタリング法を適用し, その結果を元のデータに反映させることで, 大幅に計算コストを削減することができる. 提案した計算量削減法はどのようなクラスタリング法に対しても適用可能であることが大きな利点である. クラスタリング法は, 大規模・複雑なデータから背後のグループ構造を獲得するために有用であるが, 大規模なデータに対してはk-means法のような単純な方法のみが適用されており, データの背後のクラスタ構造を十分に捉えることができない可能性がある. 提案手法による代表点を用いた計算量削減法を用いることで, より柔軟なクラスタ構造を捉えることのできるspectral clusteringなどの計算コストの高い方法を高速に実行できるようになった.
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
本年度は,計画通り, 計算量削減法の開発及びその理論的性質の解明の両面で成果が得られた.
|
Strategy for Future Research Activity |
今後の研究方針としては,先ず本年度に得られた成果の論文化に重点をおいて推進していく予定である.その後, spectral clusteringやnormalized cutに特化した計算量削減法の開発に着手する.
|
Causes of Carryover |
本年度は, 新型コロナウイルス感染症の影響で参加予定の会議がオンライン開催となったことに加え, 研究打ち合わせなどを対面で行うことができなかったため, 次年度使用額が生じた. 次年度は, 論文執筆のため数値実験に利用する高性能な計算機の購入, 感染拡大に留意した対面での研究打ち合わせのための旅費として使用する.
|