研究実績の概要 |
本年度の研究では, 大規模なクラスタリングにおける汎用的な計算量削減方法の開発とその理論的性質の解明を行った. 具体的には, データの背後の分布(母集団分布)の構造を壊さないようなデータの代表点の計算方法である密度保存ベクトル量子化法 (Density-Preserving Vector Quantization; DPVQ) を提案した. DPVQは, 単純な重み付きk-means法であり, 大規模なデータに対しても容易に適用可能である. また, 提案手法によって生成された代表点の経験分布が漸近的に母集団分布に収束することを証明した. 提案手法により生成した(サンプルサイズよりも少ない)代表点に対して, クラスタリング法を適用し, その結果を元のデータに反映させることで, 大幅に計算コストを削減することができる. 提案した計算量削減法はどのようなクラスタリング法に対しても適用可能であることが大きな利点である. クラスタリング法は, 大規模・複雑なデータから背後のグループ構造を獲得するために有用であるが, 大規模なデータに対してはk-means法のような単純な方法のみが適用されており, データの背後のクラスタ構造を十分に捉えることができない可能性がある. 提案手法による代表点を用いた計算量削減法を用いることで, より柔軟なクラスタ構造を捉えることのできるspectral clusteringなどの計算コストの高い方法を高速に実行できるようになった.
|
次年度使用額が生じた理由 |
本年度は, 新型コロナウイルス感染症の影響で参加予定の会議がオンライン開催となったことに加え, 研究打ち合わせなどを対面で行うことができなかったため, 次年度使用額が生じた. 次年度は, 論文執筆のため数値実験に利用する高性能な計算機の購入, 感染拡大に留意した対面での研究打ち合わせのための旅費として使用する.
|