• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2020 Fiscal Year Research-status Report

大規模・複雑データに対するクラスタリング法の開発とその理論的性質の解明

Research Project

Project/Area Number 20K19756
Research InstitutionOsaka University

Principal Investigator

寺田 吉壱  大阪大学, 基礎工学研究科, 講師 (10738793)

Project Period (FY) 2020-04-01 – 2023-03-31
Keywords計算量削減 / 漸近理論
Outline of Annual Research Achievements

本年度の研究では, 大規模なクラスタリングにおける汎用的な計算量削減方法の開発とその理論的性質の解明を行った. 具体的には, データの背後の分布(母集団分布)の構造を壊さないようなデータの代表点の計算方法である密度保存ベクトル量子化法 (Density-Preserving Vector Quantization; DPVQ) を提案した. DPVQは, 単純な重み付きk-means法であり, 大規模なデータに対しても容易に適用可能である. また, 提案手法によって生成された代表点の経験分布が漸近的に母集団分布に収束することを証明した. 提案手法により生成した(サンプルサイズよりも少ない)代表点に対して, クラスタリング法を適用し, その結果を元のデータに反映させることで, 大幅に計算コストを削減することができる. 提案した計算量削減法はどのようなクラスタリング法に対しても適用可能であることが大きな利点である. クラスタリング法は, 大規模・複雑なデータから背後のグループ構造を獲得するために有用であるが, 大規模なデータに対してはk-means法のような単純な方法のみが適用されており, データの背後のクラスタ構造を十分に捉えることができない可能性がある. 提案手法による代表点を用いた計算量削減法を用いることで, より柔軟なクラスタ構造を捉えることのできるspectral clusteringなどの計算コストの高い方法を高速に実行できるようになった.

Current Status of Research Progress
Current Status of Research Progress

2: Research has progressed on the whole more than it was originally planned.

Reason

本年度は,計画通り, 計算量削減法の開発及びその理論的性質の解明の両面で成果が得られた.

Strategy for Future Research Activity

今後の研究方針としては,先ず本年度に得られた成果の論文化に重点をおいて推進していく予定である.その後, spectral clusteringやnormalized cutに特化した計算量削減法の開発に着手する.

Causes of Carryover

本年度は, 新型コロナウイルス感染症の影響で参加予定の会議がオンライン開催となったことに加え, 研究打ち合わせなどを対面で行うことができなかったため, 次年度使用額が生じた. 次年度は, 論文執筆のため数値実験に利用する高性能な計算機の購入, 感染拡大に留意した対面での研究打ち合わせのための旅費として使用する.

  • Research Products

    (6 results)

All 2020 Other

All Int'l Joint Research (1 results) Journal Article (3 results) (of which Peer Reviewed: 3 results,  Open Access: 2 results) Presentation (2 results) (of which Invited: 1 results)

  • [Int'l Joint Research] Erasmus University Rotterdam(オランダ)

    • Country Name
      NETHERLANDS
    • Counterpart Institution
      Erasmus University Rotterdam
  • [Journal Article] Statistical analysis of sparse approximate factor models2020

    • Author(s)
      Poignard Benjamin、Terada Yoshikazu
    • Journal Title

      Electronic Journal of Statistics

      Volume: 14 Pages: 3315~3365

    • DOI

      10.1214/20-EJS1745

    • Peer Reviewed / Open Access
  • [Journal Article] Classification from only positive and unlabeled functional data2020

    • Author(s)
      Terada Yoshikazu、Ogasawara Issei、Nakata Ken
    • Journal Title

      The Annals of Applied Statistics

      Volume: 14 Pages: 1724~1742

    • DOI

      10.1214/20-AOAS1404

    • Peer Reviewed / Open Access
  • [Journal Article] Fast generalization error bound of deep learning without scale invariance of activation functions2020

    • Author(s)
      Terada Yoshikazu、Hirose Ryoma
    • Journal Title

      Neural Networks

      Volume: 129 Pages: 344~358

    • DOI

      10.1016/j.neunet.2020.05.033

    • Peer Reviewed
  • [Presentation] クラスタリングにおける汎用的な計算コスト削減法について2020

    • Author(s)
      寺田吉壱、山本 倫生
    • Organizer
      2020年度統計関連学会連合大会
  • [Presentation] 大規模なクラスタリングにおける計算量削減法について2020

    • Author(s)
      寺田吉壱、山本 倫生
    • Organizer
      第5回 統計・機械学習若手シンポジウム
    • Invited

URL: 

Published: 2021-12-27  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi