• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2022 年度 実施状況報告書

大規模・複雑データに対するクラスタリング法の開発とその理論的性質の解明

研究課題

研究課題/領域番号 20K19756
研究機関大阪大学

研究代表者

寺田 吉壱  大阪大学, 大学院基礎工学研究科, 准教授 (10738793)

研究期間 (年度) 2020-04-01 – 2024-03-31
キーワード教師なし学習 / 大規模データ / クラスタリング
研究実績の概要

本年度は, 大規模クラスタリングの近似法に関する研究(研究1)と大規模データにも適用可能なconvex clustering algorithmの開発(研究2)を行った.
(研究1)研究1では, 先行研究の母集団レベルでのズレの問題点を解決した新たなスペクトルクラスタリングの近似アルゴリズムを開発した. また, このアルゴリズムは, 本研究でこれまでに提案した密度推定を必要とする方法と異なり, 高次元データに対しても適用可能な汎用的な近似法となっている.
(研究2)Convex clusteringはk-means法とは異なり局所解の問題が無く, 適切な重みを与えることで柔軟なクラスタ構造を捉えることができる. 一方で, 既存の最適化アルゴリズムは計算コストが高く, 大規模なデータに対しては適用することができなかった. 研究2では, この問題を解決するため, サンプルサイズが100万を超える大規模データに対しても適用可能なconvex clusteringのアルゴリズムを開発した. 具体的には, 一般の重みを伴ったL2 convex clusteringに対して, Majorization-Minimizationに基づく効率の良いalgorithm (CCMM) を提案した. さらに, L1 convex clusteringに対しては, 重みが木構造をもつときに効率良く最適化できることに注目し, 重みが木構造をもつ場合に限定されるが, 大規模データに適用可能な非常に効率的なアルゴリズム (TGCC) を提案した. この方法を用いれば, 100万点のデータに対して, 1分ほどでcluster pathと呼ばれる解の軌道と階層的クラスタ構造を得ることができる. CCMMに関しては論文化し, 投稿を行った.

現在までの達成度 (区分)
現在までの達成度 (区分)

2: おおむね順調に進展している

理由

本年度は, 大規模データに対する近似法と大規模データに適用可能な柔軟なクラスタリング法の開発という2点において, 研究が大きく進展したため, 概ね順調に進展しているという評価とした.

今後の研究の推進方策

来年度は, 本年度の成果のうち, 論文化できていない研究成果である近似法の理論研究とL1 convex clusteringの研究をそれぞれ論文にまとめて, 学術誌に投稿する. また, 提案手法のR言語のpackage作成と公開, 及び実データ解析への応用を目指す.

次年度使用額が生じた理由

新型コロナウィルスの影響で, 国際会議に対面での参加ができなかったため, 差額が生じた. 次年度は, 論文の英文校閲費と国際会議への対面参加のための旅費に用いる.

  • 研究成果

    (7件)

すべて 2022 その他

すべて 国際共同研究 (1件) 雑誌論文 (2件) (うち査読あり 2件、 オープンアクセス 1件) 学会発表 (4件) (うち招待講演 4件)

  • [国際共同研究] Erasmus University Rotterdam(オランダ)

    • 国名
      オランダ
    • 外国機関名
      Erasmus University Rotterdam
  • [雑誌論文] Selective inference after feature selection via multiscale bootstrap2022

    • 著者名/発表者名
      Terada Yoshikazu、Shimodaira Hidetoshi
    • 雑誌名

      Annals of the Institute of Statistical Mathematics

      巻: 75 ページ: 99~125

    • DOI

      10.1007/s10463-022-00838-2

    • 査読あり
  • [雑誌論文] Sparse and Simple Structure Estimation via Prenet Penalization2022

    • 著者名/発表者名
      Hirose Kei、Terada Yoshikazu
    • 雑誌名

      Psychometrika

      巻: 1 ページ: 1~26

    • DOI

      10.1007/s11336-022-09868-4

    • 査読あり / オープンアクセス
  • [学会発表] ベクトル量子化による大規模クラスタリングの近似法とその性質2022

    • 著者名/発表者名
      寺田吉壱, 山本倫生
    • 学会等名
      科研費シンポジウム「データサイエンスと周辺領域の双方向的理解への挑戦」
    • 招待講演
  • [学会発表] 代表点を用いた大規模クラスタリングの近似法とその性質2022

    • 著者名/発表者名
      寺田吉壱, 山本倫生
    • 学会等名
      科研費シンポジウム「大規模複雑データの理論と方法論~新たな発展と関連分野への応用~」
    • 招待講演
  • [学会発表] On weak convergence of recovered functional data2022

    • 著者名/発表者名
      Yoshikazu Terada, Masaki Sasaki
    • 学会等名
      15th International Conference of the ERCIM WG on Computational and Methodological Statistics (CMStatistics 2022)
    • 招待講演
  • [学会発表] Regularized functional subspace clustering2022

    • 著者名/発表者名
      Yoshikazu Terada, Michio Yamamoto
    • 学会等名
      CSDA & EcoSta Workshop on Statistical Data Science (SDS 2022)
    • 招待講演

URL: 

公開日: 2023-12-25  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi