• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模・複雑データに対するクラスタリング法の開発とその理論的性質の解明

研究課題

研究課題/領域番号 20K19756
研究種目

若手研究

配分区分基金
審査区分 小区分60030:統計科学関連
研究機関大阪大学

研究代表者

寺田 吉壱  大阪大学, 大学院基礎工学研究科, 准教授 (10738793)

研究期間 (年度) 2020-04-01 – 2024-03-31
研究課題ステータス 完了 (2023年度)
配分額 *注記
2,990千円 (直接経費: 2,300千円、間接経費: 690千円)
2022年度: 520千円 (直接経費: 400千円、間接経費: 120千円)
2021年度: 1,300千円 (直接経費: 1,000千円、間接経費: 300千円)
2020年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
キーワードクラスタリング / 高速化 / 教師なし学習 / 大規模データ / 計算量削減 / 漸近理論 / 動的計画法
研究開始時の研究の概要

近年,データの大規模化・複雑化に伴い,教師なし分類問題の重要性が再認識されている.しかし,大規模なデータに対しては計算コストの低いk-means法のような単純な方法のみが適用されており,データの背後の分類構造を十分に捉えることができていない可能性がある.本研究では,複雑なクラスタ構造を捉えることが可能で,かつ,大規模なデータに対しても高速に実行可能なクラスタリング法を提案し,その理論的保証を与える.

研究成果の概要

本研究では, 大規模なクラスタリングにおける汎用的な計算量削減方法の開発とその理論的性質の解明, 及び, 柔軟なグループ構造を階層的に捉えることが可能なconvex clusteringに対する高速なアルゴリズムの開発を行なった. 本研究で開発した手法を用いることで, 100万を超えるデータ点に対して, ノートPCを用いた場合でも1分以内に複雑なクラスタリング法を実行することが可能となり, 大規模かつ複雑なデータに対しても高速に背後のクラスタ構造を推定することができるようになった.

研究成果の学術的意義や社会的意義

近年のデータの大規模化・複雑化に伴い, データからグループ構造を発見するためのクラスタリング法の重要性が増している. しかし, これまで大規模データに対しては, 単純なクラスタ構造しか捉えられないクラスタリング法しか適用ができなかった. 本研究成果により, クラスタリング法を必要とする任意の分野において, 短時間かつ容易に, 大規模データから複雑なクラスタ構造を推定することが可能となった. 本研究を応用することで, 様々な応用分野において, 新たな知見の発見などが期待できる.

報告書

(5件)
  • 2023 実績報告書   研究成果報告書 ( PDF )
  • 2022 実施状況報告書
  • 2021 実施状況報告書
  • 2020 実施状況報告書
  • 研究成果

    (24件)

すべて 2023 2022 2021 2020 その他

すべて 国際共同研究 (3件) 雑誌論文 (8件) (うち国際共著 1件、 査読あり 8件、 オープンアクセス 5件) 学会発表 (13件) (うち国際学会 5件、 招待講演 11件)

  • [国際共同研究] Erasmus University Rotterdam(オランダ)

    • 関連する報告書
      2023 実績報告書
  • [国際共同研究] Erasmus University Rotterdam(オランダ)

    • 関連する報告書
      2022 実施状況報告書
  • [国際共同研究] Erasmus University Rotterdam(オランダ)

    • 関連する報告書
      2020 実施状況報告書
  • [雑誌論文] Sparse kernel k-means for high-dimensional data2023

    • 著者名/発表者名
      Guan Xin、Terada Yoshikazu
    • 雑誌名

      Pattern Recognition

      巻: 144 ページ: 109873-109873

    • DOI

      10.1016/j.patcog.2023.109873

    • 関連する報告書
      2023 実績報告書
    • 査読あり
  • [雑誌論文] Selective inference after feature selection via multiscale bootstrap2022

    • 著者名/発表者名
      Terada Yoshikazu、Shimodaira Hidetoshi
    • 雑誌名

      Annals of the Institute of Statistical Mathematics

      巻: 75 号: 1 ページ: 99-125

    • DOI

      10.1007/s10463-022-00838-2

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり
  • [雑誌論文] Sparse and Simple Structure Estimation via Prenet Penalization2022

    • 著者名/発表者名
      Hirose Kei、Terada Yoshikazu
    • 雑誌名

      Psychometrika

      巻: 1 号: 4 ページ: 1-26

    • DOI

      10.1007/s11336-022-09868-4

    • 関連する報告書
      2022 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Forecasting temporal variation of aftershocks immediately after a main shock using Gaussian process regression2021

    • 著者名/発表者名
      Morikawa, K., H. Nagao, S. Ito, Y. Terada, S. Sakai, and N. Hirata
    • 雑誌名

      Geophysical Journal International

      巻: - 号: 2 ページ: 1018-1035

    • DOI

      10.1093/gji/ggab124

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Dynamic visualization for L1 fusion convex clustering in near-linear time2021

    • 著者名/発表者名
      Bingyuan Zhang, Jie Chen, Yoshikazu Terada
    • 雑誌名

      Proceedings of the Thirty-Seventh Conference on Uncertainty in Artificial Intelligence

      巻: 161 ページ: 515-524

    • 関連する報告書
      2021 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Statistical analysis of sparse approximate factor models2020

    • 著者名/発表者名
      Poignard Benjamin、Terada Yoshikazu
    • 雑誌名

      Electronic Journal of Statistics

      巻: 14 号: 2 ページ: 3315-3365

    • DOI

      10.1214/20-ejs1745

    • 関連する報告書
      2020 実施状況報告書
    • 査読あり / オープンアクセス / 国際共著
  • [雑誌論文] Classification from only positive and unlabeled functional data2020

    • 著者名/発表者名
      Terada Yoshikazu、Ogasawara Issei、Nakata Ken
    • 雑誌名

      The Annals of Applied Statistics

      巻: 14 号: 4 ページ: 1724-1742

    • DOI

      10.1214/20-aoas1404

    • 関連する報告書
      2020 実施状況報告書
    • 査読あり / オープンアクセス
  • [雑誌論文] Fast generalization error bound of deep learning without scale invariance of activation functions2020

    • 著者名/発表者名
      Terada Yoshikazu、Hirose Ryoma
    • 雑誌名

      Neural Networks

      巻: 129 ページ: 344-358

    • DOI

      10.1016/j.neunet.2020.05.033

    • 関連する報告書
      2020 実施状況報告書
    • 査読あり
  • [学会発表] A statistical theory of clustering2023

    • 著者名/発表者名
      Yoshikazu Terada
    • 学会等名
      Forum "Math-for-Industry" (FMfI) 2023
    • 関連する報告書
      2023 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] On some properties of reconstructed trajectories from sparse longitudinal data2023

    • 著者名/発表者名
      Yoshikazu Terada
    • 学会等名
      The 15th Scientific Meeting of the Classification and Data Analysis Group
    • 関連する報告書
      2023 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] On smoothing for spatial functional data2023

    • 著者名/発表者名
      Yoshikazu Terada, Hidetoshi Matsui
    • 学会等名
      The 6th International Conference on Econometrics and Statistics
    • 関連する報告書
      2023 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] Dynamic prediction for variable-domain functional data2023

    • 著者名/発表者名
      Yoshikazu Terada, Hidetoshi Matsui
    • 学会等名
      The 12th Conference of the IASC-ARS (IASC-ARS2023)
    • 関連する報告書
      2023 実績報告書
    • 国際学会 / 招待講演
  • [学会発表] クラスタリング法の統計理論と応用2023

    • 著者名/発表者名
      寺田吉壱
    • 学会等名
      第43回情報計測オンラインセミナー
    • 関連する報告書
      2023 実績報告書
    • 招待講演
  • [学会発表] ベクトル量子化による大規模クラスタリングの近似法とその性質2022

    • 著者名/発表者名
      寺田吉壱, 山本倫生
    • 学会等名
      科研費シンポジウム「データサイエンスと周辺領域の双方向的理解への挑戦」
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演
  • [学会発表] 代表点を用いた大規模クラスタリングの近似法とその性質2022

    • 著者名/発表者名
      寺田吉壱, 山本倫生
    • 学会等名
      科研費シンポジウム「大規模複雑データの理論と方法論~新たな発展と関連分野への応用~」
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演
  • [学会発表] On weak convergence of recovered functional data2022

    • 著者名/発表者名
      Yoshikazu Terada, Masaki Sasaki
    • 学会等名
      15th International Conference of the ERCIM WG on Computational and Methodological Statistics (CMStatistics 2022)
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演
  • [学会発表] Regularized functional subspace clustering2022

    • 著者名/発表者名
      Yoshikazu Terada, Michio Yamamoto
    • 学会等名
      CSDA & EcoSta Workshop on Statistical Data Science (SDS 2022)
    • 関連する報告書
      2022 実施状況報告書
    • 招待講演
  • [学会発表] Fast Approximation for large-scale clustering2022

    • 著者名/発表者名
      Yoshikazu Terada, Michio Yamamoto
    • 学会等名
      The 11th Conference of the IASC-ARS The Asian Regional Section of the International Association for Statistical Computing
    • 関連する報告書
      2021 実施状況報告書
    • 国際学会 / 招待講演
  • [学会発表] クラスタリングにおける汎用的な計算コスト削減法について2021

    • 著者名/発表者名
      寺田吉壱, 山本倫生
    • 学会等名
      2021年度日本分類学会シンポジウム
    • 関連する報告書
      2021 実施状況報告書
  • [学会発表] クラスタリングにおける汎用的な計算コスト削減法について2020

    • 著者名/発表者名
      寺田吉壱、山本 倫生
    • 学会等名
      2020年度統計関連学会連合大会
    • 関連する報告書
      2020 実施状況報告書
  • [学会発表] 大規模なクラスタリングにおける計算量削減法について2020

    • 著者名/発表者名
      寺田吉壱、山本 倫生
    • 学会等名
      第5回 統計・機械学習若手シンポジウム
    • 関連する報告書
      2020 実施状況報告書
    • 招待講演

URL: 

公開日: 2020-04-28   更新日: 2025-01-30  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi