• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

High-dimension, low-sample-size asymptotic theory for nonlinear feature selection

Research Project

Project/Area Number 20K22305
Research Category

Grant-in-Aid for Research Activity Start-up

Allocation TypeMulti-year Fund
Review Section 0201:Algebra, geometry, analysis, applied mathematics,and related fields
Research InstitutionKyoto University

Principal Investigator

Nakayama Yugo  京都大学, 情報学研究科, 助教 (40884169)

Project Period (FY) 2020-09-11 – 2023-03-31
Project Status Completed (Fiscal Year 2022)
Budget Amount *help
¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
Keywords高次元データ / 機械学習 / 非線形 / 高次元小標本 / 外れ値検出 / クラスタリング / 特徴量選択
Outline of Research at the Start

近年観測されるデータの規模は非常に膨大であり,遺伝子発現データであれば数万にも及ぶ遺伝子を観測できる一方で,解析に十分な標本数を実験にかかるコストの問題等から担保できない状況が起きている.このような高次元小標本データは高次元故の潜在空間とノイズ空間が混合し,解析が困難となる.この複雑系を解くために,高次元小標本空間における非線形な特徴量に注目する.数理統計学と機械学習の側面それぞれからカーネル主成分分析を用いた高次元空間の非線形性と高次元小標本における機械学習を用いた非線形性の解析を推進する.

Outline of Final Research Achievements

We investigated principal component analysis (PCA) with kernel functions in the framework of high-dimensional asymptotic theory to reveal non-linearity in high-dimensional data. We proposed clustering and outlier detection methods by using PCA and discuss their optimality, in particular, by providing a theoretical evaluation for the tuning parameters of the Gaussian kernel, which is often used empirically. In the presence of outliers, we proposed a test method using principal component scores, and devised a method that can identify multiple outliers. With respect to outliers, we also studied the robustness of high-dimensional data, focusing on spatial signs.

Academic Significance and Societal Importance of the Research Achievements

近年観測されるデータの次元数は非常に多くなっており,例えば,遺伝子発現データでは数万の遺伝子を観測することができる.しかし,実験にかかるコストなどの問題から,解析に十分なサンプル数を確保することができない.このようなデータは解析が難しいため,本研究では非線形な特徴量に注目し,カーネル関数を用いた主成分分析を用いた解析手法を提案した.これにより,高次元データのクラスタリングや外れ値検出が可能となった.提案手法は標本数が少ない高次元データでも機能し,計算コストが問題となる高次元データ解析において効果的である.

Report

(4 results)
  • 2022 Annual Research Report   Final Research Report ( PDF )
  • 2021 Research-status Report
  • 2020 Research-status Report
  • Research Products

    (14 results)

All 2022 2021 2020

All Journal Article (2 results) (of which Peer Reviewed: 2 results,  Open Access: 1 results) Presentation (12 results) (of which Int'l Joint Research: 2 results,  Invited: 2 results)

  • [Journal Article] Clustering by principal component analysis with Gaussian kernel in high-dimension, low-sample-size settings2021

    • Author(s)
      Nakayama Yugo、Yata Kazuyoshi、Aoshima Makoto
    • Journal Title

      Journal of Multivariate Analysis

      Volume: 185 Pages: 104779-104779

    • DOI

      10.1016/j.jmva.2021.104779

    • Related Report
      2021 Research-status Report
    • Peer Reviewed / Open Access
  • [Journal Article] Support vector machine and optimal parameter selection for high-dimensional imbalanced data2020

    • Author(s)
      Nakayama Yugo
    • Journal Title

      Communications in Statistics - Simulation and Computation

      Volume: 1 Issue: 11 Pages: 1-16

    • DOI

      10.1080/03610918.2020.1813300

    • Related Report
      2020 Research-status Report
    • Peer Reviewed
  • [Presentation] Multiple outlier detection test with PCA in high-dimension, low-sample-size settings2022

    • Author(s)
      中山優吾, 矢田和善, 青嶋誠
    • Organizer
      2022年度統計関連学会連合大会
    • Related Report
      2022 Annual Research Report
  • [Presentation] 高次元主成分スコアに基づく異常値の検出法2022

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      日本数学会2022年度年会
    • Related Report
      2021 Research-status Report
  • [Presentation] 高次元におけるカーネル主成分分析の漸近的性質とその応用2022

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      多様な高次元モデルの理論と方法論:最前線の動向
    • Related Report
      2021 Research-status Report
  • [Presentation] Asymptotic properties of high-dimensional kernel PCA and its applications2021

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      International Symposium on New Developments of Theories and Methodologies for Large Complex Data
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research / Invited
  • [Presentation] ガウシアンカーネルに基づく高次元データの分類問題2021

    • Author(s)
      中山優吾
    • Organizer
      2021年度秋季総合分科会
    • Related Report
      2021 Research-status Report
  • [Presentation] 高次元における重み付き判別分析とデータ変換法について2021

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      2021年度統計関連学会連合大会
    • Related Report
      2021 Research-status Report
  • [Presentation] Clustering by kernel PCA with Gaussian kernel and tuning for high-dimensional data2021

    • Author(s)
      Yugo Nakayama, Kazuyoshi Yata, Makoto Aoshima
    • Organizer
      The 4th International Conference on Econometrics and Statistics
    • Related Report
      2021 Research-status Report
    • Int'l Joint Research / Invited
  • [Presentation] 高次元におけるカーネル主成分分析の漸近的性質と異常値の検出への応用2021

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      日本数学会2021年度年会
    • Related Report
      2020 Research-status Report
  • [Presentation] 高次元データにおける異常値の検出について2020

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      科研費シンポジウム「機械学習・統計学・最適化の数理とAI技術への展開 」
    • Related Report
      2020 Research-status Report
  • [Presentation] 高次元カーネル主成分分析に基づく異常値の検出2020

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      科研費シンポジウム「大規模複雑データの理論と方法論:最前線の動向と新たな展開」
    • Related Report
      2020 Research-status Report
  • [Presentation] Clustering by kernel principal component analysis for high-dimensional data2020

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      日本数学会 2020年度秋季総合分科会
    • Related Report
      2020 Research-status Report
  • [Presentation] 高次元小標本における異常値の検出2020

    • Author(s)
      中山優吾,矢田和善,青嶋誠
    • Organizer
      2020年度統計関連学会連合大会
    • Related Report
      2020 Research-status Report

URL: 

Published: 2020-09-29   Modified: 2024-01-30  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi