High-dimension, low-sample-size asymptotic theory for nonlinear feature selection
Project/Area Number |
20K22305
|
Research Category |
Grant-in-Aid for Research Activity Start-up
|
Allocation Type | Multi-year Fund |
Review Section |
0201:Algebra, geometry, analysis, applied mathematics,and related fields
|
Research Institution | Kyoto University |
Principal Investigator |
Nakayama Yugo 京都大学, 情報学研究科, 助教 (40884169)
|
Project Period (FY) |
2020-09-11 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥2,600,000 (Direct Cost: ¥2,000,000、Indirect Cost: ¥600,000)
Fiscal Year 2021: ¥1,170,000 (Direct Cost: ¥900,000、Indirect Cost: ¥270,000)
Fiscal Year 2020: ¥1,430,000 (Direct Cost: ¥1,100,000、Indirect Cost: ¥330,000)
|
Keywords | 高次元データ / 機械学習 / 非線形 / 高次元小標本 / 外れ値検出 / クラスタリング / 特徴量選択 |
Outline of Research at the Start |
近年観測されるデータの規模は非常に膨大であり,遺伝子発現データであれば数万にも及ぶ遺伝子を観測できる一方で,解析に十分な標本数を実験にかかるコストの問題等から担保できない状況が起きている.このような高次元小標本データは高次元故の潜在空間とノイズ空間が混合し,解析が困難となる.この複雑系を解くために,高次元小標本空間における非線形な特徴量に注目する.数理統計学と機械学習の側面それぞれからカーネル主成分分析を用いた高次元空間の非線形性と高次元小標本における機械学習を用いた非線形性の解析を推進する.
|
Outline of Final Research Achievements |
We investigated principal component analysis (PCA) with kernel functions in the framework of high-dimensional asymptotic theory to reveal non-linearity in high-dimensional data. We proposed clustering and outlier detection methods by using PCA and discuss their optimality, in particular, by providing a theoretical evaluation for the tuning parameters of the Gaussian kernel, which is often used empirically. In the presence of outliers, we proposed a test method using principal component scores, and devised a method that can identify multiple outliers. With respect to outliers, we also studied the robustness of high-dimensional data, focusing on spatial signs.
|
Academic Significance and Societal Importance of the Research Achievements |
近年観測されるデータの次元数は非常に多くなっており,例えば,遺伝子発現データでは数万の遺伝子を観測することができる.しかし,実験にかかるコストなどの問題から,解析に十分なサンプル数を確保することができない.このようなデータは解析が難しいため,本研究では非線形な特徴量に注目し,カーネル関数を用いた主成分分析を用いた解析手法を提案した.これにより,高次元データのクラスタリングや外れ値検出が可能となった.提案手法は標本数が少ない高次元データでも機能し,計算コストが問題となる高次元データ解析において効果的である.
|
Report
(4 results)
Research Products
(14 results)