2021 Fiscal Year Research-status Report
High-dimension, low-sample-size asymptotic theory for nonlinear feature selection
Project/Area Number |
20K22305
|
Research Institution | Kyoto University |
Principal Investigator |
中山 優吾 京都大学, 情報学研究科, 助教 (40884169)
|
Project Period (FY) |
2020-09-11 – 2023-03-31
|
Keywords | 高次元データ / 機械学習 / 非線形 / 高次元小標本 / クラスタリング / 外れ値検出 |
Outline of Annual Research Achievements |
高次元空間の非線形性を解き明かすために,非線形手法としてしばしば使用されるカーネル法の理論解析を進めた.前年度の結果を引き継ぎ,カーネルPCAに関して次の2つを遂行した. (1) カーネルPCAを用いたクラスタリング (2) 通常のPCAとカーネルPCAを用いた外れ値検出の比較 (1)では応用現場でしばしば用いられるガウシアンカーネルを用いたカーネルPCAによるクラスタリング手法の提案とその理論的性質を導出した.チューニング方法や一般のカーネル関数への拡張も与えた.本結果は国際雑誌で採択されている.外れ値が混入したとき,高次元データで仮定される球形条件のような条件は満たされなくなってしまうため,外れ値の除去は高次元統計解析で重要なタスクである.そこで,(2)では高次元データに対する外れ値検出を考えた.前年度の実績では実験的には提案手法が良い結果を与えていたが,理論的な性質は与えることができていなかった.本年度では,外れ値混入を新たに検定問題として捉え直し,その漸近分布や棄却域を与えた.通常のPCAとカーネルPCAの間の比較を考えたが,理論的な保証のために通常のPCAに着目して検定方式を構築した.この結果を応用することで複数の外れ値を特定できるような手法も考案した.これらの結果は数値実験と遺伝子発現データを用いて,先行研究に比べて十分な有効性を示した.これらの結果は国内の研究集会において報告した.
|
Current Status of Research Progress |
Current Status of Research Progress
3: Progress in research has been slightly delayed.
Reason
前年度もカーネルPCAによるクラスタリングや外れ値検出を考えたが,今年度は検定への拡張にとどまり大きな進展が少なかった.また,検定方式も従来のPCAに基づくもので,研究目的にある非線形性についての言及が少なかったため,やや遅れているという評価である.
|
Strategy for Future Research Activity |
本年度での進展で鍵となったのは高次元におけるPCAの漸近的性質であった.しかし,高次元データに対するカーネルPCAに関する研究は多くない.カーネルPCAを用いた外れ値検出を考案するために,カーネルPCA自体の漸近論を詳細に調査する.
|
Causes of Carryover |
現在推進している外れ値検出に関して線形の設定における結果は与えることができており,追加の調査が進めば非線形に拡張できる見込みのため,延長申請をしている.また,国際雑誌への投稿を進め,その際にオープンアクセス化に使用する見込みである.
|
Research Products
(7 results)