研究課題/領域番号 |
20K22305
|
研究種目 |
研究活動スタート支援
|
配分区分 | 基金 |
審査区分 |
0201:代数学、幾何学、解析学、応用数学およびその関連分野
|
研究機関 | 京都大学 |
研究代表者 |
中山 優吾 京都大学, 情報学研究科, 助教 (40884169)
|
研究期間 (年度) |
2020-09-11 – 2023-03-31
|
研究課題ステータス |
完了 (2022年度)
|
配分額 *注記 |
2,600千円 (直接経費: 2,000千円、間接経費: 600千円)
2021年度: 1,170千円 (直接経費: 900千円、間接経費: 270千円)
2020年度: 1,430千円 (直接経費: 1,100千円、間接経費: 330千円)
|
キーワード | 高次元データ / 機械学習 / 非線形 / 高次元小標本 / 外れ値検出 / クラスタリング / 特徴量選択 |
研究開始時の研究の概要 |
近年観測されるデータの規模は非常に膨大であり,遺伝子発現データであれば数万にも及ぶ遺伝子を観測できる一方で,解析に十分な標本数を実験にかかるコストの問題等から担保できない状況が起きている.このような高次元小標本データは高次元故の潜在空間とノイズ空間が混合し,解析が困難となる.この複雑系を解くために,高次元小標本空間における非線形な特徴量に注目する.数理統計学と機械学習の側面それぞれからカーネル主成分分析を用いた高次元空間の非線形性と高次元小標本における機械学習を用いた非線形性の解析を推進する.
|
研究成果の概要 |
高次元データの非線形性を調査するために,カーネル関数を用いた主成分分析を高次元漸近理論の枠組みで調査した.主成分分析を用いたクラスタリングと外れ値検出の手法を提案し,特に,経験的に度々使用されるガウシアンカーネルのチューニングパラメータに関する理論評価を与えることで,その最適性を議論した.外れ値の有無に関して,主成分分析を用いた検定方式を提案し,複数の外れ値を特定できるような手法も考案した.また,外れ値に関連し,高次元データのロバスト性についてもSpatial Signに着目し,研究を進めた.
|
研究成果の学術的意義や社会的意義 |
近年観測されるデータの次元数は非常に多くなっており,例えば,遺伝子発現データでは数万の遺伝子を観測することができる.しかし,実験にかかるコストなどの問題から,解析に十分なサンプル数を確保することができない.このようなデータは解析が難しいため,本研究では非線形な特徴量に注目し,カーネル関数を用いた主成分分析を用いた解析手法を提案した.これにより,高次元データのクラスタリングや外れ値検出が可能となった.提案手法は標本数が少ない高次元データでも機能し,計算コストが問題となる高次元データ解析において効果的である.
|