2021 Fiscal Year Research-status Report
Extraction of dominant boundary set from high dimensional data
Project/Area Number |
18K11426
|
Research Institution | The University of Tokyo |
Principal Investigator |
稲葉 真理 東京大学, 大学院情報理工学系研究科, 准教授 (60282711)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | スカイライン / パレート最適 / スカイライン |
Outline of Annual Research Achievements |
大規模データを用いた学習・予測・探索では、オリジナルデータからサンプルデータを抽出し操作を行うことが一般的であるが、ランダムサンプリングで抽出したデータは、例えば、ある特徴について最大値をとるといった「際立った特徴を持つデータ」はサンプルされず、オリジナルのデータ集合の多様性が失われてしまうことが多い。多次元空間を考え、データの凸包を求めれば「特徴が際立ったデータ」を抽出することができるが、高次元での計算コストが非常に高いことが知られている。本研究では、高次元空間で与えられた大規模データ集合が持つ「多様性」を表すような特徴的サンプル集合を求めること、クラスタ境界付近に分布を偏らせたサンプル集合の高速抽出手法の確立をめざしている。 2020年度までに、半順序集合である支配関係抽出される階層構造に着目し、全支配関係を表現したラティス集合のサブセットとなる スカイライン集合を求めるための JR-tree 構造に利用、レベル 0 が原点、レベル1が、スカイライン集合、レベル2、レベル3など、低レベル層を「pseudo-skyline 」と名付け、「ほぼ支配する点」の集合の定義し、3次元および4次元空間で凸包の下側 envelopeとの比較を行い、スカイラインの計算を行うと同時に、3次元において、データ集合の凸包を計算することで、スカイライン集合と、凸包を構成するデータの比較実験を行った。 2021年度については高次元化を目指す実験を行った。3次元をランダムに選択し2020年度に開発した下側envelope の内側にあるデータ集合を求め、AND をとった「内側データ」を求め、この内側データには、特徴データがないだろうと想定し、この内側データを排除したデータからランダムサンプリングしたデータと、pseudo-skyline 集合の比較実験を行なった。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2022年度は、計画通りに順調に実装は行われている。高次元化において、凸包を求める計算は、計算量が爆発してしまうため、現実的ではないため、低次元で計算した凸包集合の AND をとるなど、近似解法を実装した。 2021年度までは、pseudo-skyline と、低次元で求めたpseudo-skyline の比較実験を行い、概ね、予想通りの結果が求められてきた。2022年度に、高次元化の拡張を行い、得られるサンプルデータの比較を行い、得られる抽出データの数などの比較実験を行なった。これに加えて、得られた「データの質」に対する検証実験を開始したが、ここで、データの質を比較する難しさが判明した。具体的には、輻輳制御を行うための強化学習を行う実験、及び、アドレス検出を行う実験を試みているが、抽出データの比較以前に、強化学習を行う際のチューニングに、予想以上に時間が取られている。当初、検証は、強化学習で行う予定であったが、むしろ、多様性を用いた大規模データの探索問題に範囲を広げることを考えている。
|
Strategy for Future Research Activity |
2022年度、高次元化の拡張を行った結果、得られた抽出データ集合を用いて、強化学習を行いつつあるが、抽出データの比較以前に、強化学習を行う際のチューニングに、予想以上に時間が取られている。具体的には、輻輳制御、及び、アドレス予測のための強化学習の実験を試みているが、アキュラシーも、カバー率も思ったよりも上がっていない。高次元化による近似解法については、きちんとした証明手法等による有用性の検証は難しいと思われるため、有用性については、なんらかの実験により検証が、必須であると考えているが、強化学習による有用性の検証は、厳しいかもしれないと考えている。今後、強化学習による検証実験は継続するが、これと同時に、多様性を用いた大規模データの探索問題に範囲を広げることを考えている。
|
Causes of Carryover |
コロナのため、出張が 共同研究者の本城のアメリカ出張のみだったため、学会発表のための経費が使われなかった。これは、2022年度に使う予定である。
|