2019 Fiscal Year Research-status Report
Extraction of dominant boundary set from high dimensional data
Project/Area Number |
18K11426
|
Research Institution | The University of Tokyo |
Principal Investigator |
稲葉 真理 東京大学, 大学院情報理工学系研究科, 准教授 (60282711)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | スカイライン問題 / パレート最適 / ミニマ |
Outline of Annual Research Achievements |
本研究では、高次元特徴空間に大規模点集合が与えられた時、オリジナルの集合の持つ「多様性」を維持する部分集合を抽出することで、効率の良い学習・推測を行うことを目的とし、多目的最適化の分野でパレート最適と称されような「際立った特徴を持つ」支配的境界集合の抽出を行うことを目指している。クラスタ集合(1クラス)の外側境界を抽出において、幾何構造を利用する場合は、一般に次元が上がるにつれ、計算が困難になることが知られている。 本研究では、2018年度まで、2点間の「支配関係 (dominant relationship)」に焦点を当て、この2点間の半順序関係を用いて、特徴空間において、他の点から支配されない点集合「スカイライン」を「際立った特徴を持つ」データの集合と捉え、このスカイラインを高速に抽出することを目標とし、JR-tree の実装実験を行い、15次元程度の特徴空間において、オンラインでのスカイライン計算が効率よく行えることを示してきたが、一方で、スカイラインのみに注目すると十分な数のサンプル集合が得られないなど、問題点も明らかになってきている。 2019年度においては、前年度までJRーtree 構造によって、抽出される階層構造に着目した。支配関係は半順序集合であり、JR-tree を、全支配関係を表現したラティス集合のサブセットとなる。まずラティス集合でレベルを定義し、データの可視化を行った。ここでは、レベル 0 が原点、レベル1が、スカイライン集合定義している。ここで、レベル2、レベル3など、低レベル層を「pseudo-skyline 」と名付け、「ほぼ支配する点」の集合の定義、3次元および4次元空間で実装し、convex 集合(下側 envelope)との比較を行い、評価した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
2019年度は、支配関係のラティス構造に着目した。半順序集合であり、JR-tree を、全支配関係を表現したラティス集合のサブセットとなるが、まずラティス集合でレベルを定義し、データの可視化を行った。レベル 0 が原点、レベル1が、スカイライン集合とし、レベル2、レベル3など、低レベル層を「pseudo-skyline 」と名付け、「ほぼ支配する点」の集合の定義、3次元および4次元空間で実装し、convex 集合(下側 envelope)との比較を行い、評価した。 概ね予定通りに研究計画は進行しており、スカイラインなど、支配関係から抽出できる、「特徴が extreme なサンプル集合」と、幾何構造から抽出される「クラスターの外殻に相当する集合」との関係について直感的な理解を深めることを目的として、全支配関係によるラティスの可視化を行い、幾何構造との関係を、Convex の下側エンベロープとの比較実験を行うなど、当初の計画にはない実装実験を行い、計画以上に大きな成果があげられたと言える。一方で、今年度、本研究に関して、論文執筆を行っていないという点で、計画通りではないため、全体としては「概ね順調」と評価し報告する。
|
Strategy for Future Research Activity |
実験計画に従って、pseudo skyline 構造を考え、それを extreme なデータを集めたサンプル集合として用いることで、時冗長な計算を避けることで、より高速に学習を行うことを目指す。 支配関係を利用して、ラティス構造を考え、レベルを定義し、そこから導出したpseudo skyline の評価を行う際、幾何構造を利用して実際の、凸包を計算し、比較を行うのは、点数が大きい場合、次元の冪乗にきいてくるため、数千点のデータについて、実用的な実験は、4次元程度が限界ではないかと感じている。 pseudo-skyline のサンプル集合としての評価を行う場合は、実際のデータを用いて、サンプル集合の評価を行うことについての検討も必要であると思われる。 また、pseudo-skyline など、レベル2以下については、in-edge の数、すなわち、支配される関係の多寡と、サンプル集合としての性能について、すなわち、良いサンプル点であるかどうかの判断が、被支配数と関係あるかについては、さらなる考察が必要であると考えている。
|
Causes of Carryover |
本年度は、国際会議で海外発表を行わなかったため、海外出張費用が使われなかった。来年度以降に、発表を行う。
|
Research Products
(2 results)