2018 Fiscal Year Research-status Report
Extraction of dominant boundary set from high dimensional data
Project/Area Number |
18K11426
|
Research Institution | The University of Tokyo |
Principal Investigator |
稲葉 真理 東京大学, 大学院情報理工学系研究科, 准教授 (60282711)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Keywords | 特徴抽出 / スカイライン計算 / ミニマ / パレート最適 |
Outline of Annual Research Achievements |
本研究では、高次元特徴空間に大規模点集合が与えられた時、オリジナルの集合の持つ「多様性」を維持する部分集合を抽出することで、効率の良い学習・推測を行うことを目的とし、多目的最適化の分野でパレート最適と称されような「際立った特徴を持つ」支配的境界集合の抽出を行うことを目指している。従来、特徴空間に与えられた、クラスタ集合(1クラス)の外側境界を抽出するためには、凸包、αハル、多面体、包含円などの幾何構造が用いられてきたが、これら幾何構造の持つ本質的性質から次元が上がるにつれ、計算が困難になることが知られている。 本研究では、2点間の「支配関係 」に焦点を当て、この2点間の半順序関係を用いて、特徴空間において、他の点から支配されない点集合「スカイライン」を「際立った特徴を持つ」データの集合と捉え、このスカイラインを高速に抽出することを目標とし、実装、実験を行った。実装実験においては、JRーtree 構造を提案し、このデータ構造を用いることで、15次元程度の特徴空間において、オンラインでのスカイライン計算が効率よく行えることを、示した。 また、このスカイラインは、特徴的な点がデータに含まれると、全ての点が、その点に支配され、十分な数の特徴点が抽出できないことが知られているため、スカイラインの概念を拡張し「pseudo-skyline 」と呼ぶ、「ほぼ支配する点」の集合の定義、及び、その計算のためのアルゴリズムを検討している。
|
Current Status of Research Progress |
Current Status of Research Progress
1: Research has progressed more than it was originally planned.
Reason
高速スカイライン計算については、実装実験を行い、予想を上回る成果をだしただけでなく、実際に、セルソーターの開発で、共同研究を行っている生物系の研究者から、実験データ(画像データ)の提供を受け、実際、セルソータで取得された画像データを用いた実験を行った。 また、シドニー大学でアルゴリズムを専門とする Peter Eades 教授らと共同研究を行い、"BJR-tree: Fast Skyline Computation Algorithm using Dominance Relation based Tree Structure", by Kenichi Koizumi, Peter Eades, Kei Hiraki, Mary Inaba で、論文を執筆し Journal of Data Science and Analytics(JDSA) February 2019, Volume 7, Issue 1, pp 17 に採録された。
|
Strategy for Future Research Activity |
スカイラインは、特徴的な点がデータに含まれると、全ての点が、その点に支配され、十分な数の特徴点が抽出できないことが知られているため、スカイラインの概念を拡張し「pseudo-skyline 」と呼ぶ、「ほぼ支配する点」の集合の定義、及び、その計算のためのアルゴリズムを検討している。
|
Causes of Carryover |
2018年度までは、博士課程の学生が実装を行っていたが、学生が博士号を取得したため、2019年度以降については、研究員を雇用し、実装のサポートを受ける予定である。このため、2018年度分の経費を、2019年度に使用する人件費に合わせて使うこととした。
|
Research Products
(3 results)