Extraction of dominant boundary set from high dimensional data
Project/Area Number |
18K11426
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Review Section |
Basic Section 61030:Intelligent informatics-related
|
Research Institution | The University of Tokyo |
Principal Investigator |
inaba Mary 東京大学, 大学院情報理工学系研究科, 准教授 (60282711)
|
Project Period (FY) |
2018-04-01 – 2023-03-31
|
Project Status |
Completed (Fiscal Year 2022)
|
Budget Amount *help |
¥4,420,000 (Direct Cost: ¥3,400,000、Indirect Cost: ¥1,020,000)
Fiscal Year 2022: ¥780,000 (Direct Cost: ¥600,000、Indirect Cost: ¥180,000)
Fiscal Year 2021: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2020: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2019: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2018: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
|
Keywords | 最適化問題 / 幾何構造を利用する最適化 / グラフ構造を利用する最適化 / スカイライン問題 / SAT ソルバ / スカイライン / パレート最適 / サンプルの多様性 / クラスタリング問題 / 凸包 / ミニマ / 特徴抽出 / スカイライン計算 / 計算幾何 / データ抽出 / 境界集合 |
Outline of Final Research Achievements |
In order to improve the performance of learning, prediction, and search using large-scale data, we proposed a method for extracting good sample data set. For example, random sampling rarely samples the "data with outstanding features" such as the maximum value of a certain feature value, and naive geometric approach to get such kind of data is to compute convex hull in the feature space, whose computing cost is extremely high especially in the high dimensional space. To tackle with this problem, we utilize BJR-tree structure, which is originally invented to solve the skyline problem using dominance relationship between a pair of data in the feature space. Roughly speaking, this approach is, to convert the geometric problem into graph (or, tree) problem, and the computational cost is not high comparing with computing convex hull in the high dimensional space. Experimental result shows that this approach is good for the low and the middle dimensional space.
|
Academic Significance and Societal Importance of the Research Achievements |
BJR-tree 構造を用いて、pseudo-skyline 問題を効率よく解くことで、サンプル抽出することにより、「際立った特徴を持つデータ」をこぼすことなく、サンプル集合を得ることができる。この手法を、TCP/IP輻輳制御問題および、アプリケーション実行時に利用されるアドレス検出の強化学習実験で検証した結果、低中次元の特徴空間においては、概ね、予想通りの結果を得ることができたたが、高次元化すると、psuedo-skyline 集合が爆発的に増大してしまうため、多様性を用いた大規模データの探索問題に問題範囲を広げ、幾何構造に重ねる形でグラフ構造(本研究ではラティス)を用いた提案も行った。
|
Report
(6 results)
Research Products
(7 results)