研究課題/領域番号 |
18K11426
|
研究機関 | 東京大学 |
研究代表者 |
稲葉 真理 東京大学, 大学院情報理工学系研究科, 准教授 (60282711)
|
研究期間 (年度) |
2018-04-01 – 2023-03-31
|
キーワード | サンプルの多様性 / スカイライン問題 / クラスタリング問題 / 凸包 |
研究実績の概要 |
大規模データを用いた学習・予測・探索では、オリジナルデータからサンプルデータを抽出し操作を行うことが一般的であるが抽出されたサンプル集合の性質が、学習・予測・探索の効率に対し大きな影響を与えることが知られており、アプリケーションの目的に合致したサンプル集合を効率よく求める手法が求められている。ランダムサンプリングでは、裾野データが抽出される確率は低く、ある特徴で最大値をとるといった「際立った特徴を持つデータ」はサンプルされず、オリジナルのデータ集合が持つ多様性が失われてしまう。一方、多次元空間を考え、データの凸包を求めれば「特徴が際立ったデータ」を抽出することができるが、この場合、高次元での計算コストが非常に高いことが知られている。本研究では、高次元空間で与えられた大規模データ集合が持つ「多様性」を表すような特徴的サンプル集合を求めること、たとえば、1クラスタであれば、クラスタの中心部のサンプルではなく、クラスタ境界付近に分布を偏らせたサンプル集合の高速抽出手法の確立をめざしている。 2020年度は、問題を単純化し、与えられた集合の重心を原点に移動したうえで、第一象限、すなわち $x_i >= i$ となるデータに関する境界付近のデータを、スカイライン集合として抽出することを考え、JR-tree データ構造の特徴を利用し、スカイラインの計算を行うと同時に、3次元において、データ集合の凸包を計算することで、スカイライン集合と、凸包を構成するデータの比較を、一様分布、正規分布について、比較実験を行った。 また、アルゴリズムの高速化のために、lazy evaluation の効果につていも、実験的に確かめること、そして、今後の拡張のために、次元数の増加と、スカイラインに含まれるサンプル数の割合の関連について、データを収集した。
|
現在までの達成度 (区分) |
現在までの達成度 (区分)
3: やや遅れている
理由
2020年度は、通常業務に加え、感染症対策および、大学一年生に対して行う初めてのオンライン上での計算機演習の準備、そして、夏と冬とで、異なる形式で行なわれたオンライン大学院入試およびオンラインと対面のハイブリッド大学院入試のための準備やリハーサルで、いつのまにか、時間がすぎてしまうという状況が続き、研究に投入できる体力・気力が不足していたと感じている。 また、国際会議がオンライン開催になったこともあり、学生の国際会議への投稿に対するモチベーションを維持することが困難で、平時であれば学生につよくすすめる、国内研究会での研究発表、および、修論の結果をまとめて学会投稿する作業が行えなかった。 実際にすすめた研究内容としては、計算機実験が主となっている。具体的には、2020年度は、第一象限、すなわち $x_i >= i$ となるデータに関する境界付近のデータをターゲットとして、スカイライン集合の計算としては、JR-tree データ構造を利用し、スカイラインの計算を行うと同時に、3次元でのデータ集合の凸包を計算し、スカイライン集合と、凸包を構成するデータの比較を、一様分布、正規分布について、比較実験を行った。 また、アルゴリズムの高速化のために、lazy evaluation の効果につていも、実験的に確かめ、今後の拡張のために、次元数の増加と、スカイラインに含まれるサンプル数の割合の関連について、データを収集した。
|
今後の研究の推進方策 |
2020年度までに、スカイライン計算に段数考慮した遅延評価を加えた高速化の提案・実装実験を行い、大規模データから抽出したサンプル集合の学習・予測効率に与える影響確認のため環境をととので、基礎データの収集を行ってきた。ここで行った実験の成果として、次元があがるにつれ、スカイラインに含まれるサンプル数が飛躍的に増加すること、この傾向は、凸包においても同様であることが実験的に確認できたことがあげられる。このような結果をふまえ、今後の研究方針として、高次元空間においては、次元削減を組み入れることが、予測効率へ与える影響に関する手法の有用性の検証のために必要になると思われる。 また、当初の研究計画に従い、「際立った特徴を持つデータ」の集合としてのスカイラインを、より頑健にするための拡張を行う。スカイライン計算では、例えば、大量の点を支配する異常データが1点出現するだけで、本来、抽出したかったはずのデータが大量に抽出されなくなる危険性が挙げられる。この欠点を改善し頑健にするため、「ルートにより近いノード」を、支配的境界集合として定義、データサイズを調整する問題を「Quasi-スカイライン」問題として提示することを行う。
|
次年度使用額が生じた理由 |
2020年度は、コロナのせいで、国際会議・国内会議での発表が、教員・学生あわせて、0件であったため、旅費が利用されず、次年度使用額が生じた。 2021年度は、コロナがおさまったら、学会出張を行い、発表を行いたいと考えている。
|