2018 Fiscal Year Research-status Report
縮小写像での積算型下限値によるクラスタリング法の高速化
Project/Area Number |
17K00159
|
Research Institution | University of Shizuoka |
Principal Investigator |
池田 哲夫 静岡県立大学, 経営情報学部, 教授 (60363727)
|
Co-Investigator(Kenkyū-buntansha) |
斉藤 和巳 神奈川大学, 理学部, 教授 (80379544)
青山 一生 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 主任研究員 (80447028)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Keywords | 情報検索 / クラスリング / 可視化 / 縮小写像 |
Outline of Annual Research Achievements |
マルチメディアデータのクラスタリング技術に関する研究を行った。 具体的には、大規模高次元データで多くのクラスを前提にした場合の、高速なクラスタリングアルゴリズムとして有名なLloyd型のアルゴリズムの効率的なacceleration手法を提案した。本研究の貢献は以下の3点である。 1)効率的なaccelerationのスキームを提案した。鍵となるのは、新たに導入したユークリッド距離自乗の積算型下限値である。研究計画書でも説明したように、距離自乗は自乗要素の和であるため、距離自乗要素の部分和は、距離自乗の下限値となる。従って、距離自乗要素を増やすことにより、下限値を改善できるという優れた性質を有する。 2)現実的なアルゴリズムを提案した。アルゴリズムは2つのfilterを用いる。第1は、上述した積算型下限値に基づく射影フィルタである。第2は、我々が以前に提案したフィルタに類似したフィルタであるinvariant centroid-pair based filter(ICP)である。PRJにおいては、低次元空間を生成する直交基底を得るために、所与のデータポイント集合の特異値分解を用いる。 3)実験によって、現時点で最速と考えられているDrakeアルゴリズムとDingアルゴリズムとの比較を行った。大規模高次元の画像データセット2種類(TinyImagesとHolidays)を用いて比較を行った。TinyImagesにおいては、ほぼ同程度のメモリ消費量で、約1/6の計算時間で計算可能であった。計算時間とメモリ消費量のバランスの元で優れた性能のアルゴリズムであることを示した。
|
Current Status of Research Progress |
Current Status of Research Progress
2: Research has progressed on the whole more than it was originally planned.
Reason
共同研究者は、大規模・高次元マルチメディアデータの様々な効率的処理方法の確立は情報学における重要な課題であると考え、本研究計画に先行する同一研究代表者の研究計画である基盤研究C「メトリック空間オブジェクトの縮小埋め込みによる類似検索の高速化」、基盤研究C「一般化ピボットでのデータ構造化技術による類似検索の高速化」以来一貫して取り組んできている。本研究計画は、大規模・高次元マルチメディアデータの様々な効率的処理方法の中でも、重要性の高い課題の一つであるクラスタリング技法の効率化に焦点をあてたものである。 採録にいたった研究成果は1本と少ないものの、国内の最高レベルの査読付き英文論文誌に採録されたことと、研究の重要性から、進捗は「ほぼ計画通り」であると判断する。
|
Strategy for Future Research Activity |
これまでに考案した技術の高度化と、これら技術の有効性の実証評価を引き続き進める。すなわち、当初計画通り、重点研究項目は以下に示す技術の確立や評価となる。 1: 多様なメトリック空間を対象とした積算型縮小写像技術の構築とその性能評価 2: 縮小写像混合方式によるクラスタリング構造化技術の構築とその性能評価 3: クラスタ構造分析のためのアノテーション付き可視化技術の構築とその性能評価 4.積算型縮小写像に関する理論的性質の解明と理論基盤の確立
|
Causes of Carryover |
神奈川大学の研究分担者において次年度使用が生じた理由は、国際会議に1件投稿する予定だったのが間に合わなかったためであり、次年度に国際会議の投稿費、出張費に使用予定である。 NTTの研究分担者において次年度使用が発生した理由は、購入した物品が予想価格よりも安価に購入できたためであり、次年度に周辺機器・書籍等に使用予定である。
|