Speeding up the clustering methods with summable lower bounds in contractive mappings
Project/Area Number |
17K00159
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Research Field |
Multimedia database
|
Research Institution | University of Shizuoka |
Principal Investigator |
IKEDA Tetsuo 静岡県立大学, 経営情報学部, 教授 (60363727)
|
Co-Investigator(Kenkyū-buntansha) |
斉藤 和巳 神奈川大学, 理学部, 教授 (80379544)
青山 一生 日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 主任研究員 (80447028)
|
Project Period (FY) |
2017-04-01 – 2020-03-31
|
Project Status |
Completed (Fiscal Year 2019)
|
Budget Amount *help |
¥4,290,000 (Direct Cost: ¥3,300,000、Indirect Cost: ¥990,000)
Fiscal Year 2019: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2018: ¥910,000 (Direct Cost: ¥700,000、Indirect Cost: ¥210,000)
Fiscal Year 2017: ¥2,470,000 (Direct Cost: ¥1,900,000、Indirect Cost: ¥570,000)
|
Keywords | 情報検索 / クラスタリング / 縮小写像 / クラスリング / 可視化 |
Outline of Final Research Achievements |
The purpose of this research project is to establish efficient clustering and similarity search technologies for large data: (1) We proposed index construction algorithm that recursively builds a CBT (complete binary tree) index, and an online similarity search algorithm that efficiently prunes unnecessary branches and filters objects by using the CBT index. (2) We proposed an efficient acceleration algorithm for Lloyd-type k-means clustering, which employs a projection-based filter (PRJ) to avoid unnecessary distance calculations. The PRJ exploits a summable lower bound on a squared distance defined in a lower-dimensional space to which data points are projected. (3) We proposed an inverted-file k-means clustering algorithm (IVF). To achieve high performance, IVF exploits two distinct data representations. One is a sparse expression for both the object and mean feature vectors. The other is an inverted-file data structure for a set of the mean feature vectors.
|
Academic Significance and Societal Importance of the Research Achievements |
画像、文書、DNA 配列などのマルチメディアデータは近年爆発的に増加している。これらのマルチメディアデータの集合の基本構造を把握し理解するための技法としてクラスタリング技法と類似検索技法がある。クラスタリングとは、データの集合をクラスタという互いに似ているデータからなる部分集合に分けることである。類似検索とは、入力となるデータと類似度の大きいデータを検索することである。 クラスタリングおよび類似検索ともに、一般にデータ量が大きいと処理時間を多く要することが知られており、高効率なクラスタリング技法及び類似検索技法の実現が強く求められている。本研究の成果はこの要望に応えるものである。
|
Report
(4 results)
Research Products
(5 results)