2019 Fiscal Year Annual Research Report

Speeding up the clustering methods with summable lower bounds in contractive mappings

Research Project

Project/Area Number	17K00159
Research Institution	University of Shizuoka
Principal Investigator	池田哲夫静岡県立大学, 経営情報学部, 教授 (60363727)
Co-Investigator(Kenkyū-buntansha)	斉藤和巳神奈川大学, 理学部, 教授 (80379544) 青山一生日本電信電話株式会社NTTコミュニケーション科学基礎研究所, その他部局等, 主任研究員 (80447028)
Project Period (FY)	2017-04-01 – 2020-03-31
Keywords	情報検索 / クラスリング / 可視化 / 縮小写像
Outline of Annual Research Achievements	大規模高次元疎データに適した、転置ファイルk-meansクラスタリングアルゴリズム（inverted-file k-means clustering algorithm）（以下、IVFと呼ぶ）を提案した。IVFは、大規模高次元疎データに対して、標準的なk-meansクラスタリングアルゴリズムであるLloyd'sアルゴリズムと同一の解を維持しつつ、高速かつ低メモリ消費量で効率的に動作する。高性能性は、２つの異なるデータ表現に起因する。１つは、オブジェクト特徴ベクトルと平均特徴ベクトル双方の疎表現である。もう一つは、平均特徴ベクトルの集合の転置ファイルデータ構造である。前者によって、消費メモリ量の削減を可能にし、後者によって、高速性を可能にした。これらの表現の効果を確認するため、異なるデータ表現とデータ構造を有する３つのアルゴリズムを設計し、アウトオブオーダー実行が可能なスーパースカラープロセッサと、深いメモリ階層を備えた最新の計算機システムを用いて実験を行った。実験対象文書としては、医学分野の代表的な文献情報データベースであるPubMedの要約文書のうち1,000,000文書と、The New York Timesの記事のうち1,285,944記事を用いた。これらの大規模な実文書データセットにIVFを適用して実験を行い、設計されたアルゴリズムよりも優れた性能が得られることを実証した。また、命令当たりクロックサイクル（CPI）モデルを用いて、最新の計算機システムにおける高速動作の要因を分析した。その結果、キャッシュミス数、分岐誤予測数、完了命令数（投機的実行において実際に必要であると証明された命令数）という３つの性能劣化要因を抑制できることを明らかにした。

Research Products
(1 results)

All Journal Article (1 results) (of which Open Access: 1 results)

[Journal Article] Inverted-File k-Means Clustering: Performance Analysis2020
- Author(s)
  Kazuo Aoyama, Kazumi Saito, Tetsuo Ikeda
- Journal Title
  
  arXiv:2002.09094
  
  Volume: － Pages: －
- Open Access