研究実績の概要 |
大規模高次元疎データに適した、転置ファイルk-meansクラスタリングアルゴリズム(inverted-file k-means clustering algorithm)(以下、IVFと呼ぶ)を提案した。IVFは、大規模高次元疎データに対して、標準的なk-meansクラスタリングアルゴリズムであるLloyd'sアルゴリズムと同一の解を維持しつつ、高速かつ低メモリ消費量で効率的に動作する。高性能性は、2つの異なるデータ表現に起因する。1つは、オブジェクト特徴ベクトルと平均特徴ベクトル双方の疎表現である。もう一つは、平均特徴ベクトルの集合の転置ファイルデータ構造である。前者によって、消費メモリ量の削減を可能にし、後者によって、高速性を可能にした。 これらの表現の効果を確認するため、異なるデータ表現とデータ構造を有する3つのアルゴリズムを設計し、アウトオブオーダー実行が可能なスーパースカラープロセッサと、深いメモリ階層を備えた最新の計算機システムを用いて実験を行った。実験対象文書としては、医学分野の代表的な文献情報データベースであるPubMedの要約文書のうち1,000,000文書と、The New York Timesの記事のうち1,285,944記事を用いた。これらの大規模な実文書データセットにIVFを適用して実験を行い、設計されたアルゴリズムよりも優れた性能が得られることを実証した。 また、命令当たりクロックサイクル(CPI)モデルを用いて、最新の計算機システムにおける高速動作の要因を分析した。その結果、キャッシュミス数、分岐誤予測数、完了命令数(投機的実行において実際に必要であると証明された命令数)という3つの性能劣化要因を抑制できることを明らかにした。
|