2019 Fiscal Year Final Research Report
A Clustering Algorithm based on Mutually Ranking
Project/Area Number |
16K00165
|
Research Category |
Grant-in-Aid for Scientific Research (C)
|
Allocation Type | Multi-year Fund |
Section | 一般 |
Research Field |
Multimedia database
|
Research Institution | Tokyo Metropolitan College of Industrial Technology |
Principal Investigator |
|
Project Period (FY) |
2016-10-21 – 2020-03-31
|
Keywords | クラスタリング / 相互隣接グラフ / 相互ランキング / 類似度 |
Outline of Final Research Achievements |
A clustering algorithm is a fundamental tool for analyzing data set. Most algorithms are used distance between the feature vectors described from each data. However, a feature vector is always extracted. In this case, we describe a set as a feature. If we use a feature based on a set, we can not use clustering algorithms using distance. Thus, we need new clustering algorithm for using both similarity and distance. A key idea of our clustering algorithm is to make mutually nearest neighbor graph (MNN-Graph). Our clustering algorithm consists of 5 steps; (1)Extract features from data set, (2)Make MNN-Graphwhich which regard data as vertexes, (3)Extract cliques in MNN-Graph, (4)Return to step (2) until a termination condition, (5)Combined similar sub-graph set,then output the result set as a cluster. We experimented on a set of document data.From experiments, we can say that accuracy of clustering was not so bad.
|
Free Research Field |
データ工学
|
Academic Significance and Societal Importance of the Research Achievements |
Society5.0を牽引するコア技術として、データ分析技術が必須となる。現在、AI等を活用したデータ分析技術が盛んに開発されている。しかし、データ分析における特徴量の選定により、分析すらできないことがある。本研究は、データ同士が相互に類似しているというシンプルな特徴を用いたクラスタリングアルゴリズムであり、クラスタリング生成の構造がシンプルである。したがって、データ間の類似の尺度が距離の公理を満たす・満たさないに関わらず適用可能である。精度・速度等が不足していることはあるが、汎用なクラスタリングアルゴリズムとして位置づけることができる。
|