2018 Fiscal Year Research-status Report
Project/Area Number |
16K00165
|
Research Institution | Tokyo Metropolitan College of Industrial Technology |
Principal Investigator |
小早川 倫広 東京都立産業技術高等専門学校, ものづくり工学科, 教授 (00334582)
|
Project Period (FY) |
2016-10-21 – 2020-03-31
|
Keywords | クラスタリング / 類似度 / 検索 |
Outline of Annual Research Achievements |
前年度購入した英字新聞記事データに対するクラスタリングでは、クラスタリングの精度が出ないということ分かっていた。本研究では、クラスタリングの精度を向上するのではなく、距離の公理を満たさない類似度を用いたクラスタリング手法を提案することであるため、クラスタリングの精度が見込めさらにデータ数が数万件用意できるデータ集合を調査していた。さらに、距離を用いたクラスタリング手法と比較するため、データから抽出可能な特徴量は、多次元ベクトルで表現されることが望ましい。しかし、この条件を満たすオープンデータを調査したが、利用可能なデータ集合は見つけることが困難であった。そこで、現有のデータの選別作業を実施した。今年度は、このデータ選別作業に時間を要し、本研究課題の本題であるクラスタリングの高速化は実現できていない。
|
Current Status of Research Progress |
Current Status of Research Progress
4: Progress in research has been delayed.
Reason
当初の研究エフォートが確保できず、クラスタリング評価に用いるデータ集合の生成(選別)作業に時間を割くことができなかった。このことにより、クラスタリング性能評価実験を実施しておらず、データの特性、クラスタリングの特性を観察できなかった。上記エフォートの確保部族に関しての理由については、研究期間延長願いに記している。
|
Strategy for Future Research Activity |
研究時間の確報を優先し、クラスタリング評価のためのデータ集合の生成を実施する。さらに提案するクラスタリング手法と既存のクラスタリング手法の比較を行うとともに、高速化に対するアルゴリズムの提案・実装・評価を実施する。まず、質の高いデータ集合の生成に時間を費やし、その後の実験を着実に実施できるようにする。
|
Causes of Carryover |
データ集合生成作業のみに時間を要したことにより、2018年度は研究費を支出していない。2019年度においては、研究期間延長により2018年度計画を実施する。
|