2017 Fiscal Year Research-status Report

相互接続に基づいたクラスタリング手法の開発

Research Project

Project/Area Number	16K00165
Research Institution	Tokyo Metropolitan College of Industrial Technology
Principal Investigator	小早川倫広東京都立産業技術高等専門学校, ものづくり工学科, 教授 (00334582)
Project Period (FY)	2016-10-21 – 2019-03-31
Keywords	クラスタリング / 相互隣接グラフ / 検索
Outline of Annual Research Achievements	本年度は，規模を大きくしたテキストデータに対して提案アルゴリズムが適応可能であるかどうか評価するするために，英字新聞記事を対象に評価実験を開始した。研究計画におけて，Webからクローリング技術を用いいて英字新聞記事を収集する予定であったが，著作権およびネットワークトラフィックの関係を考慮し，英字新聞記事データ（約20,000件）を予算で購入した．購入した英字新聞記事データから特徴量抽出に必要なデータ，記事カテゴリのラベル等クラスタリング評価に必要な情報を抽出するためのフィルタを作成し，評価実験のための基本データを作成した．さらに，テキストデータマイニングを専門とする研究者の助言により，テキストマイニングに用いられている特徴量抽出法　Word2Vecを用い，各英語新聞記事データから特徴ベクトルを得た．得られた特徴ベクトルの基礎評価として，既存のクラスタリングアルゴリズム（クラスタ分析，k-means法など）を適用し，クラスタリング精度を求めた．さらに提案手法を得られた特徴ベクトル集合に対して適用した。昨年度の実験から，クラスタリングに要する時間は，入力データ数の増加に伴いクリーク抽出処理は指数的に増加するであろうという知見はあったが，それ以外に相互隣接としての条件となる検索順位，部分グラフ併合処理のパタメータチューニングが必要であることいが分かった．すなわち，クラスタリングの高速化よりもにクラスタリング精度に関係するパラメータチーニングの問題を先に解決する必要があることが分かった．
Current Status of Research Progress	Current Status of Research Progress 4: Progress in research has been delayed. Reason 研究の進捗において，「遅れている」と判断した大きな原因は，取り扱うデータ量に対する提案アルゴリズムのもつ弱点の見積もりができていなかったことである．まずその１つして，検索順位が本アルゴリズムの大きなパラメータになる．大量のデータを取り扱おうとした場合，検索順位パラメータの設定範囲が大きくなり，実験の数が膨大になった。そのため，計算機のリソース，人的リソース不足が顕著に現れた．さらに，大量のデータを取り扱うことでクラスタリングの様子を確認するための時間の確保ができていなかった．
Strategy for Future Research Activity	本年度で明らかになった，アルゴリズムの問題点に関して１）検索順位に関するパラメータと部分グラフ併合処理の組み合わせに関し，より多くの実験を行い，アルゴリズムの改良ポイントを見つけ出すとともに，２）クラスタリングの様子を可視化することにより，効率的な評価を行える環境を整備する。これにより，進捗の遅れをできるだけ取り戻す．
Causes of Carryover	大きな理由は，国際会議等に採録がなかったため，旅費を使う理由がなかったことと，データを加工・整理する人員が手当できなかったためである。またこれらは，次年度データ購入に当てる予定である．