本研究の目的は、大規模な文書データ集合をスペクトラルクラスタリングによってクラスタリングするための手法を提案することである。提案手法は以下の4つ処理からなる。(1)大規模データを小規模クラスタに分割する、(2)小規模クラスタをクラスタリングする、(3)各クラスタからのCommitteeを作成する、(4)Committee群から縮約類似度行列を作成する。平成20年度は、本研究の中心となる(3)と(4)に対して重点的に取り組んだ。具体的には、既存のデータセットの各データが小規模クラスタの代表点だと考える。これによって(1)の処理が仮想的に行えたと見なせる。次に既存のデータセットをk-meansでクラスタリングすることで(2)の処理結果も得ることができた。(3)に関しては2つのアプローチを試みた。1つは各クラスタに対してその重心を求め、クラスタ内の各データとその重心までの距離を測り、この距離に基づいてCommitteeを作成するアプローチである。距離によってCommitteeに属するか属さないかを判定するが、その際の閾値の設定が問題である。この設定には様々な統計的手法を取り入れることで適切な閾値を設定した。もう1つのアプローチは各クラスタのデータを訓練データと考えて、帰納学習の手法を用いて分類器を作成し、その分類器によってCommitteeを作成するアプローチである。具体的にはそのクラスタに真に属する確率を調べ、ある確率以上のデータを選出することでCommitteeを作成した。学習手法としてはNaive Bayesを利用した。これは文書データに対して親和性が高い、分類器学習の計算コストが低い、分類器は確率を算出できるなどの点で、本手法に適していると考えたからである。成果としては国際会議3件、研究会5件の論文発表を行った。
|