本研究の目的は、大規模な文書データ集合をスペクトラルクラスタリングによってクラスタリングするための手法を提案することである。提案手法は以下の4つ処理からなる。(1)大規模データを小規模クラスタに分割する、(2)小規模クラスタをクラスタリングする、(3)各クラスタからのCommitteeを作成する、(4)Committee群から縮約類似度行列を作成する。平成20年度までに、ほぼシステムは完成した。平成21年度は精度の改善を目的に名詞間距離の測定手法の研究に取り組んだ。主に2つの観点から研究を行った。1つはシソーラスIDを主要語義に絞ることである。名詞間距離の測定を行う際には、通常、名詞のシソーラスIDを利用する。ただし多くの名詞は多義語であるため、不要なシソーラスIDが付与される。正しい語義のシソーラスIDを推定することは難しいため、ここでは名詞の主要語義を予め調べでおき、主要語義以外のIDを利用しない手法を開発した。もう1つは名詞をベクトルで表現する手法を開発した。名詞をベクトル化することで、シソーラスを利用するよりも細かな距離設定が可能である。ベクトル化する際には次元の設定、次元の値の算出が問題だが、ここではWebディレクトリを利用することでそれらの問題に対処した。最後に名詞間距離を精度よく測ることで、文書クラスタリングの精度が向上することを示した。成果と年次大会に4件の論文発表を行った。
|