2010 Fiscal Year Annual Research Report
縮約類似度行列を用いた大規模文書データに対するスペクトラルクラスタリング
Project/Area Number |
20500124
|
Research Institution | Ibaraki University |
Principal Investigator |
新納 浩幸 茨城大学, 工学部, 准教授 (10250987)
|
Keywords | 縮約類似度行列 / スペクトラルクラスタリング / 文書クラスタリング / 距離学習 / 最大マージン化最近傍法 |
Research Abstract |
本研究では以下に分割できる。(1)大規模データを小規模クラスタに分割する方法、(2)小規模クラスタのクラスタリング方法、(3)各クラスタからのCommitteeの作成方法、(4)Committee群からの縮約類似度行列の作成方法。平成20年度は(3)と(4)、平成21年度は(1)と(2)に取り組んだ。その結果、本研究の目的を達成することができた。平成22年度は残された課題の解決と、最終的な手法の評価を行った。 残された課題として、文書間距離の設定がある。文書クラスタリングの場合、クラスタリング手法よりも文書間距離の設定が精度に影響する。ここでは2つのアプローチを試した。1つはWebディレクトリを用いて名詞間距離を精緻に求め、それらを利用して文書間距離をより適切に設定する手法であり、もう1つは少量の教師データを与える手法である。後者の手法では、複数のペアの文書間が同じカテゴリに属する文書かどうかのラベルを与え、それを教師データとすることで、文書間の距離をクラスタリングにとって最適になるように学習する距離学習の手法を利用した。いくつかの距離学習手法を比較実験し、最大マージン化最近傍法が本タスクにおいて最も効果があることを確認した。またこの距離学習の手法の有効性を語義識別問題により確認した。最終的には、大規模データをk-meansにより小規模クラスタに分割し、各クラスタの重心と最も近いデータからCommitteeを作成し、いくつかのCommittee間に同じカテゴリかどうかのラベルを与え、そこからCommittee間の距離を最大マージン化最近傍法により学習し、それを基に縮約類似度行列を作成した。その行列を利用してスペクトラルクラスタリングを行い、当初の大規模データのクラスタリングが行えた。結果は、直接k-meansでクラスタリングを行うよりも精度が向上した。
|
Research Products
(4 results)