2008 年度実績報告書

縮約類似度行列を用いた大規模文書データに対するスペクトラルクラスタリング

研究課題

研究課題/領域番号	20500124
研究機関	茨城大学
研究代表者	新納浩幸茨城大学, 工学部, 准教授 (10250987)
キーワード	縮約類似度行列 / スペクトラルクラスタリング / 文書クラスタリング / 大規模データ / コミッティ / 距離学習 / 名詞間距離 / シソーラス
研究概要	本研究の目的は、大規模な文書データ集合をスペクトラルクラスタリングによってクラスタリングするための手法を提案することである。提案手法は以下の4つ処理からなる。(1)大規模データを小規模クラスタに分割する、(2)小規模クラスタをクラスタリングする、(3)各クラスタからのCommitteeを作成する、(4)Committee群から縮約類似度行列を作成する。平成20年度は、本研究の中心となる(3)と(4)に対して重点的に取り組んだ。具体的には、既存のデータセットの各データが小規模クラスタの代表点だと考える。これによって(1)の処理が仮想的に行えたと見なせる。次に既存のデータセットをk-meansでクラスタリングすることで(2)の処理結果も得ることができた。(3)に関しては2つのアプローチを試みた。1つは各クラスタに対してその重心を求め、クラスタ内の各データとその重心までの距離を測り、この距離に基づいてCommitteeを作成するアプローチである。距離によってCommitteeに属するか属さないかを判定するが、その際の閾値の設定が問題である。この設定には様々な統計的手法を取り入れることで適切な閾値を設定した。もう1つのアプローチは各クラスタのデータを訓練データと考えて、帰納学習の手法を用いて分類器を作成し、その分類器によってCommitteeを作成するアプローチである。具体的にはそのクラスタに真に属する確率を調べ、ある確率以上のデータを選出することでCommitteeを作成した。学習手法としてはNaive Bayesを利用した。これは文書データに対して親和性が高い、分類器学習の計算コストが低い、分類器は確率を算出できるなどの点で、本手法に適していると考えたからである。成果としては国際会議3件、研究会5件の論文発表を行った。

研究成果
(9件)

すべて 2009 2008 その他

すべて学会発表 (8件) 備考 (1件)

[学会発表] 用例間類似度測定のための属性重みの推定2009
- 著者名/発表者名
  新納浩幸, 佐々木稔
- 学会等名
  言語処理学会第15回年次大会
- 発表場所
  鳥取大学
- 年月日
  20090300
[学会発表] 商品説明文からの検索語に対する関連語抽出2009
- 著者名/発表者名
  久保田敦, 佐々木稔, 新納浩幸
- 学会等名
  言語処理学会第15回年次大会
- 発表場所
  鳥取大学
- 年月日
  20090300
[学会発表] グラフクラスタリングによる単語用例クラスタリング2009
- 著者名/発表者名
  相原功昌, 佐々木稔, 新納浩幸
- 学会等名
  言語処理学会第15回年次大会
- 発表場所
  鳥取大学
- 年月日
  20090300
[学会発表] 文書クラスタリングを対象としたWeighted Kernel K-meansの初期値設定法2009
- 著者名/発表者名
  茂木哲矢, 新納浩幸, 佐々木稔
- 学会等名
  言語処理学会第15回年次大会
- 発表場所
  鳥取大学
- 年月日
  20090300
[学会発表] 類似性の不明なデータを手がかりとして与えるクラスタリング手法2009
- 著者名/発表者名
  佐々木稔, 松本良太, 新納浩幸
- 学会等名
  DEIMフォーラム2009
- 発表場所
  静岡県嬬恋リゾート
- 年月日
  20090300
[学会発表] Ping-pong Document Clustering using NMF and Linkage-Based Refinement2008
- 著者名/発表者名
  Hiroyuki Shinnou, Minoru Sasaki
- 学会等名
  Language Resources and Evaluation (LREC) 2008
- 発表場所
  マラケッシュ(モロッコ)
- 年月日
  20080600
[学会発表] Spectral Clustering for a Large Data Set by Reducing the Similarity Matrix Size2008
- 著者名/発表者名
  Hiroyuki Shinnou, Minoru Sasaki
- 学会等名
  Language Resources and Evaluation (LREC) 2008
- 発表場所
  マラケッシュ(モロッコ)
- 年月日
  20080600
[学会発表] Division of Example Sentences Based on the Meaning of a Target Word Using Semi-supervised Clustering2008
- 著者名/発表者名
  Hiroyuki Shinnou, Minoru Sasaki
- 学会等名
  Language Resources and Evaluation (LREC) 2008
- 発表場所
  マラケッシュ(モロッコ)
- 年月日
  20080600
[備考]
- URL
  http://info.ibaraki.ac.jp/scripts/websearch/index.htm

2008 年度 実績報告書

縮約類似度行列を用いた大規模文書データに対するスペクトラルクラスタリング

研究代表者

新納 浩幸 茨城大学, 工学部, 准教授 (10250987)

研究成果

[学会発表] 用例間類似度測定のための属性重みの推定2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 商品説明文からの検索語に対する関連語抽出2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] グラフクラスタリングによる単語用例クラスタリング2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 文書クラスタリングを対象としたWeighted Kernel K-meansの初期値設定法2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 類似性の不明なデータを手がかりとして与えるクラスタリング手法2009

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Ping-pong Document Clustering using NMF and Linkage-Based Refinement2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Spectral Clustering for a Large Data Set by Reducing the Similarity Matrix Size2008

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Division of Example Sentences Based on the Meaning of a Target Word Using Semi-supervised Clustering2008

著者名/発表者名

学会等名

発表場所

年月日

[備考]

URL

2008 年度実績報告書

新納浩幸茨城大学, 工学部, 准教授 (10250987)