• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2008 Fiscal Year Annual Research Report

縮約類似度行列を用いた大規模文書データに対するスペクトラルクラスタリング

Research Project

Project/Area Number 20500124
Research InstitutionIbaraki University

Principal Investigator

新納 浩幸  Ibaraki University, 工学部, 准教授 (10250987)

Keywords縮約類似度行列 / スペクトラルクラスタリング / 文書クラスタリング / 大規模データ / コミッティ / 距離学習 / 名詞間距離 / シソーラス
Research Abstract

本研究の目的は、大規模な文書データ集合をスペクトラルクラスタリングによってクラスタリングするための手法を提案することである。提案手法は以下の4つ処理からなる。(1)大規模データを小規模クラスタに分割する、(2)小規模クラスタをクラスタリングする、(3)各クラスタからのCommitteeを作成する、(4)Committee群から縮約類似度行列を作成する。平成20年度は、本研究の中心となる(3)と(4)に対して重点的に取り組んだ。具体的には、既存のデータセットの各データが小規模クラスタの代表点だと考える。これによって(1)の処理が仮想的に行えたと見なせる。次に既存のデータセットをk-meansでクラスタリングすることで(2)の処理結果も得ることができた。(3)に関しては2つのアプローチを試みた。1つは各クラスタに対してその重心を求め、クラスタ内の各データとその重心までの距離を測り、この距離に基づいてCommitteeを作成するアプローチである。距離によってCommitteeに属するか属さないかを判定するが、その際の閾値の設定が問題である。この設定には様々な統計的手法を取り入れることで適切な閾値を設定した。もう1つのアプローチは各クラスタのデータを訓練データと考えて、帰納学習の手法を用いて分類器を作成し、その分類器によってCommitteeを作成するアプローチである。具体的にはそのクラスタに真に属する確率を調べ、ある確率以上のデータを選出することでCommitteeを作成した。学習手法としてはNaive Bayesを利用した。これは文書データに対して親和性が高い、分類器学習の計算コストが低い、分類器は確率を算出できるなどの点で、本手法に適していると考えたからである。成果としては国際会議3件、研究会5件の論文発表を行った。

  • Research Products

    (9 results)

All 2009 2008 Other

All Presentation (8 results) Remarks (1 results)

  • [Presentation] 用例間類似度測定のための属性重みの推定2009

    • Author(s)
      新納浩幸, 佐々木稔
    • Organizer
      言語処理学会第15回年次大会
    • Place of Presentation
      鳥取大学
    • Year and Date
      20090300
  • [Presentation] 商品説明文からの検索語に対する関連語抽出2009

    • Author(s)
      久保田敦, 佐々木稔, 新納浩幸
    • Organizer
      言語処理学会第15回年次大会
    • Place of Presentation
      鳥取大学
    • Year and Date
      20090300
  • [Presentation] グラフクラスタリングによる単語用例クラスタリング2009

    • Author(s)
      相原功昌, 佐々木稔, 新納浩幸
    • Organizer
      言語処理学会第15回年次大会
    • Place of Presentation
      鳥取大学
    • Year and Date
      20090300
  • [Presentation] 文書クラスタリングを対象としたWeighted Kernel K-meansの初期値設定法2009

    • Author(s)
      茂木哲矢, 新納浩幸, 佐々木稔
    • Organizer
      言語処理学会第15回年次大会
    • Place of Presentation
      鳥取大学
    • Year and Date
      20090300
  • [Presentation] 類似性の不明なデータを手がかりとして与えるクラスタリング手法2009

    • Author(s)
      佐々木稔, 松本良太, 新納浩幸
    • Organizer
      DEIMフォーラム2009
    • Place of Presentation
      静岡県嬬恋リゾート
    • Year and Date
      20090300
  • [Presentation] Ping-pong Document Clustering using NMF and Linkage-Based Refinement2008

    • Author(s)
      Hiroyuki Shinnou, Minoru Sasaki
    • Organizer
      Language Resources and Evaluation (LREC) 2008
    • Place of Presentation
      マラケッシュ(モロッコ)
    • Year and Date
      20080600
  • [Presentation] Spectral Clustering for a Large Data Set by Reducing the Similarity Matrix Size2008

    • Author(s)
      Hiroyuki Shinnou, Minoru Sasaki
    • Organizer
      Language Resources and Evaluation (LREC) 2008
    • Place of Presentation
      マラケッシュ(モロッコ)
    • Year and Date
      20080600
  • [Presentation] Division of Example Sentences Based on the Meaning of a Target Word Using Semi-supervised Clustering2008

    • Author(s)
      Hiroyuki Shinnou, Minoru Sasaki
    • Organizer
      Language Resources and Evaluation (LREC) 2008
    • Place of Presentation
      マラケッシュ(モロッコ)
    • Year and Date
      20080600
  • [Remarks]

    • URL

      http://info.ibaraki.ac.jp/scripts/websearch/index.htm

URL: 

Published: 2010-06-11   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi