• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

縮約類似度行列を用いた大規模文書データに対するスペクトラルクラスタリング

研究課題

研究課題/領域番号 20500124
研究機関茨城大学

研究代表者

新納 浩幸  茨城大学, 工学部, 准教授 (10250987)

キーワード縮約類似度行列 / スペクトラルクラスタリング / 文書クラスタリング / 大規模データ / コミッティ / 距離学習 / 名詞間距離 / シソーラス
研究概要

本研究の目的は、大規模な文書データ集合をスペクトラルクラスタリングによってクラスタリングするための手法を提案することである。提案手法は以下の4つ処理からなる。(1)大規模データを小規模クラスタに分割する、(2)小規模クラスタをクラスタリングする、(3)各クラスタからのCommitteeを作成する、(4)Committee群から縮約類似度行列を作成する。平成20年度までに、ほぼシステムは完成した。平成21年度は精度の改善を目的に名詞間距離の測定手法の研究に取り組んだ。主に2つの観点から研究を行った。1つはシソーラスIDを主要語義に絞ることである。名詞間距離の測定を行う際には、通常、名詞のシソーラスIDを利用する。ただし多くの名詞は多義語であるため、不要なシソーラスIDが付与される。正しい語義のシソーラスIDを推定することは難しいため、ここでは名詞の主要語義を予め調べでおき、主要語義以外のIDを利用しない手法を開発した。もう1つは名詞をベクトルで表現する手法を開発した。名詞をベクトル化することで、シソーラスを利用するよりも細かな距離設定が可能である。ベクトル化する際には次元の設定、次元の値の算出が問題だが、ここではWebディレクトリを利用することでそれらの問題に対処した。最後に名詞間距離を精度よく測ることで、文書クラスタリングの精度が向上することを示した。成果と年次大会に4件の論文発表を行った。

  • 研究成果

    (5件)

すべて 2010 その他

すべて 学会発表 (4件) 備考 (1件)

  • [学会発表] Webディレクトリを利用した意味的関連語集合の作成2010

    • 著者名/発表者名
      佐々木稔, 三上健太, 新納浩幸
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-11
  • [学会発表] Webディレクトリを利用した名詞のジャンルベクトルの作成2010

    • 著者名/発表者名
      林華, 新納浩幸, 佐々木稔
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-10
  • [学会発表] LOFとOne Class SVMを用いた特異用例の検出2010

    • 著者名/発表者名
      新納浩幸, 佐々木稔
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-10
  • [学会発表] 名詞の主要語義の推定と語義識別への応用2010

    • 著者名/発表者名
      江口晃, 新納浩幸, 佐々木稔
    • 学会等名
      言語処理学会第16回年次大会
    • 発表場所
      東京大学
    • 年月日
      2010-03-10
  • [備考]

    • URL

      http://info.ibaraki.ac.jp/script/websearch/index.htm

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi