• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2007 Fiscal Year Annual Research Report

半教師有りクラスタリング手法を用いた語義別用例の収集

Research Project

Project/Area Number 19011001
Research InstitutionIbaraki University

Principal Investigator

新納 浩幸  Ibaraki University, 工学部, 准教授 (10250987)

Co-Investigator(Kenkyū-buntansha) 佐々木 稔  茨城大学, 工学部, 講師 (60344834)
Keywords半教師有り / クラスタリング / 語義別用例 / 能動学習 / 素性
Research Abstract

本研究の目的は、語義別用例を収集するシステムを作成すること、またそのシステムを利用して、本領域で作成されるコーパスを評価することである。作成するシステムでは半教師有りクラスタリング手法を用いる。システムの作成を本年度行い、コーパスの評価を次年度行う。本年度はまず語義別用例収集のための半教師有りクラスタリングの手法を提案し、次にその手法を実装させた語義別用例収集システムを作成した。提案した半教師有りクラスタリング手法は、まず通常のクラスタリング手法を用いて、多数の小さなクラスタにデータを分割する。次に各クラスタから代表点を求め、代表点どうしが同じクラスタに属するかどうかをユーザに尋ねる。そのユーザからのフィードバック情報から多数のクラスタが統合されてゆく。この手法は語義曖昧性解消のタスクを用いて、その有効性や問題点を明らかにした。この内容は研究会で口頭発表を行った。そこで明らかになった問題点として、べースとなるクラスタリング手法の改良や用例間距離の精密化がある。クラスタリング手法の改良に関して、クラスタリング手法に関する論文発表を8件行った。主にNMFを用いたもの、スペクトラルクラスタリングを用いたものである。システムの実装に関してはPerlのCGIを用いて作成した。検索エンジン、核となるクラスタリングエンジンは既存のものを利用した。また用例を取り出すものとなるコーパスとして、本領域で構築した「白書」を利用した。これによって来年度のコーパスの評価に繋がる。また実装したシステムを試し、提案手法の有効性を再確認できた。

  • Research Products

    (10 results)

All 2008 2007 Other

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (7 results) Book (1 results) Remarks (1 results)

  • [Journal Article] NMFによる重み付きハイパーグラフを用いたアンサンブル文書クラスタリング2007

    • Author(s)
      新納, 浩幸・佐々木, 稔
    • Journal Title

      自然言語処理 14

      Pages: 107-122

    • Peer Reviewed
  • [Presentation] 文書関連性を素性として追加した文書クラスタリング2008

    • Author(s)
      佐々木稔・新納浩幸
    • Organizer
      言語処理学会第14回年次大会
    • Place of Presentation
      東京大学
    • Year and Date
      20080300
  • [Presentation] 縮類似度行列を用いたスペクトラル手法によるクラスタリング結果の改善2007

    • Author(s)
      新納浩幸・佐々木稔
    • Organizer
      人工知能学会第79回知識ペースシステム研究会
    • Place of Presentation
      北海道
    • Year and Date
      20071200
  • [Presentation] Refinement of document clustering by using NMF2007

    • Author(s)
      Hiroyuki, Shinnou, Minoru, Sasaki
    • Organizer
      PACLIC-21
    • Place of Presentation
      ソウル(韓国)
    • Year and Date
      20071100
  • [Presentation] Webサイトの階層的なWebディレクトリヘの自動分類手法2007

    • Author(s)
      佐々木稔・新納浩幸
    • Organizer
      情報処理学会第180回自然言語処理研究会
    • Place of Presentation
      徳島大学
    • Year and Date
      20070700
  • [Presentation] 半教師有リクラスタリングを用いた語義数の推定と語義別用例の収集2007

    • Author(s)
      新納浩幸佐々木稔
    • Organizer
      情報処理学会第180回自然言語処理研究会
    • Place of Presentation
      徳島大学
    • Year and Date
      20070700
  • [Presentation] Ensemble Document Clustering Using Weighted Hypergraph Generated by NMF2007

    • Author(s)
      Hiroyuki, Shinnou, Minoru, Sasaki
    • Organizer
      ACL
    • Place of Presentation
      プラハ(チェコ)
    • Year and Date
      20070600
  • [Presentation] NMFとリンクベースの修正法によるピンポン型文書クラスタリング2007

    • Author(s)
      新納浩幸佐々木稔
    • Organizer
      情報処理学会第179回自然言語処理研究会
    • Place of Presentation
      法政大学
    • Year and Date
      20070500
  • [Book] Rで学ぶクラスタ解析2007

    • Author(s)
      新納浩幸
    • Total Pages
      208
    • Publisher
      オーム出版
  • [Remarks] 茨城大学研究者情報総覧

    • URL

      http://info.ibaraki.ac.jp/scripts/websearch/index.htm

URL: 

Published: 2010-02-04   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi