2010 Fiscal Year Annual Research Report

一度しか出現しない単語の意味推定とその応用に関する研究

Research Project

Project/Area Number	22500126
Research Institution	Kanazawa University
Principal Investigator	佐藤賢二金沢大学, 電子情報学系, 准教授 (10215783)
Keywords	人工知能 / 自然言語処理 / 画像、文章、音声等認識
Research Abstract	本研究課題の目的である「一度しか出現しない単語に対する意味推定」を可能にするためには、その周辺に出現する高頻度単語の意味カテゴリを事前に確立した上で、文脈情報を用いて低頻度単語の意味カテゴリを推定するアルゴリズムを開発する必要がある。このような背景のもと、平成22年度は以下の研究を行った。 1. 主に名詞、形容詞、動詞を対象として、統計情報を元にクラスタリングを行い、高頻度単語の意味カテゴリを求めた。計算の元になるテキストコーパスは、一般的なものと分野固有のものを用意し、前者についてはGoogle Web 1T 5-gramとWikipedia、後者についてはMedlineを選択した。実験の結果、コーパスによってクラスタリング結果は異なるが、人間が見ても納得できる意味カテゴリを構築できることが分かった。結果の一部については国際会議でポスター発表を行った。 2. 作成した意味カテゴリを用いて2つの文の類似度を計算する予備的な実験を行った。実験では、文を主語・述語・目的語の3項組として単純化し、2つの文に含まれる主語同士・述語同士・目的語同士の類似度を計算した上で、サポートベクターマシンを用いて類似文と非類似文の分類を行った。Microsoft Research Paraphrase Corpusを用いて分類実験を行った結果、コーパスから自動構築した単語の意味カテゴリと対象文の主語・述語・目的語しか用いていないにも関わらず、辞書等の情報を用いた従来手法に匹敵する精度が得られた。最後に、与えられた文と意味的に類似した文を高速検索するシステムのプロトタイプを作成し、実用性について検証した。

Research Products
(1 results)

All Presentation (1 results)

[Presentation] SEMANTIC CLUSTERING OF BIOMEDICAL WORDS USING GOOGLE WEB 1T 5-GRAM2011
- Author(s)
  Kenji Satou
- Organizer
  The Ninth Asia-Pacific Bioinformatics Conference (APBC2011)
- Place of Presentation
  Songdo Convensia (Korea
- Year and Date
  2011-01-12