• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

ウェブを情報源とした用語辞典の自動編集

Research Project

Project/Area Number 13224055
Research Category

Grant-in-Aid for Scientific Research on Priority Areas (C)

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionKyoto University

Principal Investigator

佐藤 理史  京都大学, 情報学研究科, 助教授 (30205918)

Project Period (FY) 2001
Project Status Completed (Fiscal Year 2001)
Keywords用語収集 / 用語間関係 / 構文パターン / ウェブ
Research Abstract

本年度は、主に、ウェブから関連用語を収集する方法を中心に研究を行なった。`
まず、2つの用語間の関係として、10種類(同義、類似・対比、上位概念、下位概念、全体、部分、並列、用途・環境、因果、複合語)の関係を設定した。次に、テキスト中からこれらの関係にある用語対を抽出するために、10種類の関係それぞれに対して、その関係を示唆する典型的な文型を調査・整理した。これらの文型と文とを照合して、上記の関係にある用語対を自動抽出することを実現するために、構文テンプレートと呼ぶ文型の記述法を定義し、これと構文解析した文とを比較する照合器(パターンマッチャー)を作成した。
関連用語を収集アルゴリズムとして、次のようなブートストラップ型のアルゴリズムを実装した。
(1)初期用語集合Gを与える。
(2)Gの中の用語が少なくとも1語存在するような文をウェブから収集する。
(3)上記の構文テンプレートを用いて、関連用語を抽出する。
(4)得られた新しい語の中から一般的な語を除去したものを用語集合Gに追加する。
(5)(2)以下を繰り返す。
上記の方法による関連用語収集を「生物学」の領域を対象に実験を行なった。10個の用語を初期用語集合とし、上記のループを2回実行した結果、128語の新しい用語が収集され、そのうち、97語(76%)が適切な関連用語であった。一旦、不適切な用語が用語集合に混入すると、その影響が次回のループで拡大して精度が下がるため、今後、この点を改善する必要がある。

Report

(1 results)
  • 2001 Annual Research Report

URL: 

Published: 2003-04-03   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi