• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

ウェブを情報源とした用語辞典の自動編集

研究課題

研究課題/領域番号 13224055
研究種目

特定領域研究(C)

配分区分補助金
審査区分 理工系
研究機関京都大学

研究代表者

佐藤 理史  京都大学, 情報学研究科, 助教授 (30205918)

研究期間 (年度) 2001
研究課題ステータス 完了 (2001年度)
キーワード用語収集 / 用語間関係 / 構文パターン / ウェブ
研究概要

本年度は、主に、ウェブから関連用語を収集する方法を中心に研究を行なった。`
まず、2つの用語間の関係として、10種類(同義、類似・対比、上位概念、下位概念、全体、部分、並列、用途・環境、因果、複合語)の関係を設定した。次に、テキスト中からこれらの関係にある用語対を抽出するために、10種類の関係それぞれに対して、その関係を示唆する典型的な文型を調査・整理した。これらの文型と文とを照合して、上記の関係にある用語対を自動抽出することを実現するために、構文テンプレートと呼ぶ文型の記述法を定義し、これと構文解析した文とを比較する照合器(パターンマッチャー)を作成した。
関連用語を収集アルゴリズムとして、次のようなブートストラップ型のアルゴリズムを実装した。
(1)初期用語集合Gを与える。
(2)Gの中の用語が少なくとも1語存在するような文をウェブから収集する。
(3)上記の構文テンプレートを用いて、関連用語を抽出する。
(4)得られた新しい語の中から一般的な語を除去したものを用語集合Gに追加する。
(5)(2)以下を繰り返す。
上記の方法による関連用語収集を「生物学」の領域を対象に実験を行なった。10個の用語を初期用語集合とし、上記のループを2回実行した結果、128語の新しい用語が収集され、そのうち、97語(76%)が適切な関連用語であった。一旦、不適切な用語が用語集合に混入すると、その影響が次回のループで拡大して精度が下がるため、今後、この点を改善する必要がある。

報告書

(1件)
  • 2001 実績報告書

URL: 

公開日: 2003-04-03   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi