• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

ウェブを情報源とした用語辞典の自動編集

研究課題

研究課題/領域番号 14019050
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関京都大学

研究代表者

佐藤 理史  京都大学, 情報学研究科, 助教授 (30205918)

研究期間 (年度) 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
3,800千円 (直接経費: 3,800千円)
2002年度: 3,800千円 (直接経費: 3,800千円)
キーワード関連用語収集 / 重要語抽出 / サーチエンジン / ウェブ / 専門用語
研究概要

本年度は、与えられた用語から、その用語に関連する10個程度の用語(関連用語)をウェブから自動的に収集する方法を確立し、システムとして実装した。
作成したシステムは、(1)コーパス作成、(2)重要語抽出、(3)フィルタリング、の3つのステップから成る。コーパス作成では、与えられた用語tに対して、サーチエンジンを用いて、その用語を含む文を収集し、用語tに対するコーパスを作成する。重要語抽出では、作成したコーパスから、中川の方法に基づいて、重要語を30個抽出する。これらを関連用語の候補とする。最後に、フィルタリングでは、候補のそれぞれに対して、専門用語性のチェックと関連性のチェックを行い、両方にパスしたものを最終的な関連用語とする。この2つのチェックには、サーチエンジンのヒット数を用いる。
作成したシステムを用いて、実際にウェブから関連用語を収集する実験を行った。5つの異なる分野の総計50個の用語(入力)に対してシステムを動作させたところ、総計で610個の関連用語が収集された。このうち、関連用語として適切なものは、519個(85%)であった。また、入力の50語のそれぞれに対して、収集されるべき関連用語を数語づつ総計210語設定し、それらの用語が実際に収集できているかどうかを調べたところ、実際に収集されていたのは43語(20%)であった。これらの実験結果から、関連用語の収集の精度は十分であるが、網羅性には問題があることがわかった。

報告書

(1件)
  • 2002 実績報告書
  • 研究成果

    (2件)

すべて その他

すべて 文献書誌 (2件)

  • [文献書誌] 佐藤理史, 佐々木靖広: "ウェブを利用した関連用語の自動収集"情報処理学会研究報告 NL-2003-153. 2003・4. 57-64 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] 佐々木靖広, 佐藤理史: "ウェブを利用した関連用語の自動収集"言語処理学会第9回年次大会発表論文集. 278-281 (2003)

    • 関連する報告書
      2002 実績報告書

URL: 

公開日: 2002-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi