• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2001 年度 実績報告書

テキストコーパスからの専門用語抽出に関する研究

研究課題

研究課題/領域番号 12680368
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 田中 久美子(石井 久美子)  東京大学, 大学院・情報学環, 講師 (10323528)
キーワード用語抽出 / 情報抽出 / 専門用語 / コーパス / 対訳 / NTCIR / 自然言語処理 / 情報検索
研究概要

本研究では、(1)大規模コーパスからの専門用語抽出、(2)抽出された用語を利用して専門用語の日英対訳辞書を自動生成する研究を行った。
まず、コーパスの各文を形態素解析し、名詞の連続を取り出す。次に、ある名詞にたいして、その前後に何種類の名詞が、あるいは何回の名詞が、連接して複合名詞を形成するかを、その名詞の重要度とする方法で重要な専門用語を抽出する方法を考案した。複合名詞の重要度は、その要素名詞の重要度の相乗平均などを用いる。こうすれば、複合名詞、単名詞の重要度を同等に扱って、順位つけができる。この方法をNTCIR1のTMRECタスクで評価したところ、他のシステムに比べて最高のパフォーマンスを得た。このソフトウェアをWebに公開した。興味のある方はダウンロードして試用してみてほしい。
さて、このような用語抽出を日英2言語のコーパスに適用すると日英各々の順位つけられた用語集合が得られる。日英が同じ分野のコーパスであれば、対訳語は似たような順位ににあるというアイデアで対訳の曖昧性解消を行うシステムを構築した。この実験によれば、60%から80%程度の精度で曖昧性解消ができ、同じ目的を持つ他の研究に比べて少ない計算量で同等の精度が出せることが立証された。

  • 研究成果

    (7件)

すべて その他

すべて 文献書誌 (7件)

  • [文献書誌] 大畑 博一, 中川 裕志: "連接異なり語数による専門用語抽出"情報処理学会 研究報告. NL-136. 199-126 (2000)

  • [文献書誌] 鈴木正史, 中川 裕志: "2言語コーパスからの複合語の対訳曖昧さ解消"言語処理学会第7回大会. 66-69 (2001)

  • [文献書誌] 湯本 紘彰, 大畑 博一, 森 辰則, 中川 裕志: "語基の連接情報を用いた専門語抽出"言語処理学会第7回大会. 161-164 (2001)

  • [文献書誌] Hiroshi Nakagawa: "Disambiguation of lexical Translations Based on Bilingual Comparable Corpora"2nd International Conference of Language Resources and Evaluation : LREC2000 Workshop of Terminology Resources and computation : WTRC2000. 33-38 (2000)

  • [文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol.6 No.2. 195-210 (2000)

  • [文献書誌] Hiroshi Nakagawa: "Disambiguation of Compound Noun Translations Extracted from Bilingual Comparable Corpora"6th Natural Language Processing Pacific Rim Symposium (NLPRS'01). 67-74 (2001)

  • [文献書誌] HIroshi Nakagawa: "Experimental evaluation of ranking and selection methods in term extraction Recent Advances in Computational Terminology"D. Bouringault, C. Jacquemin, M.-C. L'Homme (editors) John Bengamins. 23 (2001)

URL: 

公開日: 2003-04-03   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi