2001 Fiscal Year Annual Research Report
Project/Area Number |
12680368
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
田中 久美子(石井 久美子) 東京大学, 大学院・情報学環, 講師 (10323528)
|
Keywords | 用語抽出 / 情報抽出 / 専門用語 / コーパス / 対訳 / NTCIR / 自然言語処理 / 情報検索 |
Research Abstract |
本研究では、(1)大規模コーパスからの専門用語抽出、(2)抽出された用語を利用して専門用語の日英対訳辞書を自動生成する研究を行った。 まず、コーパスの各文を形態素解析し、名詞の連続を取り出す。次に、ある名詞にたいして、その前後に何種類の名詞が、あるいは何回の名詞が、連接して複合名詞を形成するかを、その名詞の重要度とする方法で重要な専門用語を抽出する方法を考案した。複合名詞の重要度は、その要素名詞の重要度の相乗平均などを用いる。こうすれば、複合名詞、単名詞の重要度を同等に扱って、順位つけができる。この方法をNTCIR1のTMRECタスクで評価したところ、他のシステムに比べて最高のパフォーマンスを得た。このソフトウェアをWebに公開した。興味のある方はダウンロードして試用してみてほしい。 さて、このような用語抽出を日英2言語のコーパスに適用すると日英各々の順位つけられた用語集合が得られる。日英が同じ分野のコーパスであれば、対訳語は似たような順位ににあるというアイデアで対訳の曖昧性解消を行うシステムを構築した。この実験によれば、60%から80%程度の精度で曖昧性解消ができ、同じ目的を持つ他の研究に比べて少ない計算量で同等の精度が出せることが立証された。
|
Research Products
(7 results)
-
[Publications] 大畑 博一, 中川 裕志: "連接異なり語数による専門用語抽出"情報処理学会 研究報告. NL-136. 199-126 (2000)
-
[Publications] 鈴木正史, 中川 裕志: "2言語コーパスからの複合語の対訳曖昧さ解消"言語処理学会第7回大会. 66-69 (2001)
-
[Publications] 湯本 紘彰, 大畑 博一, 森 辰則, 中川 裕志: "語基の連接情報を用いた専門語抽出"言語処理学会第7回大会. 161-164 (2001)
-
[Publications] Hiroshi Nakagawa: "Disambiguation of lexical Translations Based on Bilingual Comparable Corpora"2nd International Conference of Language Resources and Evaluation : LREC2000 Workshop of Terminology Resources and computation : WTRC2000. 33-38 (2000)
-
[Publications] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol.6 No.2. 195-210 (2000)
-
[Publications] Hiroshi Nakagawa: "Disambiguation of Compound Noun Translations Extracted from Bilingual Comparable Corpora"6th Natural Language Processing Pacific Rim Symposium (NLPRS'01). 67-74 (2001)
-
[Publications] HIroshi Nakagawa: "Experimental evaluation of ranking and selection methods in term extraction Recent Advances in Computational Terminology"D. Bouringault, C. Jacquemin, M.-C. L'Homme (editors) John Bengamins. 23 (2001)