2000 Fiscal Year Annual Research Report
Project/Area Number |
12680368
|
Research Institution | The University of Tokyo |
Principal Investigator |
中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)
|
Co-Investigator(Kenkyū-buntansha) |
田中 久美子 東京大学, 大学院・情報学環, 講師 (10323528)
|
Keywords | 自動用語抽出 / コーパス / 自然言語処理 / 専門用語 / NTCIR / 対訳辞書 / 情報抽出 / 索引語 |
Research Abstract |
今年度は従来より準備していたテキストコーパスからの用語抽出の研究を自然言語処理の視点から応用も含めて検討するとともに、大規模コーパスへの適用、用語対訳辞書の自動生成も含めて検討した。具体的には以下の各項目に示す通りである。 (1)連接数を基礎にする用語候補の順位つけ:研究代表者が数年にわたって研究してきた方法(語基に連接して複合語を作る名詞の種類数を個別の名詞のスコアにする方法)のアルゴリズムを改善し大規模コーパスにも適用できるようにした。また、連接の仕方についても、助詞「の」を挟む場合、ナ形容詞語尾の「な」を含む場合、単に名詞が連接する場合などについて比較実験し、単なる名詞連接がよいことを確認した。この結果をJohn Benjamin出版からのRecent Advances in Computational Terminologyに論文として発表した。 (2)NTCIR1 TMRECタスクによる評価:1999年度に開催された学術情報センター主催のNTCIR1の用語抽出タスク(TMREC)のコーパスと正解用語を用いて、上記(1)の用語抽出システムを評価した。この結果、我々の方法は多数の用語を抽出する場合にはほぼ最上位の結果を得ることがわかった。この結果をTeminology誌の論文として発表する。 (3)日英2言語非対訳コーパスからの対訳辞書抽出:上記の単言語での専門用語抽出方法を2言語に適用することによって日英対訳辞書を自動生成する方法を検討した。すなわち、日本語コーパスから抽出された用語群と英語コーパスから抽出された用語群を比べ、電子化対訳辞書EDICTによって対訳関係にあるものを対訳とみなす。しかし、EDICTの対訳は曖昧さがあるため、これを一意に絞り込む必要がある。我々は、これを以下の二つの方法で試みた。1)用語抽出時に付与したスコアによる順位が近い単語同士が対訳になる、2)EDICTで日本語を英語に対訳したとき、対訳結果が英語の用語としても抽出されているものを対訳とする。これによって、専門用語対訳辞書を構成した。その評価を行うために、NTCIR2の言語横断検索タスクに参加した。 (4)連接数以外の情報を用いた用語候補の順位つけ法の検討:連接数以外のスコアとして、連接する単語の種類数ではなく連接する単語の頻度を使う方法、連接する単語の分布のエントロピーを使う方法、Nested Collocation抽出法(C-value法と呼ばれる)を改良する方法などを検討し、大規模コーパスでの評価を行う準備をした。
|
Research Products
(7 results)
-
[Publications] 中川裕志,木村浩康,三瓶光司,松本勉: "辞書変換法に基づく日本語テキストへの情報ハイディング"情報処理学会 論文誌. 41巻8号. 2272-2280 (2000)
-
[Publications] Tatsunori Mori,Mamoru Matsuo,Hiroshi Nakagawa: "Zero pronoun rsolution by Linguistic Constraints and Defaults-The Case of Japanese Instruction Manual-"The Machine Translation Journal. 14-2-3. (2000)
-
[Publications] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora"LREC2000 Workshop of Terminology Resorces and Computation : WTRC2000. 33-38 (2000)
-
[Publications] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol6(To be published). (2001)
-
[Publications] Kumiko Tanaka-Ishii,Ian Frank,Katsuto Arai: "Trying to Understand RoboCup"Artificial Intelligence Magazine. 21-Winter. 19-25 (2000)
-
[Publications] Hiroshi Nakagawa: "Recent Advances in Computational Terminology"Experimental evaluation of ranking and selection methods in term extraction. 303-325 (2001)
-
[Publications] Kumiko Tanaka-Ishii,Ian Frank: "2000 Annual Meeting for Association of Computational Linguistics"Multi-Agent Explanation Strategiew in Real-Time Domains. 158-165 (2000)