2001 年度研究成果報告書概要

テキストコーパスからの専門用語抽出に関する研究

研究課題

研究課題/領域番号	12680368
研究種目	基盤研究(C)
配分区分	補助金
応募区分	一般
研究分野	知能情報学
研究機関	東京大学
研究代表者	中川裕志東京大学, 情報基盤センター, 教授 (20134893)
研究分担者	田中久美子 (石井久美子) 東京大学, 大学院・情報学環, 講師 (10323528)
研究期間 (年度)	2000 – 2001
キーワード	用語抽出 / 情報抽出 / 専門用語 / コーパス / 対訳 / NTCIR / 自然言語処理 / 情報探索
研究概要	本年度は、NTCIR1のTMRECタスクで配布された用語抽出テストコレクションを利用して専門分野コーパスからの専門用語抽出の研究に取り組んだ。過去に行われた用語抽出方法は、多くの場合、用語のテキスト集合での出現頻度を利用するものであった。この研究では、むしろ今まで注意が払われてこなかった語彙空間における用語の性質を考慮する方法を検討した。提案した用語抽出方法は、専門用語の85%を占める複合語と、その構成要素である単名詞の関係を統計的に処理するものである。例えば、「人間情報システム」「社会情報システム」など「情報」という単名詞の左右に多様な名詞が付着して複合語である専門用語が構成されるとき、「情報」という単名詞の専門用語としての重要性は、その左方、および右方に付着する名詞の種類数によって定義した。さらにこうして得た個々の単名詞の重要度を幾何平均することによって、複合名詞の重要度を定義した。具体的な用語抽出システムとしては、(1)日本語コーパスを形態素解析、(2)複合語すなわち名詞連続を用語候補として抽出、(3)上記の重要度を各候補に対して計算、(4)TRMRCテストコレクションによる精度の評価、を行った。この結果、提案した用語抽出システムは、NTCIR1の参加チームに比べて上位の精度を出すことが確認された。また、この用語抽出方法を利用した日英対訳表現の抽出へむけて、用語抽出システムの英語適応化も行い、その動作を確認した。

研究成果
(8件)

すべてその他

すべて文献書誌 (8件)

[文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol.6 No.2. 195-210 (2000)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] Tatsunori Mori, Mamoru Matsuo, Hiroshi Nakagawa: "Zero pronoun resolution by Linguistic Constraints and Defaults --The case of Japanese Instruction Manuals--"SPECIAL ISSUE ON ANAPHORA RESOLUTION IN MACHINE TRANSLATION, (Ruslan Mitkov editor), Machine Translation. 14. 231-245 (2000)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora"2nd International Conference on Language Resources and Evaluation : LREC2000 Workshop of Terminology Resorces and Computation :. WTRC2000. 33-38 (2000)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] Hiroshi Nakagawa: ""Experimental evaluation of ranking and selection methods in term extraction", "Recent Advances in Computational Terminology", D.Bourigault, C.Jacquemin, M.-C. L'Homme (editors)"John Benjamins. (303-325) (2001)
- 説明
  「研究成果報告書概要(和文)」より
[文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol. 6,No. 2. 195-210 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] Tatsunori Mori, Mamoru Matsuo, Hiroshi Nakagawa: "Zero pronoun resolution by Linguistic Constraints and Defaults The case of Japanese Instruction Manuals"SPECIAL ISSUE ON ANAPHORA RESOLUTION IN MACHINE TRANSLATION, (Ruslan Mitkov editor), Machine Translation. Vol. 14. 231-245 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora", 2nd International Conference on Language Resources and Evaluation : LREC2000 Workshop of Terminology Resources and Computation"WTRC2000 Athens. 33-38 (2000)
- 説明
  「研究成果報告書概要(欧文)」より
[文献書誌] Hiroshi Nakagawa: ""Experimental evaluation of ranking and selection methods in term extraction", "Recent Advances in Computational Terminology", D. Bourigault, C. Jacquemin, M.-C. L'Homme (editors),"John Benjamins. 303-325 (2001)
- 説明
  「研究成果報告書概要(欧文)」より

2001 年度 研究成果報告書概要

テキストコーパスからの専門用語抽出に関する研究

研究代表者

中川 裕志 東京大学, 情報基盤センター, 教授 (20134893)

研究成果

[文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol.6 No.2. 195-210 (2000)

説明

[文献書誌] Tatsunori Mori, Mamoru Matsuo, Hiroshi Nakagawa: "Zero pronoun resolution by Linguistic Constraints and Defaults --The case of Japanese Instruction Manuals--"SPECIAL ISSUE ON ANAPHORA RESOLUTION IN MACHINE TRANSLATION, (Ruslan Mitkov editor), Machine Translation. 14. 231-245 (2000)

説明

[文献書誌] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora"2nd International Conference on Language Resources and Evaluation : LREC2000 Workshop of Terminology Resorces and Computation :. WTRC2000. 33-38 (2000)

説明

[文献書誌] Hiroshi Nakagawa: ""Experimental evaluation of ranking and selection methods in term extraction", "Recent Advances in Computational Terminology", D.Bourigault, C.Jacquemin, M.-C. L'Homme (editors)"John Benjamins. (303-325) (2001)

説明

[文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol. 6,No. 2. 195-210 (2000)

説明

[文献書誌] Tatsunori Mori, Mamoru Matsuo, Hiroshi Nakagawa: "Zero pronoun resolution by Linguistic Constraints and Defaults The case of Japanese Instruction Manuals"SPECIAL ISSUE ON ANAPHORA RESOLUTION IN MACHINE TRANSLATION, (Ruslan Mitkov editor), Machine Translation. Vol. 14. 231-245 (2000)

説明

[文献書誌] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora", 2nd International Conference on Language Resources and Evaluation : LREC2000 Workshop of Terminology Resources and Computation"WTRC2000 Athens. 33-38 (2000)

説明

[文献書誌] Hiroshi Nakagawa: ""Experimental evaluation of ranking and selection methods in term extraction", "Recent Advances in Computational Terminology", D. Bourigault, C. Jacquemin, M.-C. L'Homme (editors),"John Benjamins. 303-325 (2001)

説明

2001 年度研究成果報告書概要

中川裕志東京大学, 情報基盤センター, 教授 (20134893)