• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

テキストコーパスからの専門用語抽出に関する研究

研究課題

研究課題/領域番号 12680368
研究種目

基盤研究(C)

配分区分補助金
応募区分一般
研究分野 知能情報学
研究機関東京大学

研究代表者

中川 裕志  東京大学, 情報基盤センター, 教授 (20134893)

研究分担者 田中 久美子 (石井 久美子 / 田中 久美子(石井 久美子))  東京大学, 大学院・情報学環, 講師 (10323528)
研究期間 (年度) 2000 – 2001
研究課題ステータス 完了 (2001年度)
配分額 *注記
3,600千円 (直接経費: 3,600千円)
2001年度: 1,500千円 (直接経費: 1,500千円)
2000年度: 2,100千円 (直接経費: 2,100千円)
キーワード用語抽出 / 情報抽出 / 専門用語 / コーパス / 対訳 / NTCIR / 自然言語処理 / 情報探索 / 情報検索 / 自動用語抽出 / 対訳辞書 / 索引語
研究概要

本年度は、NTCIR1のTMRECタスクで配布された用語抽出テストコレクションを利用して専門分野コーパスからの専門用語抽出の研究に取り組んだ。過去に行われた用語抽出方法は、多くの場合、用語のテキスト集合での出現頻度を利用するものであった。この研究では、むしろ今まで注意が払われてこなかった語彙空間における用語の性質を考慮する方法を検討した。提案した用語抽出方法は、専門用語の85%を占める複合語と、その構成要素である単名詞の関係を統計的に処理するものである。例えば、「人間情報システム」「社会情報システム」など「情報」という単名詞の左右に多様な名詞が付着して複合語である専門用語が構成されるとき、「情報」という単名詞の専門用語としての重要性は、その左方、および右方に付着する名詞の種類数によって定義した。さらにこうして得た個々の単名詞の重要度を幾何平均することによって、複合名詞の重要度を定義した。具体的な用語抽出システムとしては、(1)日本語コーパスを形態素解析、(2)複合語すなわち名詞連続を用語候補として抽出、(3)上記の重要度を各候補に対して計算、(4)TRMRCテストコレクションによる精度の評価、を行った。この結果、提案した用語抽出システムは、NTCIR1の参加チームに比べて上位の精度を出すことが確認された。また、この用語抽出方法を利用した日英対訳表現の抽出へむけて、用語抽出システムの英語適応化も行い、その動作を確認した。

報告書

(3件)
  • 2001 実績報告書   研究成果報告書概要
  • 2000 実績報告書
  • 研究成果

    (22件)

すべて その他

すべて 文献書誌 (22件)

  • [文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol.6 No.2. 195-210 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Tatsunori Mori, Mamoru Matsuo, Hiroshi Nakagawa: "Zero pronoun resolution by Linguistic Constraints and Defaults --The case of Japanese Instruction Manuals--"SPECIAL ISSUE ON ANAPHORA RESOLUTION IN MACHINE TRANSLATION, (Ruslan Mitkov editor), Machine Translation. 14. 231-245 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora"2nd International Conference on Language Resources and Evaluation : LREC2000 Workshop of Terminology Resorces and Computation :. WTRC2000. 33-38 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Nakagawa: ""Experimental evaluation of ranking and selection methods in term extraction", "Recent Advances in Computational Terminology", D.Bourigault, C.Jacquemin, M.-C. L'Homme (editors)"John Benjamins. (303-325) (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol. 6,No. 2. 195-210 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Tatsunori Mori, Mamoru Matsuo, Hiroshi Nakagawa: "Zero pronoun resolution by Linguistic Constraints and Defaults The case of Japanese Instruction Manuals"SPECIAL ISSUE ON ANAPHORA RESOLUTION IN MACHINE TRANSLATION, (Ruslan Mitkov editor), Machine Translation. Vol. 14. 231-245 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora", 2nd International Conference on Language Resources and Evaluation : LREC2000 Workshop of Terminology Resources and Computation"WTRC2000 Athens. 33-38 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Nakagawa: ""Experimental evaluation of ranking and selection methods in term extraction", "Recent Advances in Computational Terminology", D. Bourigault, C. Jacquemin, M.-C. L'Homme (editors),"John Benjamins. 303-325 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] 大畑 博一, 中川 裕志: "連接異なり語数による専門用語抽出"情報処理学会 研究報告. NL-136. 199-126 (2000)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 鈴木正史, 中川 裕志: "2言語コーパスからの複合語の対訳曖昧さ解消"言語処理学会第7回大会. 66-69 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 湯本 紘彰, 大畑 博一, 森 辰則, 中川 裕志: "語基の連接情報を用いた専門語抽出"言語処理学会第7回大会. 161-164 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Hiroshi Nakagawa: "Disambiguation of lexical Translations Based on Bilingual Comparable Corpora"2nd International Conference of Language Resources and Evaluation : LREC2000 Workshop of Terminology Resources and computation : WTRC2000. 33-38 (2000)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol.6 No.2. 195-210 (2000)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] Hiroshi Nakagawa: "Disambiguation of Compound Noun Translations Extracted from Bilingual Comparable Corpora"6th Natural Language Processing Pacific Rim Symposium (NLPRS'01). 67-74 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] HIroshi Nakagawa: "Experimental evaluation of ranking and selection methods in term extraction Recent Advances in Computational Terminology"D. Bouringault, C. Jacquemin, M.-C. L'Homme (editors) John Bengamins. 23 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 中川裕志,木村浩康,三瓶光司,松本勉: "辞書変換法に基づく日本語テキストへの情報ハイディング"情報処理学会 論文誌. 41巻8号. 2272-2280 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Tatsunori Mori,Mamoru Matsuo,Hiroshi Nakagawa: "Zero pronoun rsolution by Linguistic Constraints and Defaults-The Case of Japanese Instruction Manual-"The Machine Translation Journal. 14-2-3. (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Hiroshi Nakagawa: "Disambiguation of Lexical Translations Based on Bilingual Comparable Corpora"LREC2000 Workshop of Terminology Resorces and Computation : WTRC2000. 33-38 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Hiroshi Nakagawa: "Automatic Term Recognition based on Statistics of Compound Nouns"Terminology. Vol6(To be published). (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Kumiko Tanaka-Ishii,Ian Frank,Katsuto Arai: "Trying to Understand RoboCup"Artificial Intelligence Magazine. 21-Winter. 19-25 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Hiroshi Nakagawa: "Recent Advances in Computational Terminology"Experimental evaluation of ranking and selection methods in term extraction. 303-325 (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Kumiko Tanaka-Ishii,Ian Frank: "2000 Annual Meeting for Association of Computational Linguistics"Multi-Agent Explanation Strategiew in Real-Time Domains. 158-165 (2000)

    • 関連する報告書
      2000 実績報告書

URL: 

公開日: 2000-04-01   更新日: 2021-12-08  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi