• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2007 年度 実績報告書

専門分野テキストコーパスからの体系化された用語抽出

研究課題

研究課題/領域番号 19500135
研究機関国立情報学研究所

研究代表者

小山 照夫  国立情報学研究所, 情報社会相関研究系, 教授 (80124410)

研究分担者 竹内 孔一  岡山大学, 大学院・自然科学研究科, 講師 (80311174)
キーワード用語抽出 / 用語体系化 / 複合語構造解析 / 部分研究領域同定 / 用語分類 / 語彙概念構造
研究概要

本年度は主として情報処理分野の論文抄録コーパスを材料とした検討を行った。用語抽出精度に関して、とれまでに開発してきた手法が、この分野に対しても有効であり、高い精度で用語抽出が可能であることが明らかとなった。
抽出された用語候補の間の入れ子関係を調べることによって、用語の間の概念階層関係を、上位語-下位語関係や、関連語関係等に整理できることを明らかにした。また、複合語を構成する形態素の間の構造を整理し、複合語全体の表す概念を、要素となる形態素を用いた言い換えで記述する方法について、3形態素までの用語候補についても言い換えが可能であることを示した。
一方、文書に出現するサ変名詞を手がかりに、部分研究分野を同定する方法を適用した結果、情報処理という比較的狭い分野においても一定め部分分野同定が可能であることを確認した。さらに、比較的出現頻度の高い用語候補について、同定された部分分野に関連付けてある程度まで分類可能であることを明らかにした。
複合語の構造解析のためには、要素となる各形態素がどのような動詞概念に対してどのような項関係を取り得るかに関するデータを整備することが重要である。本年度は構造解析のための基礎データとして、サ変名詞をHeadとする複合語約3,500について、サ変名詞を語彙概念構造(LCS)に分類するとともに、修飾要素が項関係にあるかどうかを判定することを試みた。今後このデータを複合語構造解析に応用することを試みる予定である。

  • 研究成果

    (2件)

すべて 2008 2007

すべて 雑誌論文 (2件)

  • [雑誌論文] 用語クラスタリングに基づく部分研究領域推定と用語分類2008

    • 著者名/発表者名
      小山照夫、竹内孔一
    • 雑誌名

      情報処理学会研究報告 2008-NL-183

      ページ: 87-92

  • [雑誌論文] 日本語複合語用語の入れ子関係に基づく体系的階層化2007

    • 著者名/発表者名
      小山照夫、竹内孔一
    • 雑誌名

      電子情報通信学会技術研究報告 NLC2007-1-28

      ページ: 49-54

URL: 

公開日: 2010-02-04   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi