• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2009 年度 実績報告書

専門分野テキストコーパスからの体系化された用語抽出

研究課題

研究課題/領域番号 19500135
研究機関国立情報学研究所

研究代表者

小山 照夫  国立情報学研究所, 情報社会相関研究系, 教授 (80124410)

キーワード用語抽出 / 用語体系化 / 自然言語処理 / 形態素解析 / 部分研究領域
研究概要

今年度は複合語抽出アルゴリズムを改良することにより、抽出精度を低下させることなく、より網羅的な用語候補抽出を可能とした。また、特定研究分野における部分研究領域に関連する用語候補選択について、複合語を構成する形態素に基づく選択方法を開発した。
複合語抽出では、候補となる形態素列がその前後でどのような形態素に接続しているかを検査することにより、用語としての形態素列の境界が不確実となるものは候補としないという判定方法を試みた。複合語抽出にあたって形態素解析に誤りがある場合、その近傍については形態素列の境界が必ずしも信頼できなくなる。候補の前後の接続要素から境界の信頼性が低いと判断される候補を排除することにより、結果としてコーパス内出現頻度が1の複合語用語候補まで抽出しても、抽出精度は低下せず、より広範な候補が抽出できることが明らかとなった。情報処理学会コーパスでは、数にして従来の2.8倍の候補を抽出しても精度は同等であるという結果が得られた。
特定部分研究領域に関連する用語抽出では、領域を代表する文字列を人間が指定し、この文学列と共起する傾向の強い形熊素を構成要素として持つ候補を検討対象とする方法を開発した。この時当該コーパス内の共起強度のみを基準とするのではなく、これに加えて、他分野のコーパスとの比較により、当該分野に特徴的な形態素だけに限定することにより、効率的に部分領域に関連する用語候補が判定できることを確認した。
また、本年度は研究計画最終年度であるため、これまでに得られた研究結果をWebページの形で公開した。

  • 研究成果

    (3件)

すべて 2010 2009 その他

すべて 雑誌論文 (1件) 学会発表 (1件) 備考 (1件)

  • [雑誌論文] 日本語テキストからの複合語用語抽出2010

    • 著者名/発表者名
      小山照夫
    • 雑誌名

      情報知識学会誌 19

      ページ: 306-315

  • [学会発表] 候補の接続関係を考慮した複合語用語抽出2009

    • 著者名/発表者名
      小山照夫
    • 学会等名
      情報処理学会自然言語処理研究会
    • 発表場所
      京都大学
    • 年月日
      2009-09-29
  • [備考]

    • URL

      http://research.nii.ac.jp/~koyama/official/tmrec/index.html

URL: 

公開日: 2011-06-16   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi