2008 年度実績報告書

専門分野テキストコーパスからの体系化された用語抽出

研究課題

研究課題/領域番号	19500135
研究機関	国立情報学研究所
研究代表者	小山照夫国立情報学研究所, 情報社会相関研究系, 教授 (80124410)
キーワード	用語抽出 / 用語体系化 / 複合語構造解析 / 部分研究領域同定 / 用語分類 / 語彙概念構造
研究概要	本年度は、複数学会からの研究抄録コーパスをデータベース化し、統合的に管理することによりデータ活用の高度化を実現した。この環境の下で、複合語用語候補抽出アルゴリズムの見直しを行った結果、抽出精度を落とすことなく、抽出候補数を大幅に増加させることが可能となった。また、データベース機能を活用することにより、単一の学会に属する抄録コーパスを、他学会の研究発表抄録コーパスと比較することにより、注目する学会に特有の形態素を決定することの有効性を確認した。この比較により、当該学会における単一形態素としての用語候補抽出が可能となるとともに、次に述べる当該学会における部分研究テーマに関連付けた用語抽出がより幅広く実行できるようになった。一方、学会の研究に関して設定されるいくつかの部分研究テーマに関連付けた用語抽出方法の再検討を行い、低頻度の候補まで抽出することを可能とした。低頻度の候補は特定用語候補との共起傾向を統計的に判定することが困難であることから、直接候補単位での判定は難しい。これらの候補まで広く選択するためには、テーマに特有の形態素を手掛かりとすることが有効であるが、形態素に制約を設けずに、テーマに関連した少数の用語候補との共起傾向を求める方法では、一般的形態素を必ずしも排除できない結果、抽出精度を高くとることが困難であった。共起を求める形態素を、当該学会に特有のものに限定することにより、多くの一般的形態素を排除することが可能となり、一定の精度を確保しながら低頻度の候補まで抽出することが可能となった。

研究成果
(1件)

すべて雑誌論文 (1件)

[雑誌論文] 形態素出現パタンに基づく文書集合類似性評価2008
- 著者名/発表者名
  小山照夫, 竹内孔一
- 雑誌名
  
  情報処理学会研究報告2008-NL-188 2008-NL-188
  
  ページ: 51-56