2008 Fiscal Year Annual Research Report
専門分野テキストコーパスからの体系化された用語抽出
Project/Area Number |
19500135
|
Research Institution | National Institute of Informatics |
Principal Investigator |
小山 照夫 National Institute of Informatics, 情報社会相関研究系, 教授 (80124410)
|
Keywords | 用語抽出 / 用語体系化 / 複合語構造解析 / 部分研究領域同定 / 用語分類 / 語彙概念構造 |
Research Abstract |
本年度は、複数学会からの研究抄録コーパスをデータベース化し、統合的に管理することによりデータ活用の高度化を実現した。この環境の下で、複合語用語候補抽出アルゴリズムの見直しを行った結果、抽出精度を落とすことなく、抽出候補数を大幅に増加させることが可能となった。また、データベース機能を活用することにより、単一の学会に属する抄録コーパスを、他学会の研究発表抄録コーパスと比較することにより、注目する学会に特有の形態素を決定することの有効性を確認した。この比較により、当該学会における単一形態素としての用語候補抽出が可能となるとともに、次に述べる当該学会における部分研究テーマに関連付けた用語抽出がより幅広く実行できるようになった。一方、学会の研究に関して設定されるいくつかの部分研究テーマに関連付けた用語抽出方法の再検討を行い、低頻度の候補まで抽出することを可能とした。低頻度の候補は特定用語候補との共起傾向を統計的に判定することが困難であることから、直接候補単位での判定は難しい。これらの候補まで広く選択するためには、テーマに特有の形態素を手掛かりとすることが有効であるが、形態素に制約を設けずに、テーマに関連した少数の用語候補との共起傾向を求める方法では、一般的形態素を必ずしも排除できない結果、抽出精度を高くとることが困難であった。共起を求める形態素を、当該学会に特有のものに限定することにより、多くの一般的形態素を排除することが可能となり、一定の精度を確保しながら低頻度の候補まで抽出することが可能となった。
|
Research Products
(1 results)