本年度は、複数学会からの研究抄録コーパスをデータベース化し、統合的に管理することによりデータ活用の高度化を実現した。この環境の下で、複合語用語候補抽出アルゴリズムの見直しを行った結果、抽出精度を落とすことなく、抽出候補数を大幅に増加させることが可能となった。また、データベース機能を活用することにより、単一の学会に属する抄録コーパスを、他学会の研究発表抄録コーパスと比較することにより、注目する学会に特有の形態素を決定することの有効性を確認した。この比較により、当該学会における単一形態素としての用語候補抽出が可能となるとともに、次に述べる当該学会における部分研究テーマに関連付けた用語抽出がより幅広く実行できるようになった。一方、学会の研究に関して設定されるいくつかの部分研究テーマに関連付けた用語抽出方法の再検討を行い、低頻度の候補まで抽出することを可能とした。低頻度の候補は特定用語候補との共起傾向を統計的に判定することが困難であることから、直接候補単位での判定は難しい。これらの候補まで広く選択するためには、テーマに特有の形態素を手掛かりとすることが有効であるが、形態素に制約を設けずに、テーマに関連した少数の用語候補との共起傾向を求める方法では、一般的形態素を必ずしも排除できない結果、抽出精度を高くとることが困難であった。共起を求める形態素を、当該学会に特有のものに限定することにより、多くの一般的形態素を排除することが可能となり、一定の精度を確保しながら低頻度の候補まで抽出することが可能となった。
|