教科書などの基礎性が高い内容の書籍データを利用するために、コーパス拡充を行った。分析対象としている自然言語処理分野の書籍43冊分について、本文と、目次、索引、参考文献を電子化し、コーパスやデータとして利用した。自然言語処理分野のコーパスから分野基礎性が高い用語を抽出する手法として、C-valueを用いて抽出、ランキングを行い、既存の指標によって評価を行った。論文などの専門的なコーパスよりも、書籍の目次に含まれる用語を使った尺度の方が効率的に基礎性の高い用語を抽出することができた。また、論文の論理構造を用いた分析として、タイトル、抄録、著者キーワード、本文などの出現箇所による頻度の違いを考慮すると、効率的な抽出が可能になるという知見を得た。論文の論理構造では、本文をひとまとめにして分析を行ったため、もうすこし詳細な区分(はじめに、関連研究、おわりに)に分けて分析をすることも重要であると考え、現在その区分を分けて、各区分における頻度の出現傾向を分析する準備を行った。
|