平成23年度は、専門用語の分野基礎性の指標を再度検討した。これまで分析対象を論文と新聞としていたが、書籍情報が分野基礎性の指標として適していることがわかったため、データとして書籍の目次情報の追加作業を行った。対象分野は「自然言語処理」とし、書籍のタイトルに「自然言語処理」と記述されている書籍の目次と、情報処理学会の自然言語処理研究会の1993年から2007年までの論文の抄録、タイトル、著者、著者キーワードと全文データを分析対象データとした。前年度の分析結果から、C-Valueによる指標を用いることとした。C-Valueで計算した結果を上位100から500まで出力し、正解率を比較した。正解データは、あらかじめ専門家によって、N1:最も重要で必須である用語~N4:専門的で高度な難解専門用語までの4段階に分けて作成した。対象データをタイトルに含まれる用語の頻度、著者キーワードに出現する用語の頻度そして書籍の目次に出現する用語の頻度の3種類を用意し、それぞれについてC-Valueで計算を行った。その結果、N1の最も分野基礎性が高い用語の抽出は、書籍の目次データを利用するのと精度が高いことがわかった。また上位300語まで抽出してみると、著者キーワードを利用した方が抽出精度が高いことがわかった。この結果から書籍は一般向けに書かれているため、基礎的な用語を用いる傾向が高いが、更に専門的な用語の掲載は著者に依存するので、広い範囲の分野基礎用語を抽出するのには適切ではないと考えられる。今後は本文データの論理構造に着目した分析を行う予定である。
|