本研究の目的は、階層的に整理された専門用語集を用いて表題を解析することにより、科学技術論文を階層的かつ詳細に分類することを実現することであった。 本年度は、昨年度作成した表題解析による論文分類システムの改良を行った。本システムは、表題を標準化するモジュール(標準化モジュール)と、標準化された表題に対して専門用語集を利用して分類コードを割り当てるコード割当モジュールから構成されている。分類コードとしては、主分類コード(専門用語集として使用した岩波情報科学辞典の用語の木コード)の他に、論文と主分類コードの意味的な関係を表す5種類の補助分類コードを用いた。標準化モジュールは、文字列処理と単語列処理の2つの処理を繰り返すことにより、論文表題を標準化する。コード割当モジュールは、表記のゆれや各種の変形に対応できるように、専門用語と表題の柔軟な照合を行い、見つかった専門用語に基づいて分類コードを割り当てる。この2つのモジュールにおいて、論文表題の言い換え研究の成果を利用したが、システムの精度はそれほど向上しなかった。実験における本システムの精度は、79%であった。 以上、この2年間の研究により、表題解析による科学技術論文の自動分類は、ある程度実現不可能であることがわかった。しかしながら、この方法だけでは、十分な分類精度を達成できなかった。
|