研究概要 |
平成10年度は,主に日本語情報科学分野の学術論文から,その論文が示している概念を抽出することと,利用者が入力する検索語の概念を抽出し,検索システムの実装を行った.まず,学術論文のテキスト情報は本学附属電子図書館が保有しているものを用いた.これは論文誌をスキャンして得られた画像に対して光学的文字認識を行った結果である.このため,認識誤りを含む.その誤りを含むテキスト情報を対象に形態素解析を行い,名詞のみを抽出した.抽出した名詞について電子化辞書(EDR)の概念辞書を用いて概念を抽出し,単語の統計的な情報を重みに用いて論文の概念の抽出を行った.実験の対象とした論文数は15である.その結果を情報科学の素養がある被験者5名により評価を行ったところ,76%の被験者が正しく論文の概念を抽出していると評価した.論文ごとに評価を行うと,正しく概念を抽出できた論文とそうでないものとの差が大きかった.その原因は形態素解析により不適当な単語の分割が行われた例と,特殊な学術用語の一部について概念辞書に適切な概念が記述されていなかったことによるものと判明した.さらに構築した検索システムでのRecallとPrecisionを求めたところそれぞれ72.6%と50%となった.
|