研究概要 |
本研究は,図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。図書の目録データは図書館で用いられている分類法をもと町にした分類記号が付与されており,それにより図書は分類されている。同様に,件名標目表の件名も付与されている。件名標目も図書の主題を表現するものとして有効である。分類記号と件名標目の相互マッピングが可能になれば,分類記号から件名標目への推定,件名標目から分類記号への推定を効率的に行うことができる。また,それをシステムに組み込むことにより,書誌情報の特性を取り入れたテキストの自動分類システムを構築することができる。 本年度は,国立情報学研究所が提供するNACSIS-CATに1990年から2000年に入力された目録データ622,295件のうち,日本十進分類法(NDC)9版による分類記号と基本件名標目の件名が付与されているデータ110,000件を用いて,分類記号と件名標目の相互マッピングを試みた。110,000件のうち,100,000件を用いて相互マッピングを行い,10,000件を用いて相互マッピングの精度を評価した。精度の評価は,分類記号から件名標目の推定,および件名標目から分類記号の推定で行った。マッピング手法は,(1)SVM (Support Vector Machine)による手法と(2)図書にNDCを付与する方法で最も精度が高かった相対出現率を用いた重み付けによる手法の2つを用いたところ,相対出現率によるマッピング手法の精度が高かった。しかしながら,精度は半分程度にとどまっていた。失敗分析をしたところ,分類記号や件名自体に特殊性があること,分類記号と件名の対応付けが少ない,または対応が複数にわたることでうまくいかない例が散見された。今後は,目録データの分析をさらに行い,相互マッピング手法の精度を向上させる必要がある。
|