研究課題
本研究は、図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。本年度は、目録データを用いて、書名に日本十進分類法に基づく分類記号を付与する際に、複数の分類手法を組み合わせた分類手法の適用可能性について検討した。まず、テキスト自動分類の代表的な分類手法であるSupport Vector Machine(SVM)とナイーブベイズを用いた手法、さらに相対出現率による重み付けを用いた手法を用いて分類し、分類結果を分析した。その結果、それぞれの分類結果を段階的に採用することで、単独の手法で最も精度が高かった相対出現率手法を用いた場合よりも1.5%程度高い精度が得られることがわかった。精度向上のために更なる分析は必要であるが、分類手法にはそれぞれ特徴があり、分類結果を組み合わせることによって、各手法の弱点を補えることが明らかになった。各分類手法における精度を向上させれば、組み合わせる効果がより見込まれる。また、ウェブページに対する分類の一つとして、ウェブコンテンツ中からの日本語の学術論文のPDFファイルを判定するシステム構築を目指した。SVM、ナイーブベイズなど、多くの手法を用いて自動判定実験を行った。自動判定の手がかりとなる属性群としてはファイル中に出現する語と経験的なルール群を用いた。実験から、SVMでは高い精度、ナイーブベイズでは高い再現率が得られ、段階的な論文判定を行うことで、学術論文のPDFファイルの自動判定は実現可能であることが示唆された。さらに、52万件の未判定であるPDFファイル集合の自動判別を試みた。複数の分類手法によって学術論文であると判定されたファイルをプーリングし、各々の手法の性能比較を行った結果、プーリングによる評価について一定の有効性が示された。
すべて 2007 2006
すべて 雑誌論文 (6件)
情報処理学会情報学基礎研究会報告 Vol. 2007,No. 34
ページ: 33-40
2007年度日本図書館情報学会春季研究集会発表要綱
ページ: 55-58
情報の科学と技術 Vol. 56,No. 10
ページ: 469-474
Library and Information Science No. 56
ページ: 43-63
2006年度日本図書館情報学会春季研究集会発表要綱
ページ: 51-54
第54回日本図書館情報学会研究大会発表要綱
ページ: 13-16