2005 Fiscal Year Annual Research Report
日本語の特性を利用した書誌データ,ウェブページ等のテキスト自動分類法の基礎的研究
Project/Area Number |
16700241
|
Research Institution | Surugadai University |
Principal Investigator |
石田 栄美 駿河台大学, 文化情報学部, 講師 (50364815)
|
Keywords | テキスト自動分類 / 日本十進分類法 / NACSIS-CAT / 目録データ / 自動分類 / 図書 |
Research Abstract |
本研究は,図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。図書の目録データは図書館で用いられている分類法をもとにした分類記号や定められた件名標目が付与されており,それにより図書は主題分類されている。目録データに分類記号や件名標目を自動的に付与することができれば,目録データに対する分類記号の補完だけでなく,電子的な資料に対して自動的に主題を付与することもでき,より多くの資料に対する横断的な組織化や主題からのアクセスが可能となる。 本年度は,目録データを用いて書名に日本十進分類法に基づく分類記号付与システムの構築を試みた。システム構築に際して,(1)書名だけでなく目次や帯情報がどの程度分類に有効であるか,(2)形式分類されている文学分野に対する分類で,目次や帯情報は有効であるか,(3)目録データを分類するために有効な分類手法は何かという3点を中心に検討を行った。NACSIS-CATの目録データと「BOOK」データから抽出した24,000件のデータから書名,目次,帯情報を用いて,5088カテゴリに対して分類を行ったところ,統計的手法では目次や帯情報を用いた効果がみとめられ,機械学習手法であるSVMよりも相互情報量や相対出現率手法など統計的手法による分類手法を用いた場合の分類性能が高いことが明らかになった。しかしながら,最も高い分類性能で30%程度にとどまっており,更なる性能向上が求められる。また,文学分野に対しては,25%程度とある程度の分類が可能であるこが明らかになった。誤って分類された書誌データを分析したところ,「総記」分野は目次が,「文学」分野は帯情報が分類に有効であることがわかった。今後はこれらの分析により明らかになった傾向をもとに,目録データに適した分類手法の提案を目指す。
|