Project/Area Number |
16700241
|
Research Category |
Grant-in-Aid for Young Scientists (B)
|
Allocation Type | Single-year Grants |
Research Field |
情報図書館学・人文社会情報学
|
Research Institution | Surugadai University |
Principal Investigator |
石田 栄美 駿河台大学, 文化情報学部, 講師 (50364815)
|
Project Period (FY) |
2004 – 2006
|
Project Status |
Completed (Fiscal Year 2006)
|
Budget Amount *help |
¥3,200,000 (Direct Cost: ¥3,200,000)
Fiscal Year 2006: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2005: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2004: ¥1,800,000 (Direct Cost: ¥1,800,000)
|
Keywords | テキスト自動分類 / 日本十進分類法 / Japan Marc / 目録データ / 自動分類 / 図書 / PDFファイル / 論文自動判定 / NACSIS-CAT / 基本件名標目表 / 相互マッピング / 書誌データ / 目録 |
Research Abstract |
本研究は、図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。 本年度は、目録データを用いて、書名に日本十進分類法に基づく分類記号を付与する際に、複数の分類手法を組み合わせた分類手法の適用可能性について検討した。まず、テキスト自動分類の代表的な分類手法であるSupport Vector Machine(SVM)とナイーブベイズを用いた手法、さらに相対出現率による重み付けを用いた手法を用いて分類し、分類結果を分析した。その結果、それぞれの分類結果を段階的に採用することで、単独の手法で最も精度が高かった相対出現率手法を用いた場合よりも1.5%程度高い精度が得られることがわかった。精度向上のために更なる分析は必要であるが、分類手法にはそれぞれ特徴があり、分類結果を組み合わせることによって、各手法の弱点を補えることが明らかになった。各分類手法における精度を向上させれば、組み合わせる効果がより見込まれる。 また、ウェブページに対する分類の一つとして、ウェブコンテンツ中からの日本語の学術論文のPDFファイルを判定するシステム構築を目指した。SVM、ナイーブベイズなど、多くの手法を用いて自動判定実験を行った。自動判定の手がかりとなる属性群としてはファイル中に出現する語と経験的なルール群を用いた。実験から、SVMでは高い精度、ナイーブベイズでは高い再現率が得られ、段階的な論文判定を行うことで、学術論文のPDFファイルの自動判定は実現可能であることが示唆された。さらに、52万件の未判定であるPDFファイル集合の自動判別を試みた。複数の分類手法によって学術論文であると判定されたファイルをプーリングし、各々の手法の性能比較を行った結果、プーリングによる評価について一定の有効性が示された。
|