2006 年度実績報告書

日本語の特性を利用した書誌データ,ウェブページ等のテキスト自動分類法の基礎的研究

研究課題

研究課題/領域番号	16700241
研究機関	駿河台大学
研究代表者	石田栄美駿河台大学, 文化情報学部, 講師 (50364815)
キーワード	テキスト自動分類 / 日本十進分類法 / Japan Marc / 目録データ / 自動分類 / 図書 / PDFファイル / 論文自動判定
研究概要	本研究は、図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。本年度は、目録データを用いて、書名に日本十進分類法に基づく分類記号を付与する際に、複数の分類手法を組み合わせた分類手法の適用可能性について検討した。まず、テキスト自動分類の代表的な分類手法であるSupport Vector Machine(SVM)とナイーブベイズを用いた手法、さらに相対出現率による重み付けを用いた手法を用いて分類し、分類結果を分析した。その結果、それぞれの分類結果を段階的に採用することで、単独の手法で最も精度が高かった相対出現率手法を用いた場合よりも1.5%程度高い精度が得られることがわかった。精度向上のために更なる分析は必要であるが、分類手法にはそれぞれ特徴があり、分類結果を組み合わせることによって、各手法の弱点を補えることが明らかになった。各分類手法における精度を向上させれば、組み合わせる効果がより見込まれる。また、ウェブページに対する分類の一つとして、ウェブコンテンツ中からの日本語の学術論文のPDFファイルを判定するシステム構築を目指した。SVM、ナイーブベイズなど、多くの手法を用いて自動判定実験を行った。自動判定の手がかりとなる属性群としてはファイル中に出現する語と経験的なルール群を用いた。実験から、SVMでは高い精度、ナイーブベイズでは高い再現率が得られ、段階的な論文判定を行うことで、学術論文のPDFファイルの自動判定は実現可能であることが示唆された。さらに、52万件の未判定であるPDFファイル集合の自動判別を試みた。複数の分類手法によって学術論文であると判定されたファイルをプーリングし、各々の手法の性能比較を行った結果、プーリングによる評価について一定の有効性が示された。

研究成果
(6件)

すべて 2007 2006

すべて雑誌論文 (6件)

[雑誌論文] プーリング手法を用いた学術論文の自動判別実験2007
- 著者名/発表者名
  池内淳, 安形輝, 石田栄美, 野末道子, 宮田洋輔, 上田修一
- 雑誌名
  
  情報処理学会情報学基礎研究会報告 Vol. 2007,No. 34
  
  ページ: 33-40
[雑誌論文] 複数の分類手法の組み合わせによる図書自動分類の可能性2007
- 著者名/発表者名
  石田栄美
- 雑誌名
  
  2007年度日本図書館情報学会春季研究集会発表要綱
  
  ページ: 55-58
[雑誌論文] テキスト自動分類の概要2006
- 著者名/発表者名
  石田栄美
- 雑誌名
  
  情報の科学と技術 Vol. 56,No. 10
  
  ページ: 469-474
[雑誌論文] 日本語学術論文PDFファイルの自動判定2006
- 著者名/発表者名
  安形輝, 池内淳, 石田栄美, 野末道子, 久野高志, 上田修一
- 雑誌名
  
  Library and Information Science No. 56
  
  ページ: 43-63
[雑誌論文] NDCの階層構造を利用した図書の自動分類の試み2006
- 著者名/発表者名
  宮田洋輔, 石田栄美, 神門典子, 上田修一
- 雑誌名
  
  2006年度日本図書館情報学会春季研究集会発表要綱
  
  ページ: 51-54
[雑誌論文] エビデンスベーストライブラリアンシップの再検討2006
- 著者名/発表者名
  三根慎二, 國本千裕, 汐崎順子, 宮田洋輔, 林佐和子, 石田栄美, 倉田敬子, 上田修一
- 雑誌名
  
  第54回日本図書館情報学会研究大会発表要綱
  
  ページ: 13-16

2006 年度 実績報告書

日本語の特性を利用した書誌データ,ウェブページ等のテキスト自動分類法の基礎的研究

研究代表者

石田 栄美 駿河台大学, 文化情報学部, 講師 (50364815)

研究成果

[雑誌論文] プーリング手法を用いた学術論文の自動判別実験2007

著者名/発表者名

雑誌名

[雑誌論文] 複数の分類手法の組み合わせによる図書自動分類の可能性2007

著者名/発表者名

雑誌名

[雑誌論文] テキスト自動分類の概要2006

著者名/発表者名

雑誌名

[雑誌論文] 日本語学術論文PDFファイルの自動判定2006

著者名/発表者名

雑誌名

[雑誌論文] NDCの階層構造を利用した図書の自動分類の試み2006

著者名/発表者名

雑誌名

[雑誌論文] エビデンスベーストライブラリアンシップの再検討2006

著者名/発表者名

雑誌名

2006 年度実績報告書

石田栄美駿河台大学, 文化情報学部, 講師 (50364815)