• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2004 Fiscal Year Annual Research Report

日本語の特性を利用した書誌データ,ウェブページ等のテキスト自動分類法の基礎的研究

Research Project

Project/Area Number 16700241
Research InstitutionSurugadai University

Principal Investigator

石田 栄美  駿河台大学, 文化情報学部, 講師 (50364815)

Keywordsテキスト自動分類 / 基本件名標目表 / 日本十進分類法 / 相互マッピング / 書誌データ / 目録 / 自動分類
Research Abstract

本研究は,図書の目録データやウェブページなどの日本語テキストを自動分類するシステムを開発することが目的である。図書の目録データは図書館で用いられている分類法をもと町にした分類記号が付与されており,それにより図書は分類されている。同様に,件名標目表の件名も付与されている。件名標目も図書の主題を表現するものとして有効である。分類記号と件名標目の相互マッピングが可能になれば,分類記号から件名標目への推定,件名標目から分類記号への推定を効率的に行うことができる。また,それをシステムに組み込むことにより,書誌情報の特性を取り入れたテキストの自動分類システムを構築することができる。
本年度は,国立情報学研究所が提供するNACSIS-CATに1990年から2000年に入力された目録データ622,295件のうち,日本十進分類法(NDC)9版による分類記号と基本件名標目の件名が付与されているデータ110,000件を用いて,分類記号と件名標目の相互マッピングを試みた。110,000件のうち,100,000件を用いて相互マッピングを行い,10,000件を用いて相互マッピングの精度を評価した。精度の評価は,分類記号から件名標目の推定,および件名標目から分類記号の推定で行った。マッピング手法は,(1)SVM (Support Vector Machine)による手法と(2)図書にNDCを付与する方法で最も精度が高かった相対出現率を用いた重み付けによる手法の2つを用いたところ,相対出現率によるマッピング手法の精度が高かった。しかしながら,精度は半分程度にとどまっていた。失敗分析をしたところ,分類記号や件名自体に特殊性があること,分類記号と件名の対応付けが少ない,または対応が複数にわたることでうまくいかない例が散見された。今後は,目録データの分析をさらに行い,相互マッピング手法の精度を向上させる必要がある。

  • Research Products

    (3 results)

All 2004

All Journal Article (3 results)

  • [Journal Article] 分類記号と件名標目の相互マッピング2004

    • Author(s)
      石田栄美, 神門典子, 上田修一
    • Journal Title

      第52回日本図書館情報学会研究大会発表要綱

      Pages: 117-120

  • [Journal Article] 文体からみた学術的文献の特徴分析2004

    • Author(s)
      石田栄美, 安形輝, 野末道子, 久野高志, 池内淳, 上田修一
    • Journal Title

      2004年度三田図書館・情報学会研究大会発表論文集

      Pages: 33-36

  • [Journal Article] 子どもは絵本をどう読むのか:眼球運動からみた読書独立期児童の絵本の理解2004

    • Author(s)
      汐暗順子, 國本千裕, 三根慎二, 石田栄美, 倉田敬子, 上田修一
    • Journal Title

      2004年度三田図書館・情報学会研究大会発表論文集

      Pages: 25-28

URL: 

Published: 2006-07-12   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi