• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2009 Fiscal Year Annual Research Report

ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発

Research Project

Project/Area Number 21300095
Research InstitutionKeio University

Principal Investigator

上田 修一  Keio University, 文学部, 教授 (50134218)

Co-Investigator(Kenkyū-buntansha) 安形 輝  亜細亜大学, 国際関係学部, 准教授 (80306505)
池内 淳  筑波大学, 図書館情報メディア研究科, 准教授 (80338607)
Keywords学術情報 / ウェブ / 情報検索 / 自動分類
Research Abstract

本研究は,ウェブ文書の中から,情報検索,データマイニング,機械学習などの諸手法を用い,特定の性質(内容,文体)を持つ文書を自動的に判定する方法を明らかにするとともに,その検索システムを開発することにある。
国内のウェブサイトを対象としたクローリングを行うための調査を実施し,学術論文掲載サイトを選択しクローリング戦略を決定した。
クローリングと分析用のサーバーを整備し,稼働させた。
これまで行ってきたルールベースアプローチの向上をするために,構造や情報源,文体,出現語に関して検討した。
学術論文のPDF提供を行っているシステムとして機関レポジトリを取り上げ,機関リポジトリに収録された文献の少なくない数が,深層ウェブ化していることが明らかにした。具体的には,機関ポジトリに含まれる全文URL集合を用いて,深層ウェブの実態調査を行った。カバー率は,最も高いGグーグルで5割,また,主要な検索エンジンを組み合わせた場合には,カバー率を約7割まで上げることでき,これを検索可能なウェブと考えるならば,深層ウェブは約3割といえる。
また,機関リポジトリに関する検索エンジンのカバー率と登録数から,ウェブ全体の大まかな推計を行い,最大で730億のコンテンツが存在するという結果が得られた。
さらに,その原因を明らかにするために,機関リポジトリとリポジトリに収録された学術情報のアクセス可能性に関する調査を行い,検索エンジンからのアクセスを排除している事例や,pdfファイルのテキスト抽出の可否,全文URLの長さなどの要因が,学術情報へのアクセスの可能性を低めていることを明らかにした。

  • Research Products

    (3 results)

All 2009 2001

All Presentation (3 results)

  • [Presentation] Analyzing OPAC Use with Screen Views and Eye Tracking2009

    • Author(s)
      ISHITA Emi, UEDA Shuichi, 他
    • Organizer
      ACM/IEEE Joint Conference on Digital libraries : Designing tomorrow, preserving the past-today(JCDL09)
    • Place of Presentation
      テキサス大学(米国テキサス州オースティン)
    • Year and Date
      20090615-20090619
  • [Presentation] 学術情報流通における深層ウェブの実態-機関リポジトリに登録された文献を用いた調査2009

    • Author(s)
      安形輝, 上田修一, 他
    • Organizer
      三田図書館・情報学会研究大会
    • Place of Presentation
      慶應義塾大学(東京)
    • Year and Date
      2009-09-26
  • [Presentation] 日本の機関リポジトリに収録された学術情報のアクセス可能性2001

    • Author(s)
      宮田洋輔, 上田修一, 他
    • Organizer
      日本図書館情報学会研究大会
    • Place of Presentation
      明治大学(東京)
    • Year and Date
      2001-10-31

URL: 

Published: 2011-06-16   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi