ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発

研究課題番号:21300095

代表者

  • 2009年度~2011年度

    • 上田 修一
    • 研究者番号:50134218
    • 慶應義塾大学・文学部・教授

研究分担者

    • 安形 輝
    • 研究者番号:80306505
    • 亜細亜大学・国際関係学部・准教授
    • 池内 淳
    • 研究者番号:80338607
    • 筑波大学・図書館情報メディア研究科・准教授

この研究課題のドキュメント

研究課題基本情報(最新年度)

  • 研究期間

    2009年度〜2011年度

  • 研究分野

    図書館情報学・人文社会情報学

  • 審査区分

    一般

  • 研究種目

    基盤研究(B)

  • 研究機関

    慶應義塾大学

  • 配分額

    • 総額:17940千円
    • 2009年度:5980千円 (直接経費:4600千円, 間接経費:1380千円)
    • 2010年度:6890千円 (直接経費:5300千円, 間接経費:1590千円)
    • 2011年度:5070千円 (直接経費:3900千円, 間接経費:1170千円)

研究概要(最新報告)

本研究は,ウェブ文書の中から,情報検索,データマイニング,機械学習などの諸手法を用い,特定の性質(内容,文体)を持つ文書を自動的に判定する方法を明らかにするとともに,その検索システムを開発することにある。

国内のウェブサイトを対象としたクローリングを行うための調査を実施し,学術論文掲載サイトを選択しクローリング戦略を決定した。

クローリングと分析用のサーバーを整備し,稼働させた。

これまで行ってきたルールベースアプローチの向上をするために,構造や情報源,文体,出現語に関して検討した。

学術論文のPDF提供を行っているシステムとして機関レポジトリを取り上げ,機関リポジトリに収録された文献の少なくない数が,深層ウェブ化していることが明らかにした。具体的には,機関ポジトリに含まれる全文URL集合を用いて,深層ウェブの実態調査を行った。カバー率は,最も高いGグーグルで5割,また,主要な検索エンジンを組み合わせた場合には,カバー率を約7割まで上げることでき,これを検索可能なウェブと考えるならば,深層ウェブは約3割といえる。

また,機関リポジトリに関する検索エンジンのカバー率と登録数から,ウェブ全体の大まかな推計を行い,最大で730億のコンテンツが存在するという結果が得られた。

さらに,その原因を明らかにするために,機関リポジトリとリポジトリに収録された学術情報のアクセス可能性に関する調査を行い,検索エンジンからのアクセスを排除している事例や,pdfファイルのテキスト抽出の可否,全文URLの長さなどの要因が,学術情報へのアクセスの可能性を低めていることを明らかにした。

このページのURI

http://kaken.nii.ac.jp/ja/p/21300095