Research Abstract |
本研究は,ウェブ文書の中から,情報検索,データマイニング,機械学習などの諸手法を用い,特定の性質(内容,文体)を持つ文書を自動的に判定する方法を明らかにするとともに,その検索システムを開発することにある。 国内のウェブサイトを対象としたクローリングを行うための調査を実施し,学術論文掲載サイトを選択しクローリング戦略を決定した。 クローリングと分析用のサーバーを整備し,稼働させた。 これまで行ってきたルールベースアプローチの向上をするために,構造や情報源,文体,出現語に関して検討した。 学術論文のPDF提供を行っているシステムとして機関レポジトリを取り上げ,機関リポジトリに収録された文献の少なくない数が,深層ウェブ化していることが明らかにした。具体的には,機関ポジトリに含まれる全文URL集合を用いて,深層ウェブの実態調査を行った。カバー率は,最も高いGグーグルで5割,また,主要な検索エンジンを組み合わせた場合には,カバー率を約7割まで上げることでき,これを検索可能なウェブと考えるならば,深層ウェブは約3割といえる。 また,機関リポジトリに関する検索エンジンのカバー率と登録数から,ウェブ全体の大まかな推計を行い,最大で730億のコンテンツが存在するという結果が得られた。 さらに,その原因を明らかにするために,機関リポジトリとリポジトリに収録された学術情報のアクセス可能性に関する調査を行い,検索エンジンからのアクセスを排除している事例や,pdfファイルのテキスト抽出の可否,全文URLの長さなどの要因が,学術情報へのアクセスの可能性を低めていることを明らかにした。
|