• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2011 Fiscal Year Annual Research Report

ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発

Research Project

Project/Area Number 21300095
Research InstitutionKeio University

Principal Investigator

上田 修一  慶應義塾大学, 文学部, 教授 (50134218)

Co-Investigator(Kenkyū-buntansha) 安形 輝  亜細亜大学, 国際関係学部, 准教授 (80306505)
池内 淳  筑波大学, 図書館情報メディア研究科, 准教授 (80338607)
Keywords学術情報 / 学術論文 / 情報検索 / 機械学習 / 自動分類 / サーチエンジン
Research Abstract

インターネット上で公開されているPDFファイルから学術論文を自動識別し,検索サービスを提供するシステム(アレセイア)の構築を以下のように行った。
分野を限定しない日本語のPDFファイル集合を構築するために、Yahoo! Search BOSS(Build your Own Search Service)を用いて、ファイルタイプをPDFに限定し、言語の指定を日本語とし、URLを収集した。検索語として日本語WordNetとIPAdicの両方に登録されている名詞27,384語を用い、APIからの検索結果の上位1,000件までを取得し,18,239,568URLを得た。このURL集合から、(1)30秒以内にダウンロード可能、(2)PDFファイルの情報やテキスト抽出可能であった2,947,898件のPDFファイルをデータ集合とした。
アレセイアの基盤となる検索エンジン部分にはSolr3.5を用いた。これは順位付け出力のためにベクトル空間モデルを用いている,日本語の形態素解析システムとしてはlucene-gosen 1.2.1を組み込んだ。アレセイアでは学術「論文らしさ」により順位付けを行うため、検索結果のpdfファイルを論文と判定した判定器数が多い順に並び変え、同順位の場合にはその中をSolr標準の付けを行う出力用ジュールを独自に実装している。また、検索結果の入手性を上げるためにキャッシュ機能を実装した。
また,類似の検索システムであるgoogle scholarやscirusとの比較を行った。
さらに,自動分類の向上のために,全分野の論文を対象として学術論文の構成要素の調査を行った。

  • Research Products

    (5 results)

All 2012 2011

All Journal Article (1 results) (of which Peer Reviewed: 1 results) Presentation (4 results)

  • [Journal Article] 深層ウェブの実態とその要因:機関リポジトリに登録された文献を用いた調査2012

    • Author(s)
      上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
    • Journal Title

      日本図書館情報学会誌

      Volume: (印刷中)

    • Peer Reviewed
  • [Presentation] 学術論文に特化した検索エンジンの構築と評価2012

    • Author(s)
      上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
    • Organizer
      2011年度日本図書館情報学会春季研究集会
    • Place of Presentation
      三重大学
    • Year and Date
      2012-05-12
  • [Presentation] 学術論文の構成要素と構造2012

    • Author(s)
      上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
    • Organizer
      2011年度日本図書館情報学会春季研究集会
    • Place of Presentation
      三重大学
    • Year and Date
      2012-05-12
  • [Presentation] Detecting Academic Papers on the Web2011

    • Author(s)
      Emi Ishita, Teru Agata, Atsushi Ikeuchi, Yosuke Miyata, Shuichi Ueda
    • Organizer
      CDL11
    • Place of Presentation
      Ontario, Canada
    • Year and Date
      2011-06-17
  • [Presentation] 大規模日本語PDFファイル集合からの学術論文の自動判定2011

    • Author(s)
      上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
    • Organizer
      2011年度日本図書館時報学会春季研究集会
    • Place of Presentation
      東京学芸大学
    • Year and Date
      2011-05-14

URL: 

Published: 2013-06-26  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi