2011 年度実績報告書

ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発

研究課題

研究課題/領域番号	21300095
研究機関	慶應義塾大学
研究代表者	上田修一慶應義塾大学, 文学部, 教授 (50134218)
研究分担者	安形輝亜細亜大学, 国際関係学部, 准教授 (80306505) 池内淳筑波大学, 図書館情報メディア研究科, 准教授 (80338607)
キーワード	学術情報 / 学術論文 / 情報検索 / 機械学習 / 自動分類 / サーチエンジン
研究概要	インターネット上で公開されているPDFファイルから学術論文を自動識別し,検索サービスを提供するシステム(アレセイア)の構築を以下のように行った。分野を限定しない日本語のPDFファイル集合を構築するために、Yahoo! Search BOSS(Build your Own Search Service)を用いて、ファイルタイプをPDFに限定し、言語の指定を日本語とし、URLを収集した。検索語として日本語WordNetとIPAdicの両方に登録されている名詞27,384語を用い、APIからの検索結果の上位1,000件までを取得し,18,239,568URLを得た。このURL集合から、(1)30秒以内にダウンロード可能、(2)PDFファイルの情報やテキスト抽出可能であった2,947,898件のPDFファイルをデータ集合とした。アレセイアの基盤となる検索エンジン部分にはSolr3.5を用いた。これは順位付け出力のためにベクトル空間モデルを用いている,日本語の形態素解析システムとしてはlucene-gosen 1.2.1を組み込んだ。アレセイアでは学術「論文らしさ」により順位付けを行うため、検索結果のpdfファイルを論文と判定した判定器数が多い順に並び変え、同順位の場合にはその中をSolr標準の付けを行う出力用ジュールを独自に実装している。また、検索結果の入手性を上げるためにキャッシュ機能を実装した。また,類似の検索システムであるgoogle scholarやscirusとの比較を行った。さらに,自動分類の向上のために,全分野の論文を対象として学術論文の構成要素の調査を行った。

研究成果
(5件)

すべて 2012 2011

すべて雑誌論文 (1件) (うち査読あり 1件) 学会発表 (4件)

[雑誌論文] 深層ウェブの実態とその要因:機関リポジトリに登録された文献を用いた調査2012
- 著者名/発表者名
  上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
- 雑誌名
  
  日本図書館情報学会誌
  
  巻: (印刷中)
- 査読あり
[学会発表] 学術論文に特化した検索エンジンの構築と評価2012
- 著者名/発表者名
  上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
- 学会等名
  2011年度日本図書館情報学会春季研究集会
- 発表場所
  三重大学
- 年月日
  2012-05-12
[学会発表] 学術論文の構成要素と構造2012
- 著者名/発表者名
  上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
- 学会等名
  2011年度日本図書館情報学会春季研究集会
- 発表場所
  三重大学
- 年月日
  2012-05-12
[学会発表] Detecting Academic Papers on the Web2011
- 著者名/発表者名
  Emi Ishita, Teru Agata, Atsushi Ikeuchi, Yosuke Miyata, Shuichi Ueda
- 学会等名
  CDL11
- 発表場所
  Ontario, Canada
- 年月日
  2011-06-17
[学会発表] 大規模日本語PDFファイル集合からの学術論文の自動判定2011
- 著者名/発表者名
  上田修一, 安形輝, 池内淳, 石田栄美, 宮田洋輔
- 学会等名
  2011年度日本図書館時報学会春季研究集会
- 発表場所
  東京学芸大学
- 年月日
  2011-05-14

2011 年度 実績報告書

ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発

研究代表者

上田 修一 慶應義塾大学, 文学部, 教授 (50134218)

研究成果

[雑誌論文] 深層ウェブの実態とその要因:機関リポジトリに登録された文献を用いた調査2012

著者名/発表者名

雑誌名

[学会発表] 学術論文に特化した検索エンジンの構築と評価2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 学術論文の構成要素と構造2012

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] Detecting Academic Papers on the Web2011

著者名/発表者名

学会等名

発表場所

年月日

[学会発表] 大規模日本語PDFファイル集合からの学術論文の自動判定2011

著者名/発表者名

学会等名

発表場所

年月日

2011 年度実績報告書

上田修一慶應義塾大学, 文学部, 教授 (50134218)