研究課題/領域番号 |
21300095
|
研究種目 |
基盤研究(B)
|
配分区分 | 補助金 |
応募区分 | 一般 |
研究分野 |
図書館情報学・人文社会情報学
|
研究機関 | 慶應義塾大学 |
研究代表者 |
上田 修一 慶應義塾大学, 文学部, 教授 (50134218)
|
研究分担者 |
安形 輝 亜細亜大学, 国際関係学部, 准教授 (80306505)
池内 淳 筑波大学, 図書館情報メディア研究科, 准教授 (80338607)
|
連携研究者 |
石田 栄美 九州大学, 附属図書館, 准教授 (50364815)
野末 道子 (財)鉄道総合技術研究所, その他部局等, 研究員 (40426044)
|
研究期間 (年度) |
2009 – 2011
|
研究課題ステータス |
完了 (2011年度)
|
配分額 *注記 |
17,940千円 (直接経費: 13,800千円、間接経費: 4,140千円)
2011年度: 5,070千円 (直接経費: 3,900千円、間接経費: 1,170千円)
2010年度: 6,890千円 (直接経費: 5,300千円、間接経費: 1,590千円)
2009年度: 5,980千円 (直接経費: 4,600千円、間接経費: 1,380千円)
|
キーワード | 学術論文 / 検索エンジン / ウェブ構造 / 情報検索 / 自動分類 / 機械学習 / 学術情報 / サーチエンジン / ウェブ |
研究概要 |
研究の目的は,分野を限定せず,日本語及び英語の学術論文への直接的なアクセスを保証し,公開された検索アルゴリズムを用いた学術論文に特化した検索エンジンの構築と評価である。ウェブクローリングを行うために機関リポジトリ収載ファイルを調査し,深層ウェブの存在などウェブ構造を明らかにした。また,日本語および英語で書かれた全分野の学術論文の構成要素と構成を調査し,その結果に基づいて,学術論文の自動判定を行うための判定ルールを構築した。次いでウェブから約300万件の日本語PDFファイルを収集し, Solrによる検索エンジンの構築を行った。既存の検索エンジンと比較評価を行った結果,構築した検索エンジン「アレセイア」は,論文へのアクセスの点で優れており,高い確率で学術論文を自動判定できることが明らかになった。
|