2011 Fiscal Year Annual Research Report
ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発
Project/Area Number |
21300095
|
Research Institution | Keio University |
Principal Investigator |
上田 修一 慶應義塾大学, 文学部, 教授 (50134218)
|
Co-Investigator(Kenkyū-buntansha) |
安形 輝 亜細亜大学, 国際関係学部, 准教授 (80306505)
池内 淳 筑波大学, 図書館情報メディア研究科, 准教授 (80338607)
|
Keywords | 学術情報 / 学術論文 / 情報検索 / 機械学習 / 自動分類 / サーチエンジン |
Research Abstract |
インターネット上で公開されているPDFファイルから学術論文を自動識別し,検索サービスを提供するシステム(アレセイア)の構築を以下のように行った。 分野を限定しない日本語のPDFファイル集合を構築するために、Yahoo! Search BOSS(Build your Own Search Service)を用いて、ファイルタイプをPDFに限定し、言語の指定を日本語とし、URLを収集した。検索語として日本語WordNetとIPAdicの両方に登録されている名詞27,384語を用い、APIからの検索結果の上位1,000件までを取得し,18,239,568URLを得た。このURL集合から、(1)30秒以内にダウンロード可能、(2)PDFファイルの情報やテキスト抽出可能であった2,947,898件のPDFファイルをデータ集合とした。 アレセイアの基盤となる検索エンジン部分にはSolr3.5を用いた。これは順位付け出力のためにベクトル空間モデルを用いている,日本語の形態素解析システムとしてはlucene-gosen 1.2.1を組み込んだ。アレセイアでは学術「論文らしさ」により順位付けを行うため、検索結果のpdfファイルを論文と判定した判定器数が多い順に並び変え、同順位の場合にはその中をSolr標準の付けを行う出力用ジュールを独自に実装している。また、検索結果の入手性を上げるためにキャッシュ機能を実装した。 また,類似の検索システムであるgoogle scholarやscirusとの比較を行った。 さらに,自動分類の向上のために,全分野の論文を対象として学術論文の構成要素の調査を行った。
|
Research Products
(5 results)