研究概要 |
インターネット上で公開されているPDFファイルから学術論文を自動識別し,検索サービスを提供するシステム(アレセイア)の構築を以下のように行った。 分野を限定しない日本語のPDFファイル集合を構築するために、Yahoo! Search BOSS(Build your Own Search Service)を用いて、ファイルタイプをPDFに限定し、言語の指定を日本語とし、URLを収集した。検索語として日本語WordNetとIPAdicの両方に登録されている名詞27,384語を用い、APIからの検索結果の上位1,000件までを取得し,18,239,568URLを得た。このURL集合から、(1)30秒以内にダウンロード可能、(2)PDFファイルの情報やテキスト抽出可能であった2,947,898件のPDFファイルをデータ集合とした。 アレセイアの基盤となる検索エンジン部分にはSolr3.5を用いた。これは順位付け出力のためにベクトル空間モデルを用いている,日本語の形態素解析システムとしてはlucene-gosen 1.2.1を組み込んだ。アレセイアでは学術「論文らしさ」により順位付けを行うため、検索結果のpdfファイルを論文と判定した判定器数が多い順に並び変え、同順位の場合にはその中をSolr標準の付けを行う出力用ジュールを独自に実装している。また、検索結果の入手性を上げるためにキャッシュ機能を実装した。 また,類似の検索システムであるgoogle scholarやscirusとの比較を行った。 さらに,自動分類の向上のために,全分野の論文を対象として学術論文の構成要素の調査を行った。
|