2010 Fiscal Year Annual Research Report
ウェブ上の文書から学術論文を自動判定し,検索するシステムの設計開発
Project/Area Number |
21300095
|
Research Institution | Keio University |
Principal Investigator |
上田 修一 慶應義塾大学, 文学部, 教授 (50134218)
|
Co-Investigator(Kenkyū-buntansha) |
安形 輝 亜細亜大学, 国際関係学部, 准教授 (80306505)
池内 淳 筑波大学, 図書館情報メディア研究科, 准教授 (80338607)
|
Keywords | 学術情報 / ウェブ / 情報検索 / 自動分類 |
Research Abstract |
本研究は,ウェブ文書の中から,情報検索,データマイニング,機械学習などの諸手法を用い,特定の性質(内容,文体)を持つ文書を自動的に判定する方法を明らかにするとともに,その検索システムを開発することにある。 国内のウェブサイトを対象としたクローリングを行ないPDFファイルを取得するシステムを構築し,運用を開始した。2011年3月までに1億5312万件のURLを収集したが,その中で,PDFファイルは124万件,HTMLファイルは,3,700万件となった。 一方,学術論文の自動判定のために,実験用集合を作り,判定実験をした。2010年12月にYahoo!Search BOSSを用いて日本語WordNetとIPAdicの両方に登録されている名詞27,384語で検索、ファイルタイプをPDFに限定し、言語の指定を日本語とし、URLを収集し,660万件のRLを得た。この中から無作為抽出した2万件に対して人手で学術論文判定を行い,判定ルールは、ファイルの構造、URL、出現キーワードから構成されている。ファイルの構造とは、ファイルサイズ、ページ数、レイアウト、暗号化の有無などからなる判定ルールを用いた論文自動判定実験を行い判定ルールの精緻化を図った。 さらに,対象とする範囲を拡大し英語のファイルも含めることで、提案手法が言語による違いを越えた有効性を検証した。日本語の場合と同じ方法で英語のPDFファイルを組織的に収集し,人手で学術論文判定を行った。英語用に翻案した判定ルールを用いた判定実験では、日本語ファイルを対象とした実験よりも高い性能での論文判定を行うことができた。
|
Research Products
(5 results)