研究課題
基盤研究(C)
研究の結果、システム全体は、文書収集・登録部(新規収集クローラと更新クローラ、文書登録モジュール)と検索部(検索バックエンド、インデクサ、スコア作成モジュール)から構成されることとなった。2種類のクローラで採用するオープンソースソフトウェアについて検討し、新規収集クローラはHeritrixを使用することし、更新クローラ、文書登録モジュールを実装した。さらに規模の拡大における負荷軽減、スケーラビリティ、耐障害性について検討し、Hadoopを導入し、HDFSで管理するようにした。MapReduceによるインデキシングの高速化を図り、従来に比較し、インデックスサイズはほぼ同等で約15倍の速度向上を実現した。以上、成果として本方式の有効性を検証した。
すべて 2009
すべて 雑誌論文 (1件) (うち査読あり 1件)
日本ソフトウェア科学会、コンピュータソフトウェア Vol.26, No.4
ページ: 138-156