• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2010 Fiscal Year Annual Research Report

検索システムにおける個別WEB応用への対応化技術の研究

Research Project

Project/Area Number 20500086
Research InstitutionThe University of Electro-Communications

Principal Investigator

尾内 理紀夫  電気通信大学, 情報理工学研究科, 教授 (70323871)

Co-Investigator(Kenkyū-buntansha) 林 貴宏  新潟大学, 自然科学系, 准教授 (60342490)
Keywords情報検索 / WEB応用
Research Abstract

20年度の研究成果により、システム全体は、文書収集・登録部と検索部から構成され、検索部は検索バックエンド、インデクサ、スコア作成モジュールから構成され、文書収集・登録部は、新規収集クローラと更新クローラ、文書登録モジュールから構成されることとなった。21年度は二種類のクローラで採用するオープンソースソフトウェアなどについて検討し、新規収集クローラはHeritrixを使用することし、更新クローラについては実装を進め、文書登録モジュールを実装した。
22年度は、上記の20年度と21年度の成果をベースに、規模の拡大における負荷軽減、スケーラビリティ、耐障害性について検討し、Hadoopを導入した。21年度までは、WEBページのデータはMySQLを使用してデータベースで管理していたが、22年度においては、HDFSで管理するようにした。具体的には、クローリングしたWEBページ情報をHDFS上のHBaseで管理する。HBaseはHDFS上で動作するためWEBテーブルのデータは自動分割され、クラスタ内に分散して保持され、データ量の増加に対するスケーラビリティが得られた。またHDFS上にデータが保持されるため障害に対して安全である。さらにMapReduceによるインデキシングの高速化を図り、21年度に比較し、15倍の速度向上を実現した。この時のインデックスサイズはほぼ同等であった。
以上、結果として本方式の有効性を検証した。

URL: 

Published: 2012-07-19  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi