20年度の研究成果により、システム全体は、文書収集・登録部と検索部から構成され、検索部は検索バックエンド、インデクサ、スコア作成モジュールから構成され、文書収集・登録部は、新規収集クローラと更新クローラ、文書登録モジュールから構成されることとなった。21年度は二種類のクローラで採用するオープンソースソフトウェアなどについて検討し、新規収集クローラはHeritrixを使用することし、更新クローラについては実装を進め、文書登録モジュールを実装した。 22年度は、上記の20年度と21年度の成果をベースに、規模の拡大における負荷軽減、スケーラビリティ、耐障害性について検討し、Hadoopを導入した。21年度までは、WEBページのデータはMySQLを使用してデータベースで管理していたが、22年度においては、HDFSで管理するようにした。具体的には、クローリングしたWEBページ情報をHDFS上のHBaseで管理する。HBaseはHDFS上で動作するためWEBテーブルのデータは自動分割され、クラスタ内に分散して保持され、データ量の増加に対するスケーラビリティが得られた。またHDFS上にデータが保持されるため障害に対して安全である。さらにMapReduceによるインデキシングの高速化を図り、21年度に比較し、15倍の速度向上を実現した。この時のインデックスサイズはほぼ同等であった。 以上、結果として本方式の有効性を検証した。
|