2010 Fiscal Year Annual Research Report
検索システムにおける個別WEB応用への対応化技術の研究
Project/Area Number |
20500086
|
Research Institution | The University of Electro-Communications |
Principal Investigator |
尾内 理紀夫 電気通信大学, 情報理工学研究科, 教授 (70323871)
|
Co-Investigator(Kenkyū-buntansha) |
林 貴宏 新潟大学, 自然科学系, 准教授 (60342490)
|
Keywords | 情報検索 / WEB応用 |
Research Abstract |
20年度の研究成果により、システム全体は、文書収集・登録部と検索部から構成され、検索部は検索バックエンド、インデクサ、スコア作成モジュールから構成され、文書収集・登録部は、新規収集クローラと更新クローラ、文書登録モジュールから構成されることとなった。21年度は二種類のクローラで採用するオープンソースソフトウェアなどについて検討し、新規収集クローラはHeritrixを使用することし、更新クローラについては実装を進め、文書登録モジュールを実装した。 22年度は、上記の20年度と21年度の成果をベースに、規模の拡大における負荷軽減、スケーラビリティ、耐障害性について検討し、Hadoopを導入した。21年度までは、WEBページのデータはMySQLを使用してデータベースで管理していたが、22年度においては、HDFSで管理するようにした。具体的には、クローリングしたWEBページ情報をHDFS上のHBaseで管理する。HBaseはHDFS上で動作するためWEBテーブルのデータは自動分割され、クラスタ内に分散して保持され、データ量の増加に対するスケーラビリティが得られた。またHDFS上にデータが保持されるため障害に対して安全である。さらにMapReduceによるインデキシングの高速化を図り、21年度に比較し、15倍の速度向上を実現した。この時のインデックスサイズはほぼ同等であった。 以上、結果として本方式の有効性を検証した。
|