研究概要 |
20年度の研究成果により、システム全体は、文書収集・登録部と検索部から構成される。検索部は検索バックエンド、インデクサ、スコア作成モジュールがら構成される。21年度は各部の検討を進め、一部を実装し、動作などを検証した。 21年度は、収集したページをインデックスに登録するインデクサなどをオープンソースソフトウェアで構成するための検討を行った。具体的には、Heritrix、Apache Lucene, MySQLなどのオープンソースソフトウェアをベースにした検索エンジンの検討を行った。 収集した各ページに対するスコアを作成するスコア作成モジュールの内部の検討を行い、Luceneが標準で提供しているスコアリングをそのまま使用する方式と、利用者が独自で定義できるスコアリングを使用する方式を選択できるようにした。 インデックスがら検索を行い、スコアを読み込んで検索結果のソートを行う検索バックエンドの内部検討を進め、LuceneとSenを使用することとした。 20年度における研究により、文書収集・登録部は、新規収集クローラと更新クローラ、文書登録モジュールから構成されることとなった。21年度は、これら二種類のクローラで採用するオープンソースソフトウェアなどについて検討し、新規収集クローラはHeritrixを使用することした。更新クローラについては実装を進めた。また文書登録モジュールを実装した。
|