研究概要 |
今年度は開発方針、シスチムの全体構成、検索部の基本部分などについて検討し、一部実装を開始した。 まず、本システムではデータ量の増大に対応するため、データベースやインデックスを分割し、複数の計算機に分散して保存する方針を採用することとした。また、開発負担をできるだけ抑えるため、様々なオープンソースソフトウェア(OSS)を組み合わせる枠組みを採用することとした。そのため,OSS自身のソースコードを直接変更することはしない。ただし、データ量の増大に対処するために必要となる機能のうち、データベースの分割とインデックスの分割の機能は単純にOSSを組み合わせるだけでは実現できないため、新たにモジュールを作成し、これら作成したモジュールから既存のOSSを呼び出すことで機能を実現することとした。 システム全体構成は,大きく分けて文書収集・登録部と検索部から構成される。文書収集・登録部は新規収集クローラと更新クローラ、文書登録モジュールに分かれており、検索部はインデクサ、スコア作成モジュール、検索バックエンドに分かれている。今年度は特に検索部における個別対応化機能の基本部分の検討を行った。
|