本年度は、文書検索システムの開発を中心に、以下の項目について研究を行った。 1.テキストの自動収集と形態素解析に基づく位置情報と時刻情報の自動切り出し インターネット上のウェブサイトからHTML文書を自動的に収集するプログラムを作成した。収集した文書に含まれるテキストを形態素解析し、地名候補と時刻候補を切り出すプログラムを作成した。 2.位置と時刻を表す語句とその数値化 上記1で作成した地名・時刻候補抽出プログラムによって抽出された地名候補と時刻候補を地名辞書、時刻辞書とつき合わせて、それぞれを緯度、経度、日時に変換するプログラムを作成した。緯度、経度、日時をHTML文書に関するメタデータとして記憶できるようにした。 3.数値化された位置と時刻に関するインデクシング 数値化された位置と時刻を座標と考えて、時空間ハッシュ表を用いてインデクシングを行った。これにより、ハッシュ表のセル番号の計算と、セルに記憶された文書の検索の2回の操作により、時空間的な意味での点位置質問に答えることができる。 4.数値化された位置と時刻に関する近傍検索 問い合わせとして与えられた位置や時刻に関する近傍検索を行うプログラムを実装した。近傍検索を行うためには、問い合わせとして与えられた時刻や位置の含まれるセルを探し、その近傍のセルを順次探索すればよい。そのため、近傍のセルごとに並列処理を行うことができれば検索効率が向上する。そのような並列検索プログラムを作成した。 5.検索結果のランキングと時空間的な関係を反映した表示 地理的な近さと時間的な近さを基にして、文書のランキングを行った。また、地図やカレンダーを用いた整理と表示も行った。
|