Budget Amount *help |
¥1,800,000 (Direct Cost: ¥1,800,000)
Fiscal Year 2001: ¥700,000 (Direct Cost: ¥700,000)
Fiscal Year 2000: ¥1,100,000 (Direct Cost: ¥1,100,000)
|
Research Abstract |
本研究における部分文字列検索手法の最大の問題は索引部の扱いである.如何に検索速度を向上させつつ,索引部をコンパクトに構築し,かつ索引部の構築時間を短縮するかが重要な課題である. そこで,部分文字列検索システムの索引部となる2進木トライの新たなデータ構造とアルゴリズムの設計と提案を行い,核となるソフトウェアを開発した.まず,特徴ベクトルをハッシュ値として用いてトライを構成した.次に,アクセスすべきバケットを決定するための疑似ベクトルを定義し,トライ上で疑似ベクトルに対応した枝のみを走査する限定深さ優先探索法を提案した.さらに,キー数の増加に対応したトライをコンパクトに構成するために均整ベクトルを導入し,そのベクトルを増進的に生成する手法を提案した.また,探索後に参照されるバケット数を抑制するためにディスクリプタを利用した.開発した部分文字列検索システムを実際に大規模なデータ群に適用して,以下の試験評価を行った. 1.開発した部分文字列検索システムを大規模辞書情報に用いて,データベース化し,コンパクトな索引部を構築した. 2.1で作成した索引部において,索引に対する検索速度などを測定し、本手法で用いた2進木トライ構築アルゴリズムの有効性を確認した.本手法は,約10万語の日本語キー集合と約8万語の英語キー集合に対する実験結果より,ディスクリプタだけを利用した拡張ハッシュ法に比べ,アクセスしたバケット数が60〜90%減少し,検索時間が2〜10倍高速となることがわかった. 3.ネットワークなどにおける情報共有システムへの導入を行い,学会などで研究発表を行った.
|