研究課題/領域番号 |
10480082
|
研究種目 |
基盤研究(B)
|
研究機関 | 徳島大学 |
研究代表者 |
青江 順一 徳島大学, 工学部, 教授 (90108853)
|
研究分担者 |
獅々堀 正幹 徳島大学, 工学部, 講師 (50274262)
佐藤 隆士 大阪教育大学, 教育学部, 助教授 (20124117)
北 研二 徳島大学, 工学部, 助教授 (10243734)
|
キーワード | 文書データ / 検索手法 / キーワード検索 / 全文検索 |
研究概要 |
平成10年度の研究目標は、n-gram文字列索引の格納構造に対して,動的な複数キーワードの照合機械を適応した新しい検索構造を提案する点と、索引部の領域を大幅に圧縮する手法の確立であり、次が研究成果である。 1. n-gram文字列索引の格納構造としての動的な複数キーワードの照合機械の提案し、文字列の重複した部分を効率的に圧縮するための、新しい技法を確立した。 2. postingsに対する圧縮技法の提案と評価に足しては、postingsを表現する新しいベクトル表現を導入し、さらに多段階圧縮アルゴリズムを考案した。これにより、索引表全体を従来法の約10%に圧縮できた。 3. 部分文字列マッチの実現と検索性能の実験と評価としては、前方一致のみならず、後方一致、中間部分一致を一つの索引に対して高速検索できる新しい索引構造と検索アルゴリズムを確立し、実験により検索速度の性能を評価した。 4. 初年度開発エンジンの実用規模テキストデータベースへの適応と評価については、30メガバイトの実用規模テキストデータベースへ提案手法を適合し、徹底した有効性の評価を行った。この評価において、次年度以降は、10倍以上のテキストデータを収集し、実験と評価を行う計画である。
|