Suffix Arrayを利用した全部分文字列による情報検索

研究課題

研究課題/領域番号	11780249
研究種目	奨励研究(A)
配分区分	補助金
研究分野	知能情報学
研究機関	筑波大学
研究代表者	山本幹雄筑波大学, 電子・情報工学系, 助教授 (40210562)
研究期間 (年度)	1999 – 2000
研究課題ステータス	完了 (2000年度)
配分額 *注記	2,500千円 (直接経費: 2,500千円) 2000年度: 800千円 (直接経費: 800千円) 1999年度: 1,700千円 (直接経費: 1,700千円)
キーワード	情報検索 / 単語分割 / 日本語情報検索 / Vector Space モデル / IDF / Suffix Array / Class Array / Viterbi アルゴリズム / 日本語単語分割 / Vector Spaceモデル / ビタービアルゴリズム
研究概要	昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。 (1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。 (2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。

報告書

(2件)

2000 実績報告書
1999 実績報告書

研究成果
(2件)

すべてその他

すべて文献書誌 (2件)

[文献書誌] Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)
- 関連する報告書
  2000 実績報告書
[文献書誌] Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)
- 関連する報告書
  1999 実績報告書