Suffix Arrayを利用した全部分文字列による情報検索

Research Project

Project/Area Number	11780249
Research Category	Grant-in-Aid for Encouragement of Young Scientists (A)
Allocation Type	Single-year Grants
Research Field	Intelligent informatics
Research Institution	University of Tsukuba
Principal Investigator	山本幹雄筑波大学, 電子・情報工学系, 助教授 (40210562)
Project Period (FY)	1999 – 2000
Project Status	Completed (Fiscal Year 2000)
Budget Amount *help	¥2,500,000 (Direct Cost: ¥2,500,000) Fiscal Year 2000: ¥800,000 (Direct Cost: ¥800,000) Fiscal Year 1999: ¥1,700,000 (Direct Cost: ¥1,700,000)
Keywords	情報検索 / 単語分割 / 日本語情報検索 / Vector Space モデル / IDF / Suffix Array / Class Array / Viterbi アルゴリズム / 日本語単語分割 / Vector Spaceモデル / ビタービアルゴリズム
Research Abstract	昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。 (1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。 (2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。

Report

(2 results)

2000 Annual Research Report
1999 Annual Research Report

Research Products
(2 results)

All Other

All Publications (2 results)

[Publications] Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)
- Related Report
  2000 Annual Research Report
[Publications] Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)
- Related Report
  1999 Annual Research Report

Suffix Arrayを利用した全部分文字列による情報検索

Principal Investigator

山本 幹雄 筑波大学, 電子・情報工学系, 助教授 (40210562)

¥2,500,000 (Direct Cost: ¥2,500,000)

Report

Research Products

[Publications] Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)

Related Report

[Publications] Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)

Related Report

山本幹雄筑波大学, 電子・情報工学系, 助教授 (40210562)