• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

Suffix Arrayを利用した全部分文字列による情報検索

Research Project

Project/Area Number 11780249
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Allocation TypeSingle-year Grants
Research Field Intelligent informatics
Research InstitutionUniversity of Tsukuba

Principal Investigator

山本 幹雄  筑波大学, 電子・情報工学系, 助教授 (40210562)

Project Period (FY) 1999 – 2000
Project Status Completed (Fiscal Year 2000)
Budget Amount *help
¥2,500,000 (Direct Cost: ¥2,500,000)
Fiscal Year 2000: ¥800,000 (Direct Cost: ¥800,000)
Fiscal Year 1999: ¥1,700,000 (Direct Cost: ¥1,700,000)
Keywords情報検索 / 単語分割 / 日本語情報検索 / Vector Space モデル / IDF / Suffix Array / Class Array / Viterbi アルゴリズム / 日本語単語分割 / Vector Spaceモデル / ビタービアルゴリズム
Research Abstract

昨年度は、ユーザによって入力された検索要求文のすべての部分文字列と、検索対象となる文書集合のすべての文字列をマッチングさせるシステムの構築・評価を行った。その結果、従来法からの精度向上を確認したが、さらなる精度向上と高速化が課題であることが明らかになった。今年度は、まず、全部分文字列を利用することによって性能が上がる理由、およびその限界を検討した結果以下のことが分かった。
(1)品詞ごとの検索性能への寄与を調べたところ、従来法ではstop wordとして省かれる助詞や助動詞が以外に性能向上に寄与していることが分かった。これは、助詞等によって接続された複合語も1つの長い単語として扱う方がよいことを示している。
(2)検索要求文の中では助詞で接続された長い複合語が、検索対象文献では助詞を省略した名詞連続で表現されている場合、昨年度提案した方法では長い複合語のままではマッチしないため、自動的に短い単語に分割されてしまう。その結果、検索精度が低下している。
以上の2点より、部分的に異なってもできるだけ長い単語列でマッチングするシステムが性能・検索速度の面で有利であると考えた。これを反映させるために、マッチングの単位は単語であるが、マッチした単語が近傍に複数存在するときに類似度を上げるような検索システムを構築した。NTCIR-1の評価データを使って、条件を揃えて評価した結果、11pt平均適合率で、従来法が0.38、昨年度作成したシステムが0.40、今年度の提案システムが0.41の性能であり、精度面の向上を確認した。速度の面でも、昨年度より10倍程度の高速化を達成した。

Report

(2 results)
  • 2000 Annual Research Report
  • 1999 Annual Research Report
  • Research Products

    (2 results)

All Other

All Publications (2 results)

  • [Publications] Mikio Yamamoto: "Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in a Corpus"Computational Linguistics. 27・1(to appear). (2001)

    • Related Report
      2000 Annual Research Report
  • [Publications] Tomohiro Ozawa: "Japanese word segmentation using similarity measure for IR"Proceedings of the First NTCIR Workshop on Research in Japanese Text Retrieval and Term Recognition. 89-96 (1999)

    • Related Report
      1999 Annual Research Report

URL: 

Published: 1999-04-01   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi