大規模圧縮文書データベースの構築と高度な検索手法に関する研究

Research Project

Project/Area Number	13780184
Research Category	Grant-in-Aid for Young Scientists (B)
Allocation Type	Single-year Grants
Research Field	計算機科学
Research Institution	Tohoku University
Principal Investigator	定兼邦彦東北大学, 大学院・情報科学研究科, 助手 (20323090)
Project Period (FY)	2001 – 2002
Project Status	Completed (Fiscal Year 2002)
Budget Amount *help	¥2,100,000 (Direct Cost: ¥2,100,000) Fiscal Year 2002: ¥900,000 (Direct Cost: ¥900,000) Fiscal Year 2001: ¥1,200,000 (Direct Cost: ¥1,200,000)
Keywords	文書データベース / データ圧縮 / 索引構造 / 接尾辞配列 / 文字列検索 / データベース / 圧縮接尾辞配列
Research Abstract	大規模圧縮文書データベースのためのデータ構造と検索アルゴリズムの開発を行った.データ構造としては既存の圧縮接尾辞配列を基本として用いる.このときのパタンPの検索時間は0(\|P\| log n)時間(nはデータベース中の文書の長さ)であるが,これを高速化するために2つのデータ構造を提案した.1つ目は文字列の2つの接尾辞間の最長一致長を求めるためのものである.これを接尾辞配列と共に用いるとPの検索時間は0(\|P\|+log n)時間に改善される.データ構造のサイズは6n+o(n)ビットであり,n log nビット必要であった既存手法を大きく改善している.2つ目は,Pの検索が0(\|P\|)時間で行えるような圧縮接尾辞配列の新しい表現法と検索アルゴリズムである.なおアルファベットサイズはlog nの多項式であるとする.1つ目のデータ構造に関する論文で情報処理学会山下記念研究賞を受賞した. 次に,圧縮接尾辞配列を構築する省スペースなアルゴリズムを開発した.既存手法では一旦接尾辞配列を作成し,それを圧縮しているため0(n log n)ビットの一時的なスペースが必要であった.本研究では0(n)ビットの一時的なスペースで動作する0(n \|Σ\| log n)時間(Σはアルファベット)のアルゴリズムを開発した.これを用いることで,人の全DNA配列に対する圧縮接尾辞配列をメモリ4GBのPCを用いて21時間で作成することが可能になった.既存手法では48GB以上のメモリが必要であった. さらに,文書検索で広く用いられている文書の順位付け法であるtf*idfスコアの計算のためのデータ構造を開発した.現在は転置ファイルと呼ばれるデータ構造が広く用いられているが,特定の文字列に対してしかスコアが計算できない.本研究のデータ構造では任意の検索文字列について準最適時間でスコアの計算ができ,そのサイズはデータベース中の文書サイズの約3倍と非常にコンパクトである.このデータ構造を用いることにより日本語などの単語の切れ目があいまいな文書の検索において検索精度を向上できる.この結果を情報科学技術フォーラムで発表し,FIT船井ベストペーパー賞を受賞した.

Report

(2 results)

2002 Annual Research Report
2001 Annual Research Report

Research Products
(9 results)

All Other

All Publications (9 results)

[Publications] K.Sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 144-152 (2002)
- Related Report
  2002 Annual Research Report
[Publications] R.Grossi, K.Sadakane, J.S.Vitter: "Practical Compressed Suffix Array in Sublinear Space for Full Text Searching"DIMACS Working Group Meeting on Data Compression in Networks and Applications. (2002)
- Related Report
  2002 Annual Research Report
[Publications] T.W.Lam, K.SADAKANE, W.K.Sung, S.M.Yiu: "A Space and Time Efficient Algorithm for Constructing Compressed Suffix Arrays"Proceedings of International Computing and Combinatorics Conference. LNCS2387. 401-410 (2002)
- Related Report
  2002 Annual Research Report
[Publications] K.Sadakane: "Space-Efficient Data Structures for Flexible Text Retrieval Systems"Proceedings of International Symposium on Algorithms and Computation. LNCS2518. 14-24 (2002)
- Related Report
  2002 Annual Research Report
[Publications] 定兼邦彦: "柔軟な文書検索のためのコンパクトなデータ構造"情報技術レターズ. Vol.1. 7-8 (2002)
- Related Report
  2002 Annual Research Report
[Publications] K.Sadakane: "Succinct Representations of Longest Prefix Information"情報処理学会研究報告. Vol.2002 No.29. 19-26 (2002)
- Related Report
  2002 Annual Research Report
[Publications] K. sadakane, H. Imai: "Fast Algorithms for k-Word Proximity Search"IEICE Trans. Fundamentals. Vol.E84-A No.9. 2311-2318 (2001)
- Related Report
  2001 Annual Research Report
[Publications] K.sadakane, T.Sibuya: "Indexing Huge Genome Sequences for Solving Various Problems"Genome Informatics 2001(Universal Academy Press). No.12. 175-183 (2001)
- Related Report
  2001 Annual Research Report
[Publications] K.sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 225-232 (2002)
- Related Report
  2001 Annual Research Report

大規模圧縮文書データベースの構築と高度な検索手法に関する研究

Principal Investigator

定兼 邦彦 東北大学, 大学院・情報科学研究科, 助手 (20323090)

¥2,100,000 (Direct Cost: ¥2,100,000)

Report

Research Products

[Publications] K.Sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 144-152 (2002)

Related Report

[Publications] R.Grossi, K.Sadakane, J.S.Vitter: "Practical Compressed Suffix Array in Sublinear Space for Full Text Searching"DIMACS Working Group Meeting on Data Compression in Networks and Applications. (2002)

Related Report

[Publications] T.W.Lam, K.SADAKANE, W.K.Sung, S.M.Yiu: "A Space and Time Efficient Algorithm for Constructing Compressed Suffix Arrays"Proceedings of International Computing and Combinatorics Conference. LNCS2387. 401-410 (2002)

Related Report

[Publications] K.Sadakane: "Space-Efficient Data Structures for Flexible Text Retrieval Systems"Proceedings of International Symposium on Algorithms and Computation. LNCS2518. 14-24 (2002)

Related Report

[Publications] 定兼邦彦: "柔軟な文書検索のためのコンパクトなデータ構造"情報技術レターズ. Vol.1. 7-8 (2002)

Related Report

[Publications] K.Sadakane: "Succinct Representations of Longest Prefix Information"情報処理学会研究報告. Vol.2002 No.29. 19-26 (2002)

Related Report

[Publications] K. sadakane, H. Imai: "Fast Algorithms for k-Word Proximity Search"IEICE Trans. Fundamentals. Vol.E84-A No.9. 2311-2318 (2001)

Related Report

[Publications] K.sadakane, T.Sibuya: "Indexing Huge Genome Sequences for Solving Various Problems"Genome Informatics 2001(Universal Academy Press). No.12. 175-183 (2001)

Related Report

[Publications] K.sadakane: "Succinct Representations of lcp Information and Improvements in the Compressed Suffix Arrays"Proceedings of ACM-SIAM Symposium on Discrete Algorithms. 225-232 (2002)

Related Report

定兼邦彦東北大学, 大学院・情報科学研究科, 助手 (20323090)