• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2000 年度 研究成果報告書概要

圧縮データ上の高速パタン照合アルゴリズムを用いた知的全文検索システムの開発

研究課題

研究課題/領域番号 10558047
研究種目

基盤研究(B)

配分区分補助金
応募区分展開研究
研究分野 計算機科学
研究機関九州大学

研究代表者

篠原 歩  九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)

研究分担者 下薗 真一  九州工業大学, 情報工学部, 助教授 (70243988)
坂本 比呂志  九州大学, 大学院・システム情報科学研究院, 助手 (50315123)
竹田 正幸  九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
研究期間 (年度) 1998 – 2000
キーワードパターン照合 / データ圧縮 / 圧縮パターン照合 / データマイニング / 学習 / 部分列オートマトン / 直線的プログラム
研究概要

圧縮データ上のパターン照合アルゴリズムの開発に関しては,理論的観点からのアプローチとして,辞書式データ圧縮法の統一的枠組み(Collage system)を開発し,その枠組みの上で,Knuth-Morris-Pratt型(KMP)とBoyer-Moore型(BM)の両方の照合アルゴリズムを開発することに成功した.KMPとBMは,通常のテキストに対する最も基本的な照合アルゴリズムである.これらをByte-Pair-Encoding(BPE)圧縮に適合させることで,実用上,最も高速な圧縮文字列照合アルゴリズムが得られることを実験的に確認した.さらに,このCollage Systemに対して,一般的な複数文字列照合アルゴリズムの開発にも成功した.この手法は,近似文字列照合を行う際にも有用であることも確認できた.この手法を,有望な圧縮プログラムSequiturに対して容易に適用でき,また実用上も有用であることが明らかになった.さらに,テキストのみならずパターンも圧縮された設定において,平衡直線的プログラムに対する圧縮文字列照合アルゴリズムの開発も行った.この平衡直線的プログラムは,圧縮率という観点からは一般の直線的プログラムよりも劣るが,しかしながら圧縮文字列照合の観点からはより有用であることがわかった.また,文字列の部分列を判定するための効率のよいデータ構造である部分列オートマトンを高速に構築するオンラインアルゴリズムの開発を行った.このアルゴリズムは,現在知られている中で最も高速であり,知識発見システムの実行速度を上げるためにも有用であることを確認した.一方,データベースからの知識発見に関しても,例から木の変換規則を学習するアルゴリズムや,大きなテキストデータベースから語の最適な結合規則を見つけるアルゴリズムを開発できた.

  • 研究成果

    (44件)

すべて その他

すべて 文献書誌 (44件)

  • [文献書誌] 宮崎正路 他: "圧縮テキストに対するパターン照合機械の高速化"情報処理学会論文誌. 39. 2638-2648 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] H.Sakamoto: "Finding a one-variable pattern from incomplete data"Proc. 9th International Conference on Algorithmic Learning Theory. LNAI1501. 234-246 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Y.Shibata et al.: "Pattern Matching in Text Compressed by Using Antidictionaries"Proc.10th Ann.Symp.Combinatorial Pattern Matching. LNCS1645. 37-49 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] T.Kida et al.: "Shift-And Approach to Pattern Matching in LZW Compressed Text"Proc.l0th Ann.Symp.Combinatorial Pattern Matching. LNCS1645. 1-13 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] T.Kida et al.: "A Unifying Framework for Compressed Pattern Matching"Proc.6th Int.Symp.String Processing and Information Retrieval. 89-96 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] S.Shimozono: "Alphabet indexing for approximating features of symbols"Theoretical Computer Science. 210. 245-260 (1999)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Y.Shibata et al.: "Speeding Up Pattern Matching by Text Compression"Proc.4th Italian Conf.on Algorithms and Complexity. LNCS1767. 306-316 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Y.Shibata and T.Matsumoto and M.Takeda and A.Shinohara and S.Arikawa: "A Boyer-Moore type algorithm for compressed pattern matching"Proc.11th Ann.Symp.on Combinatorial Pattern Matching. LNCS1848. 181-194 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] H.Sakamoto et al.: "Identification of tree translation rules from examples"Proc.5th International Colloquium on Grammatical Inference. LNAI1891. 240-255 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] S.Shimozono et al.: "On the hardness of approximating the minimum consistent acyclic DFS and decision diagram"Information Processing Letters. 66. 165-170 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] H.Arimura,S.Shimozono: "Maximizing agreement with a classification by bounded or unbounded number of words"Proc.6th Ann.Int.Symp.on Algorithms and Computation. LNAI1533. 39-48 (1998)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] M.Miyazaki,A.Shinohara and M.Takeda: "An Improved Pattern Matching Algorithm for Strings in terms of Straight-line Programs"Journal of Discrete Algorithms. 1(1). (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] T.Kida,M.Takeda,A.Shinohara,M.Miyazaki and S.Arikawa: "Multiple Pattern Matching in LZW Compressed Text"Journal of Discrete Algorithms. 1(1). (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] Y.Shibata and M.Takeda and A.Shinohara and S.Arikawa: "Pattern Matching in Text Compressed by Using Antidictionaries"Journal of Discrete Algorithms. 1(1). (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] S.Shimozono,H.Arimura and S.Arikawa: "Efficient discovery of optimal word-association patterns in large text databases"New Generation Computing. 18. 49-60 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] H.Sakamoto,H.Arimura and S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc.5th International Colloquium on Grammatical Inference. LNAI1891. 241-255 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] M.Hirao and A.Shinohara and M.Takeda and S.Arikawa: "Fully compressed pattern matching algorithm for balanced straight-line programs"Proc.7th International Symposium on String Processing and Information Retrieval (SPIRE2000). 132-138 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] H.Hoshino,A.Shinohara,M.Takeda and S.Arikawa: "Online construction of subsequence automata for multiple texts"Proc.of 7th International Symposium on String Processing and Information Retrieval. 146-152 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] T.Matsumoto,T.Kida,M.Takeda,A.Shinohara and S.Arikawa: "Bit-parallel approach to approximate string matching in compressed texts"Proc.of 7th International Symposium on String Processing and Information Retrieval. 221-228 (2000)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] G.Navarro,T.Kida,M.Takeda,A.Shinohara and S.Arikawa: "Faster Approximate String Matching over Compressed Text"Data Compression Conference 2001. (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] S.Mitarai,M.Hirao,T.Matsumoto,A.Shinohara,M.Takeda and S.Arikawa: "Compressed Pattern Matching for Sequitur"Data Compression Conference 2001. (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] M.Takeda et al.: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42(3). (2001)

    • 説明
      「研究成果報告書概要(和文)」より
  • [文献書誌] M.Miyazaki et al.: "Speeding up the pattern matching machine for compressed texts."Trans. Information Processing Society of Japan. 39(9). 2638-2648 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] H.Sakamoto: "Finding a one-variable pattern from incomplete data."Proc. 9th International Conference on Algorithmic Learning Theory, LNAI. 1501. 234-246 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Y.Shibata et al: "Pattern Matching in Text Compressed by Using Antidictionaries"Proc. 10th Ann. Symp. Combinatorial Pattern Matching. LNCS1645. 37-49 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] T.Kida et al: "Shift-And Approach to Pattern Matching in LZW Compressed Text"Proc. 10th Ann. Symp. Combinatorial Pattern Matching. LNCS1645. 1-13 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] T.Kida et al: "A Unifying Framework for Compressed Pattern Matching"Proc. 6th Int. Symp. String Processing, and Information Retrieval. 89-96 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] S.Shimozono: "Alphabet indexing for approximating features of symbols"Theoretical Computer Science. 210. 245-260 (1999)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Y.Shibata et al: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf. on Algorithms and Complexity. LNCS1767. 306-316 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Y.Shibata and T.Matsumoto and M.Takeda and A.Shinohara and S.Arikawa: "A Boyer-Moore type algorithm for compressed pattern matching"Proc. 11th Ann. Symp. on Combinatorial Pattern Matching. LNCS1848. 181-194 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] H.Sakamoto et al: "Identification of tree translation rules from examples"Proc. 5th International Colloquium on Grammatical Inference. LNAI1891. 240-255 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] S.Shimozono et al: "On the hardness of approximating the minimum consistent acyclic DFS and decision diagram"Information Processing Letters. 66. 165-170 (1998)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] H.Arimura, S.Shimozono: "Maximizing agreement with a classification by bounded or unbounded number of words"Proc. 6th Ann. Int. Symp. on Algorithms and Computation. LNAI1533. 39-48 (1988)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] M.Miyazaki, A.Shinohara and M.Takeda: "An Improved Pattern Matching Algorithm for Strings in terms of Straight-line Programs"Journal of Discrete Algorithms. 1(1). (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] T.Kida, M.Takeda, A.Shinohara, M.Miyazaki and S.Arikawa: "Multiple Pattern Matching in LZW Compressed Text"Journal of Discrete Algorithms. 1(1). (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] Y.Shibata and M.Takeda and A.Shinohara and S.Arikawa: "Pattern Matching in Text Compressed by Using Antidictionaries"Journal of Discrete Algorithms. 1(1). (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] S.Shimozono, H.Arimura and S.Arikawa: "Efficient discovery of optimal word-association patterns in large text databases"New Generation Computing. 18. 49-60 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] H.Sakamoto, H.Arimura and S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc. 5th International Colloquium on Grammatical Inference. LNAI1891. 241-255 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] M.Hiraa and A.Shinohara and M.Takeda and S.Arikawa: "Fully compressed pattern matching algorithm for balanced straight-line programs"Proc. 7th International Symposium on String Processing and Information Retrieval. 132-138 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] H.Hoshino, A.Shinohara, M.Takeda and S.Arikawa: "Online construction of subsequence automata for multiple texts"Proc. 7th International Symposium on String Processing and Information Retrieval. 146-152 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] T.Matsumoto, T.Kida, M.Takeda, A.Shinohara and S.Arikawa: "Bit-Parallel Approach to approximate string matching in compressed texts"Proc. 7th International Symposium on String Processing and Information Retrieval. 222-228 (2000)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] G.Navarro, T.Kida, M.Takeda, A.Shinohara and S.Arikawa: "{Faster Approximate String Matching over Compressed Text"Data Compression Conference 2001. (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] S.Mitarai, M.Hirao, T.Matsumoto, A.Shinohara, M.Takeda and S.Arikawa: "Compressed Pattern Matching for Sequitur"Data Compression Conference 2001. (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
  • [文献書誌] M.Takeda et al: "Speeding up string pattern matching by text compression : The dawn of a new era"Trans. Information Processing Society of Japan. 42(3). (2001)

    • 説明
      「研究成果報告書概要(欧文)」より

URL: 

公開日: 2002-03-26  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi