2000 Fiscal Year Annual Research Report
圧縮データ上の高速パタン照合アルゴリズムを用いた知的全文検索システムの開発
Project/Area Number |
10558047
|
Research Institution | KYUSHU UNIVERSITY |
Principal Investigator |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
|
Co-Investigator(Kenkyū-buntansha) |
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
坂本 比呂志 九州大学, 大学院・システム情報科学研究院, 助手 (50315123)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
|
Keywords | パターン照合 / データ圧縮 / 圧縮パターン照合 / データマイニング / 学習 / 部分列オートマトン / 直線的プログラム |
Research Abstract |
まず,圧縮データ上のパターン照合アルゴリズムの開発に関しては,理論的観点からのアプローチとして我々が開発してきた,辞書式データ圧縮法の統一的枠組み(Collage system)についてさらに深く掘り下げ,Boyer-Moore型の照合アルゴリズムを開発することに成功した.これをByte-Pair-Encoding(BPE)圧縮に適合させることで,実用上,最も高速な圧縮文字列照合アルゴリズムが得られることを実験的に確認した.さらに,このCollage Systemに対して,一般的な複数文字列照合アルゴリズムの開発にも成功した.この手法は,近似文字列照合を行う際にも有用であることも確認できた.この手法を,有望な圧縮プログラムSequiturに対して容易に適用でき,また実用上も有用であることが明らかになった.さらに,テキストのみならずパターンも圧縮された設定において,平衡直線的プログラムに対する圧縮文字列照合アルゴリズムの開発も行った.この平衡直線的プログラムは,圧縮率という観点からは一般の直線的プログラムよりも劣るが,しかしながら圧縮文字列照合の観点からはより有用であることがわかった.また,文字列の部分列を判定するための効率のよいデータ構造である部分列オートマトンを高速に構築するオンラインアルゴリズムの開発を行った.このアルゴリズムは,現在知られている中で最も高速であり,知識発見システムの実行速度を上げるためにも有用であることを確認した.一方,データベースからの知識発見に関しても,例から木の変換規則を学習するアルゴリズムや,大きなテキストデータベースから語の最適な結合規則を見つけるアルゴリズムを開発した.このように,高速なアルゴリズムの開発とその実働化の両面に関して,大きな成果が得られた.
|
Research Products
(12 results)
-
[Publications] M.Miyazaki,A.Shinohara and M.Takeda: "An Improved Pattern Matching Algorithm for Strings in terms of Straight-line Programs"Journal of Discrete Algorithms. 1(1). (2000)
-
[Publications] T.Kida,M.Takeda,A.Shinohara,M.Miyazaki and S.Arikawa: "Multiple Pattern Matching in LZW Compressed Text"Journal of Discrete Algorithms. 1(1). (2000)
-
[Publications] Y.Shibata and M.Takeda and A.Shinohara and S.Arikawa: "Pattern Matching in Text Compressed by Using Antidictionaries"Journal of Discrete Algorithms. 1(1). (2000)
-
[Publications] S.Shimozono,H.Arimura and S.Arikawa: "Efficient discovery of optimal word-association patterns in large text databases"New Generation Computing . 18. 49-60 (2000)
-
[Publications] Y.Shibata and T.Matsumoto and M.Takeda and A.Shinohara and S.Arikawa : "A Boyer-Moore type algorithm for compressed pattern matching "Proc.11th Ann.Symp.on Combinatorial Pattern Matching. LNCS 1848. 181-194 (2000)
-
[Publications] H.Sakamoto,H.Arimura and S.Arikawa: "Identification of Tree Translation Rules from Examples"Proc.5th International Colloquium on Grammatical Inference. LNAI 1891. 241-255 (2000)
-
[Publications] M.Hirao and A.Shinohara and M.Takeda and S.Arikawa: "Fully compressed pattern matching algorithm for balanced straight-line programs"Proc.7th International Symposium on String Processing and Information Retrieval (SPIRE2000). 132-138 (2000)
-
[Publications] H.Hoshino,A.Shinohara,M.Takeda and S.Arikawa: "Online construction of subsequence automata for multiple texts"Proc.of 7th International Symposium on String Processing and Information Retrieval. 146-152 (2000)
-
[Publications] T.Matsumoto,T.Kida,M.Takeda,A.Shinohara and S.Arikawa: "Bit-parallel approach to approximate string matching in compressed texts"Proc.of 7th International Symposium on String Processing and Information Retrieval. 221-228 (2000)
-
[Publications] G.Navarro,T.Kida,M.Takeda,A.Shinohara and S.Arikawa: "Faster Approximate String Matching over Compressed Text"Data Compression Conference 2001. (2001)
-
[Publications] S.Mitarai,M.Hirao,T.Matsumoto,A.Shinohara,M.Takeda and S.Arikawa: "Compressed Pattern Matching for Sequitur"Data Compression Conference 2001. (2001)
-
[Publications] M.Takeda,Y.Shibata,T.Matsumoto,T.Kida,A.Shinohara,S.Fukamachi,T.Shinohara and S.Arikawa: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42(3). (2001)