2003 Fiscal Year Annual Research Report
データ圧縮と高速文字列照合アルゴリズムを用いた知的全文検索システムの開発
Project/Area Number |
13558029
|
Research Institution | Kyushu University |
Principal Investigator |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
|
Co-Investigator(Kenkyū-buntansha) |
喜田 拓也 九州大学, 附属図書館, 講師 (70343316)
坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
|
Keywords | 文字列照合アルゴリズム / データ圧縮 / 全文検索システム / 知識発見 / 最適パターン発見 / 接尾辞木 / インデックス構造 / 機械学習 |
Research Abstract |
最終年度にあたって,照合アルゴリズムの高速化とそれを支えるデータ構造の構築,そして効率のよいパターン発見アルゴリズムの開発に力点をおいて研究を展開した. 文字列に対する索引構造として,接尾辞木(suffix tree)や有向無閉路文字列グラフ(DAWG)がよく知られているが,我々はその両方の性質を持つ,よりコンパクトなデータ構造であるコンパクト有向無閉路文字列(CDAWG)に着目し,そのためのオンライン構築アルゴリズムを示した.また,文字列のすべての接頭辞に対するDAWGを合わせた構造に対する構築アルゴリズムを示し,与えられた文字列のすべての部分列を受理するオートマトン(部分列オートマトン)の状態数の下限の証明も行った.これらの結果はいずれも,アプリケーションの高速化の基盤技術として用いられている.また,日本語テキストなど,アルファベットサイズが大きい場合に有効なDAWGの実装技術として,三分木構造を活用したデータ構造を提唱し,その有効性を実証した. 一方,これら文字列に対するデータ構造の性質をより探求するために,グラフ構造からそれに適合する文字列を推論するという逆問題を新たに提案し,DAWG,部分列オートマトン,そして接尾辞配列に対する線形時間アルゴリズムの開発した.さらに,文字列の代数的な性質として,1変数の文字列方程式の解の長さの上限を初めて明示的に証明することに成功した. データ圧縮に関しては,まず我々はテキストに対応したコンパクトな文脈自由文法を出力する枠組みにおいて,出力される文法のサイズの近似率を保証した,領域効率もよいアルゴリズムの開発とその解析に成功した.また,長さ優先で置換を行っていくヒューリスティクスに関しても,全行程を線形時間で行うことを可能にするアルゴリズムを与えた. また、大量のデータから現実的な時間内に有用な規則を抽出しようとするパターン発見アルゴリズムに関しても,より一般化したさまざまなパターンについてそれぞれ独自の高速アルゴリズムを開発することに成功した.特に,誤りを許した近似パターンについても,効率のよいアルゴリズムを与え,その効果を計算機実験によって検証した.
|
-
[Publications] Kensuke Baba et al.: "A Note on Randomized Algorithm for String Matching with Mismatches"Nordic Journal of Computing. Vol.10. 2-10 (2003)
-
[Publications] Takuya Kida et al.: "Collage system : A unifying framework for compressed pattern matching"Theoretical Computer Science. Vol.298. 253-272 (2003)
-
[Publications] Masayuki Takeda et al.: "Discovering Most Classificatory Patterns for Very Expressive Pattern Classes"Lecture Notes in Computer Science. 2843. 486-493 (2003)
-
[Publications] Masahiro Hirao et al.: "A practical algorithm to find the best subsequences patterns"Theoretical Computer Science. Vol.292. 465-479 (2003)
-
[Publications] Zdenek Tronicek et al.: "The Size of Subsequence Automaton"Lecture Notes in Computer Science. 2857. 304-310 (2003)
-
[Publications] Shunsuke Inenaga et al.: "Linear-Time Off-Line Text Compression by Longest-First Substitution"Lecture Notes in Computer Science. 2857. 137-152 (2003)
-
[Publications] Hideo Bannai et al.: "Inferring Strings from Graphs and Arrays"Lecture Notes in Computer Science. 2747. 208-217 (2003)
-
[Publications] Kensuke Baba et al.: "On the Length of the Minimum Solution of Word Equations in One Variable"Lecture Notes in Computer Science. 2747. 189-197 (2003)
-
[Publications] Satoru Miyamoto et al.: "Ternary Directed Acyclic Word Graphs"Lecture Notes in Computer Science. 2759. 120-130 (2003)
-
[Publications] 喜田拓也: "VLDCパタンと文字列とのハミング距離を求めるアルゴリズム"情報科学技術フォーラム(FIT)2003. (A-062). 137-138 (2003)
-
[Publications] 喜田拓也: "誤りを許したVLDCパタン照合アルゴリズム"コンピュテーション研究会. (2004)
-
[Publications] Hiroshi Sakamoto: "A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression"Proc. 14th Annual Symposium on Combinatorial Pattern Matching (CPM 2003). 348-360 (2003)
-
[Publications] 坂本比呂志: "最適データ圧縮のための省スペースな近似アルゴリズム"情報科学技術フォーラム(FIT)講演論文集. 29-30 (2003)
-
[Publications] 竹田正幸 他: "ストリーム指向の高速XMLデータ処理技法について"データベースとWeb情報システムに関するシンポジウム(DBWeb2003). 26-27 (2003)
-
[Publications] 辻 寿嗣 他: "高速正則生垣パターン照合アルゴリズムに基づくXMLテキスト変換"電子情報通信学会「コンピュテーション」研究会. (2003)
-
[Publications] 菅 智明 他: "楽譜検索のための幾何点列の近似パタン照合"電子情報通信学会「コンピュテーション」研究会. (2004)