2002 Fiscal Year Annual Research Report
データ圧縮と高速文字列照合アルゴリズムを用いた知的全文検索システムの開発
Project/Area Number |
13558029
|
Research Institution | Kyushu University |
Principal Investigator |
篠原 歩 九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
|
Co-Investigator(Kenkyū-buntansha) |
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
喜田 拓也 九州大学, 附属図書館, 講師 (70343316)
竹田 正幸 九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
|
Keywords | 文字列照合アルゴリズム / データ圧縮 / 全文検索システム / 知識発見 / 最適パターン発見 / 接尾辞木 / インデックス構造 / 機械学習 |
Research Abstract |
本研究は、情報検索を前提とした知識情報処理技術の開発と、そのために必要な理論の停会を目的とし、さらに、その基本となる照合アルゴリズムの高速化、圧縮技法の開発を通じて、実用的なシステムの構築を目指す。この目標を達成するために、以下の項目に力点をおいて研究を展開している。 1.知的検索機能開発のための学習理論の展開 2.圧縮データに対する高速パターン照合アルゴリズムの開発とそのパフォーマンス 3.データ加工を前提とした圧縮技法の開発 4.知的検索システムの実働化 本年度は、XMLファイルやHTMLファイルに代表される、半構造データに対する高速パターン照合アルゴリズムの開発とそのパフォーマンスの解析に特に力点をおいて研究を行った。特に、半構造データからいったん構文木を構築することなく、直接処理を行うための枠組みの構築と、その上でのパターン照合アルゴリズムの開発を行った。また、圧縮ファイル上のパターン照合に関しても、引き続き検索を前提とした新たなデータ圧縮法の開発に取り組んだ。 一方、知的検索システムに使用される学習機能について引き続き定式化を行ない、パタン言語を基盤とした知識の表現体系を利用する学習可能性の解明と、効率のよい学習アルゴリズムの開発を行った。 さらに、これらから派生する問題に関して、計算量理論の観点からの解析を行った。特に、関連するいくつかの問題についてのNP困難性が徐々に明らかになりつつあるので、近似精度が保証できる近似アルゴリズムの開発とその解析を行った。 そしてこれらのアルゴリズムを実働化し、そのパフォーマンスを評価する研究を行った。
|
Research Products
(11 results)
-
[Publications] Takuya Kida et al.: "Collage system : A unifying framework for compressed pattern matching"Theoretical Computer Science. (to appear). (2003)
-
[Publications] Y.Hayashi et al.: "Uniform characterization of polynomial-query learnabilities"Theoretical Computer Science. 292(2). 377-385 (2003)
-
[Publications] M.Hirao et al.: "A practical algorithm to find the best subsequences patterns"Theoretical Computer Science. 292(29). 465-479 (2003)
-
[Publications] H.Bannai et al.: "A String Pattern Regression Algorithm and Its Application to Pattern Discovery in Long Introns"Genome Informatics. 13. 3-11 (2002)
-
[Publications] S.Inenaga et al.: "Discovering Best Variable-Length-Don't Care Patterns"Lecture Notes in Artificial Intelligence. 2534. 86-97 (2002)
-
[Publications] K.Baba et al.: "A note on Randomized Algorithm for String Matching with Mismatches"Proc. The Prague Stringology Conference'02(PSC'02). 9-17 (2002)
-
[Publications] S.Inenaga et al.: "Compact Directed Acyclic Word Graphs for a Sliding Window"Lecture Notes in Computer Science. 2476. 310-324 (2002)
-
[Publications] M.Takeda et al.: "Processing Text Files as Is : Pattern Matching over Compressed Texts, Multi-Byte Character Texts, and Semi-Structured Texts"Lecture Notes in Computer Science. 2476. 170-186 (2002)
-
[Publications] S.Inenaga et al.: "Space-Economical Construction of Index Structures for All-Suffixes of a String"Lecture Notes in Computer Science. 2420. 341-352 (2002)
-
[Publications] S.Inenaga et al.: "The Minimum DAWG for All Suffixes of a String and Its Applications"Lecture Notes in Computer Science. 2373. 151-165 (2002)
-
[Publications] 竹田 正幸 他: "圧縮されたテキスト上のパターン照合-データ圧縮とパターン照合の新展開-"情報処理学会 学会誌. 43-47. 763-769 (2002)