1999 Fiscal Year Annual Research Report
圧縮データ上の高速パタン照合アルゴリズムを用いた知的全文検索システムの開発
Project/Area Number |
10558047
|
Research Institution | Kyushu University |
Principal Investigator |
篠原 歩 九州大学, 大学院・システム情報科学研究科, 助教授 (00226151)
|
Co-Investigator(Kenkyū-buntansha) |
坂本 比呂志 九州大学, 大学院・システム情報科学研究科, 助手 (50315123)
ZEUGMANN Thomas 九州大学, 大学院・システム情報科学研究科, 教授 (60264016)
竹田 正幸 九州大学, 大学院・システム情報科学研究科, 助教授 (50216909)
下薗 真一 九州大学, 情報工学部, 助教授 (70243988)
|
Keywords | 文字列照合 / パタンマッチング / 全文検索 / データ圧縮 / 計算学習理論 / 圧縮パタン照合 / BPE圧縮 / 学習 |
Research Abstract |
情報の電算化とネットワーク化が進み,我々は膨大な情報にアクセスできるようになってきた.ところが,逆にあらゆる情報がネットワーク上に氾濫しているため,ユーザにとって真に必要な情報を取り出すための手間がむしろ増大しているという皮肉な現象が深刻な問題となりつつある.本研究は,情報検索を前提とした知識情報処理技術の開発と,そのために必要な理論の展開を目的とする.二年目にあたる今年度は,前年度の研究成果を踏まえ,パタン照合アルゴリズムのさらなる効率化に力点をおいて研究を展開した.まず,理論的観点からのアプローチとして,辞書式データ圧縮法の統一的枠組み(Collage system)を提案し,この枠組みに対する照合アルゴリズムを開発した.このCollage systemは,現在使用されている主要なデータ圧縮法を統一的に表現することが可能である.すなわちこのことは,様々なデータ圧縮法に対する統一的照合アルゴリズムが得られたことを意味している.またこれより,パタン照合の観点から各データ圧縮法を統一的に評価することができた.その結果,圧縮率の低さからデータ圧縮の分野では注目されなかったBinary Pair Encoding(BPE)という圧縮法が,パタン照合の高速化という観点からは非常に優れた圧縮法であることが判明した.上述の知見をもとに我々が開発したBPE圧縮データ上の照合アルゴリズムは,既存の検索ツールとしては最速とされるAgrepよりも高速であるという結果が得られた.一方,学習機能の研究としては,前年度に引き続き,和歌データベースからの特徴抽出に取り組んだ.より柔軟な特徴抽出システム構築のため,文字列のおける類似性指標の統一的枠組みを提案し,既存の多くの指標がこの枠組みで表現できることを示した.また,この枠組みを用いた新しい指標を提案し,計算機実験を行ったところ,これまで知られていなかった類似歌を発見することができた.これらの研究成果を踏まえ,最終年度の次年度で知的全文検索システムの完成を目指す.
|
Research Products
(5 results)
-
[Publications] Y.Shibata et al.: "Pattern Matching in Text Compressed by Using Antidictionaries."Proc.10th Ann.Symp.on Combinatorial Pattern Matching.. LNCS1645. 37-49 (1999)
-
[Publications] T.Kida et al.: "shift-And Approach to Pettern Matching in LZW Compressed Text"Proc.10th Ann.Symp.on Combinatorial Pattern Matching.. LNCS1645. 1-13 (1999)
-
[Publications] T.Kida et al.: "A Unifying Framework for Compressed Pattern Matching."Proc. 6th Int. Symp. on String Processing and Information Re-trieval. 89-96 (1999)
-
[Publications] K.Tamari et al.: "Discovering Poetic Allusion in Anthiologies of Classical Japanese Poems."Proc. 2nd Int. Conf. on Discovery Science. LNAI1721. 128-138 (1999)
-
[Publications] Y.Shibata et al.: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf.on Algorithms and Complexity. LNCS1767. 306-316 (2000)