1998 Fiscal Year Annual Research Report
圧縮データ上の高速パタン照合アルゴリズムを用いた知的全文検索システムの開発
Project/Area Number |
10558047
|
Research Category |
Grant-in-Aid for Scientific Research (B)
|
Research Institution | Kyushu University |
Principal Investigator |
篠原 歩 九州大学, 大学院・システム情報科学研究科, 助教授 (00226151)
|
Co-Investigator(Kenkyū-buntansha) |
下薗 真一 九州工業大学, 情報工学部, 助教授 (70243988)
ZEUGMANN Tho 九州大学, 大学院・システム情報科学研究科, 教授 (60264016)
竹田 正幸 九州大学, 大学院・システム情報科学研究科, 助教授 (50216909)
|
Keywords | 文字列照合 / パタンマッチング / 全文検索 / データ圧縮 / 計算学習理論 / 圧縮パタン照合 / Lempel-Ziv圧縮 / 学習 |
Research Abstract |
情報の電算化とネットワーク化が進み,我々は膨大な情報にアクセスできるようになってきた.ところが,逆にあらゆる情報がネットワーク上に氾濫しているため,ユーザにとって真に必要な情報を取り出すための手間がむしろ増大しているという皮肉な現象が深刻な問題となりつつある.本研究は,情報検索を前提とした知識情報処理技術の開発と,そのために必要な理論の展開を目的とする.初年度である今年度は,まず,その基本となる照合アルゴリズムの高速化に力点をおいて研究を展開した.Huffman符号によるデータ圧縮に対してはデータの先読みの手法によって文字列照合の高速化が達成されることを計算機実験により検証した.また,Unixの基本ツールとして知られている圧縮プログラムCompressで採用され広く用いられているLempel-Ziv圧縮のデータに対しては,ビット演算を巧妙に利用したアルゴリズムを開発することによって,データを一旦展開することなくそのまま文字列の照合を行ことに成功し,これをシステムとして実働化した.この方式を用いれば.圧縮データを展開しながら照合するよりも早いことはもちろんのこと,もともとのデータを通常の方法で照合するよりも早いという成果が得られた.一方,学習機能についての観点から,和歌データベースからその特徴を抽出する課題に取り組み,記述長最小原理に基づく手法を開発し,計算機実験を行った.さらに,質問学習のモデルにおいて,概念クラスが多項式回の質問によって学習可能になるための統一的な特徴付けを与えることに成功した.この特徴付けは,これまで等価性質問,所属性質問,およびその組み合わせについてそれぞれ個別に研究されてきたものであるが,この成果はそれを包含している.これらの研究成果を踏まえ,次年度はさらに効率のよい圧縮・展開・照合アルゴリズムの開発と,学習機能の強化を目指す.
|
-
[Publications] 宮崎 正路 他: "圧縮テキストに対するパターン照合機械の高速化" 情報処理学会論文誌. 39. 2638-2648 (1998)
-
[Publications] T. Kida et al.: "Multiple pattern matching in LZV compressed text" Data Compression Conference 1998. 103-113 (1998)
-
[Publications] M. Yamasaki et al.: "Discovering characteritic patterns from collections of classical Japanese Poems" Prof. 1st Int. Conf. on Discovery Science. LNAI1532. 129-140 (1998)
-
[Publications] Y. Hayashi et al.: "Uniform characterizations of polynomial-query learnabilities" Prof. 1st Int. Conf. on Discovery Science. LNAI1532. 84-92 (1998)
-
[Publications] S. Shimozono et al.: "On the hardness of approximating the minimum consistent acyclic DFS and decision diagram" Information Processing Letters. 66. 165-170 (1998)
-
[Publications] H. Arimura, S. Shimozono: "Maximizing agreement with a classification by bounded or unbounded number of words" Proc. 6th Ann Int. Symp. on Algorithms and Computation. LNAI1533. 39-48 (1998)