• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to project page

2001 Fiscal Year Annual Research Report

データ圧縮に基づく高速テキストマイニング

Research Project

Project/Area Number 13780248
Research Category

Grant-in-Aid for Encouragement of Young Scientists (A)

Research InstitutionKyushu University

Principal Investigator

竹田 正幸  九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)

Keywordsデータ圧縮 / 機械発見 / 類似性指標 / パターン発見 / 計算量 / 索引 / 圧縮と発見 / パターン照合
Research Abstract

本研究では,データ圧縮という古典的研究分野に「機械発見処理の高速化」という新しい価値基準を導入し,この視点から,データ圧縮で用いられる各要素技術の再評価を行ない,機械発見システム構築のための基礎技術を確立することを目的とする.本研究では,対象を陽には構造をもたない文字列データに絞り,文字列データを対象とした機械発見の問題を扱う.データ圧縮と機械発見を統一的に扱うために文字列記述の形式的体系を導入し,このもとで,機械発見に必要な文字列処理問題の計算量を解析してその階層を究明する.また,実用的に有用なクラスに関して,文字列照合や文字列データ圧縮の分野の最新の結果を積極的に取り入れ,高速なアルゴリズムを開発することを目指す.
(1)類似性指標の計算量的階層の究明
申請者らの提案した枠組みによれば,類似性指標は,パターンの集合とパターンスコア関数の組として記述される.類似度計算の計算量は,この二つに依存して定まる.そこで,類似性指標の階層を究明することにより,計算量的視点から指標選択の基準をあたえた.
(2)類似性指標の実用的階層の細分化
(1)で得た階層をもとに,多項式時間・領域で計算可能なクラスをさらに細分化した.大量の文字列データに対して,すべての組み合わせについて類似度を計算する目的からは,0(n)〜0(n^3)程度で動作するアルゴリズム以外は,実用にならない.そこで,そのようなアルゴリズムの存在する指標のクラスを見出すことに成功した.
(3)小規模ブロトタイプシステムの構築
(2)で得たクラスに対し,比例常数の点からも高速なアルゴリズムを開発し,計算機上に実装した.このアルゴリズムを核としたプロトタイプシステムを構築し,小規模なデータに対して,そのパフォーマンス評価を行なった.

  • Research Products

    (6 results)

All Other

All Publications (6 results)

  • [Publications] M.Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)

  • [Publications] T.Kadota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8^<th> International Symposium on String Processing and Information Retrieval. 111-122 (2001)

  • [Publications] S.Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8^<th> International Symposium on String Processing and Information Retrieval. 96-110 (2001)

  • [Publications] H.Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms and Applications for Analyzing Classic Literary Works"Proc. 12^<th> Annual International Symposium on Algorithms and Computation. 719-730 (2001)

  • [Publications] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artincial Intelligence. 2226. 413-425 (2001)

  • [Publications] M.Takeda: "String Resemblance System : A Unifying Framework for String Similarity with Applications to Literature and Music"Lecture Notes in Computer Science. 2089. 147-151 (2001)

URL: 

Published: 2003-04-03   Modified: 2016-04-21  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi