• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

データ圧縮に基づく高速テキストマイニング

研究課題

研究課題/領域番号 13780248
研究種目

若手研究(B)

配分区分補助金
研究分野 計算機科学
研究機関九州大学

研究代表者

竹田 正幸  九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)

研究期間 (年度) 2001 – 2002
研究課題ステータス 完了 (2002年度)
配分額 *注記
2,400千円 (直接経費: 2,400千円)
2002年度: 900千円 (直接経費: 900千円)
2001年度: 1,500千円 (直接経費: 1,500千円)
キーワードデータ圧縮 / 機械発見 / 類似性指標 / パターン発見 / 計算量 / 索引 / 圧縮と発見 / パターン照合
研究概要

本研究では,「データ圧縮に基づく高速テキストマイニング」という研究課題を掲げ,以下の3つの研究項目について研究を進めた。
(A)文字列処理に基づく知識発見手法の開発。
(B)文字列データ圧縮と知識発見。
(C)知識発見処理の高速化のための基礎技術開発。
(A)については,国文学研究あるいは音楽情報処理において用いることのできる類似性指標を,本研究で導入した形式的体系であるSRSに沿って,実際に定義し,実装して有効性を検証した。また,本研究で開発したパタン発見アルゴリズムを,ゲノム情報に適用し,生物学的知見を得ることに成功した。(B)については,代表的索引構造であるDAWGに基づくLempel-Ziv圧縮法の新しい実装法を開発した。また,圧縮テキストを表す形式的体系として本研究で導入したコラージュシステムを対象とし,この形式で表された入力に対して編集距離を求める効率的アルゴリズムを開発した。この手法により,相同配列検索の高速化が期待できる。(C)については,テキスト索引方式の研究を集中して行い,DAWGという索引構造をもとにした新しい索引構造であるMASDAWGを開発・実装し,この構造を用いることで,長年の課題であった「機械学習システムBONSAIで正規パタンを扱えるようにすること」に成功した。これによって,従来は事実上不可能であった計算を実時間内に終了することができるようになり,塩基配列やアミノ酸配列からのより高度な知識発見処理が可能となった。さらに(C)に関して,半構造テキストデータからの発見が重要であるとの認識に立ち,大量のXML文書データを効率的に処理する独自の方式を考案し,プロトタイプシステムを構築した。現段階においても,きわめて高速であり,検索のみならず,データの集計・変換・抽出など具体的な多くの用途に使用できる。

報告書

(2件)
  • 2002 実績報告書
  • 2001 実績報告書
  • 研究成果

    (18件)

すべて その他

すべて 文献書誌 (18件)

  • [文献書誌] M.Takeda et al.: "Discovering instance of poetic allusion from anthologies of classical Japanese poems"Theoretical Computer Science. 292(2). 497-524 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] M.Takeda et al.: "Discovering charactersitic expressions from literary works"Theoretical Computer Science. 292(2). 525-546 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] Y.Hayashi et al.: "Uniform characterization of polynomial-query learnabilities"Theoretical Computer Science. 292(2). 377-385 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] M.Hirao et al.: "A practical algorithm to find the best subsequences patterns"Theoretical Computer Science. 292(2). 465-79 (2003)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] T.Kida et al.: "A unifying framework for compressed pattern matching"Theoretical Computer Science. (to appear).

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] H.Bannai et al.: "A String Pattern Regression algorithm and Its Application to Pattern Discovery in Long Introns"Genome Informatics. 13. 3-11 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] S.Inenaga et al.: "Discovering Best Variable-Length-Don't-Care Patterns"Lecture Notes in Artificial Intelligence. 2534. 86-97 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] K.Baba et al.: "A note on Randomized Algorithm for String Matching with Mismatches"Proc.The Prague Stringology Conference '02(PSC'02). 9-17 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] S.Inenaga et al.: "Compact Directed Acyclic Word Graphs for a Sliding Window"Lecture Notes in Computer Science. 2476. 310-324 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] M.Takeda et al.: "Processing Text Files as Is : Pattern Matching over Compressed Texts, Multi-Byte Character Texts, and Semi-Structured Texts"Lecture Notes in Computer Science. 2476. 170-186 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] S.Inenaga et al.: "Space-Economical Construction of Index Structures for All-Suffixes of a String"Lecture Notes in Computer Science. 2420. 341-352 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] S.Inenaga et al.: "The Minimum DAWG for All Suffixes of a String and Its Applications"Lecture Notes in Computer Science. 2373. 151-165 (2002)

    • 関連する報告書
      2002 実績報告書
  • [文献書誌] M.Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] T.Kadota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8^<th> International Symposium on String Processing and Information Retrieval. 111-122 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] S.Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8^<th> International Symposium on String Processing and Information Retrieval. 96-110 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] H.Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms and Applications for Analyzing Classic Literary Works"Proc. 12^<th> Annual International Symposium on Algorithms and Computation. 719-730 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artincial Intelligence. 2226. 413-425 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] M.Takeda: "String Resemblance System : A Unifying Framework for String Similarity with Applications to Literature and Music"Lecture Notes in Computer Science. 2089. 147-151 (2001)

    • 関連する報告書
      2001 実績報告書

URL: 

公開日: 2001-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi