• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

大規模半構造化テキストデータからの高速データマイニング・システムの開発

研究課題

研究課題/領域番号 11558040
研究種目

基盤研究(B)

配分区分補助金
応募区分展開研究
研究分野 知能情報学
研究機関九州大学

研究代表者

有村 博紀  九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)

研究分担者 篠原 歩  九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
竹田 正幸  九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
正代 隆義  九州大学, 大学院・システム情報科学研究院, 助教授 (50226304)
平田 耕一  九州工業大学, 情報工学部, 助教授 (20274558)
石野 明  九州大学, 大学院・システム情報科学研究院, 助手 (10315129)
研究期間 (年度) 1999 – 2001
研究課題ステータス 完了 (2001年度)
配分額 *注記
9,800千円 (直接経費: 9,800千円)
2001年度: 2,000千円 (直接経費: 2,000千円)
2000年度: 3,300千円 (直接経費: 3,300千円)
1999年度: 4,500千円 (直接経費: 4,500千円)
キーワードWebマイニング / 半構造化テキスト / HTML / XML / 最適パターン発見 / 接尾辞配列 / データ圧縮 / パターン照合 / テキストデータ / データマイニング / 語相関パターン / 和歌データ / 類似性指標 / 文字列照合 / 主施律の類似性
研究概要

本研究では,以下の三つの研究項目について研究を展開した.
1.半構造化文書からのデータマイニング方式.大量テキストからのテキストマイニング問題を考察し,これを情報検索の逆問題として定式化し,とくに,雑音の多い不完全なデータにおける頑健なパターン発見のために,統計的尺度を最適化するパターンを発見する最適パターン発見の枠組みを採用した.近接部分語パターンと呼ばれる単純なテキストパターンに対して,ランダムテキスト上できわめて高速にはたらく,最適パターン発見アルゴリズムを開発し,ウェブからのキーワード獲得問題や,対話的文書ブラウジングに適用した.さらに,ウェブやXMLデータなどの大規模半構造化文書を,「半構造化文書=テキスト+構造+属性データ」ととらえて,テキストマイニングの枠組みを木やグラフ構造に拡張した.
2.大量テキストデータに対する高速パターン照合方式.現実の大規模テキストデータベースシステムでは,大量のテキストデータを格納するため,テキストを圧縮して扱うことが多い.そのため,圧縮データ上のパターン照合アルゴリズムに力点をおいて研究した.これは,圧縮されたデータを陽に展開することなくパターン照合を行おうとするものである.本アプローチの独創的な点は,単にデータを圧縮することで記憶領域を削減するだけでなく,さらに,圧縮することでパターン照合そのものを高速化させるという狙いをもつことである.本研究では,一連の研究を通じて,一番目の目標だけでなく,二番目の目標も達成できることを実証した.さらに,既存のさまざまな圧縮方式に対して,その圧縮方式に適した圧縮照合アルゴリズムを開発すると同時に,より高い見地から多様な圧縮照合アルゴリズムを統一的にとらえる枠組みを提案することに成功した.
3.機械学習に基づくデータマイニング方式.一連の半構造化文書からの情報抽出問題を理論的に定式化し,与えられたデータからパターンを発見する問題の学習可能性と限界を理論的に明らかにした.次に,Tree Wrapperや生垣とよばれる木と文字列の双方の性質をもつ木構造パターンに対して,半構造化文書からの情報抽出のための効率よい情報抽出アルゴリズムを開発した.さらに,実際のウェブデータを対象として,さまざまなタイプの半構造化文書から,利用者が必要とする情報を獲得するという情報獲得実験を行い,その有効性を検証した.

報告書

(4件)
  • 2001 実績報告書   研究成果報告書概要
  • 2000 実績報告書
  • 1999 実績報告書
  • 研究成果

    (52件)

すべて その他

すべて 文献書誌 (52件)

  • [文献書誌] H.Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] M.Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] T.Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Science. 2138. 335-346 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] A.Yamamoto et al.: "Deductive and Inductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] K.Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] T.Kodota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8th International Symposium on String Processing and Information Retrieval (SPJRE2001). 111-122 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] S.Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8th International Symposium on String Processing and Information Retrieval (SPJRE2001). 96-110 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] H.Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms aid Applications for Analyzing Classic Literary Works"Proc. 12th Annual International Symposium on Algorithms and Computation (ISAAC' 01). 719-730 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] M.Takeda: "String resemblace system : A unifying framework for string similarity with applications to literature and music"Lecture Notes in Computer Science. 2089. 147-151 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] T.Kida et al.: "Multiple pattern matching algorithms on collage system"Lecture Notes in Computer Science. 2089. 193-206 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Tetsuya Nasukawa et al.: "Base Technology for Text Mining"Journal of Japanese Society for Artificial Intelligence. 16(2). 201-211 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Sakamoto et al.: "Web Mining"Journal of Japanese Society for Artificial Intelligence. 16(2). 233-238 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Sakamoto et al.: "Extracting Partial Structures from HTML Documents"Proc. the 14th Florida Artificial Intelligence Research Symposium (FLAIRS' 2001). 264-268 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroki Arimura et al.: "Efficient Discovery of Proximity Patterns with Suffix Arrays"Lecture Notes in Computer Science. 2089. 152-156 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Toru Kasai et al.: "Linear-time Longest-Common-Prefix Computation in Suffix Arrays and Its Applications"Lecture Notes in Computer Science. 2089. 181-192 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Katsuaki Taniguchi et al.: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)

    • 説明
      「研究成果報告書概要(和文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] H. Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] M. Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] T. Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Science. 2138. 335-346 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] K. Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] A. Yamamoto et al.: "Deductive and Inductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] K. Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] T. Kadota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8th International Symposium on String Processing and Information Retrieval (SPIRE2001). 111-122 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] S. Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8th International Symposium on String Processing and Information Retrieval (SPIRE2001). 96-110 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] H. Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms and Applications for Analyzing Classic Literary Works"Proc. 12th Annual International Symposium on Algorithms and Computation (ISAAC'01). 719-730 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] M. Takeda: "String resemblance system : A unifying framework for string similarity with applications to literature and music"Lecture Notes in Computer Science. 2089. 147-151 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] T. Kida et al.: "Multiple pattern matching algorithms on college system"Lecture Notes in Computer Science. 2089. 193-206 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Tetsuya Nasukawa et al.: "Base Technology for Text Mining"Journal of Japanese Society for Artificial Intelligence. 16 (2). 201-211 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Sakamoto et al.: "Web Mining"Journal of Japanese Society for Artificial Intelligence. 16 (2). 233-238 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroshi Sakamoto et al.: "Extracting Partial Structures from HTML Documents"Proc. the 14th Florida Artificial Intelligence Research Symposium (FLAIRS'2001). 264-268 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Hiroki Arimura et al.: "Efficient Discovery of Proximity Patterns with Suffix Arrays"Lecture Notes in Computer Science. 2089. 152-256 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Toru Kasai et al.: "Linear-time Longest-Common-Prefix Computation in Suffix Arrays and Its Applications"Lecture Notes in Computer Science. 2089. 181-192 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] Katsuaki Taniguchi et al.: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)

    • 説明
      「研究成果報告書概要(欧文)」より
    • 関連する報告書
      2001 研究成果報告書概要
  • [文献書誌] H.Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] M.Taked et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] T.Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Scienc. 2138. 335-346 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] A.Yamamoto et al.: "Deductive and lnductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] K.Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)

    • 関連する報告書
      2001 実績報告書
  • [文献書誌] 安部潤一郎,有村博紀,坂本比呂志,有川節夫,: "テキストマイニングを用いたWebデータからの複合概念の発見"日本ソフトウエア科学会第2回データマイニングワークショップ会議録. (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Hiroshi Sakamoto,Hiroki Arimura,and Setsuo Arikawa: "Extracting Partial Structures from HTML Documents"the 14th Florida Artificial Intelligence Research Symposium(FLAIRS'2001). (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Hiroki Arimura, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries : Research and Practice, Kyoto University. (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] G.Navarro,T.Kida,M.Takeda,A.Shinohara: "Faster Approximate String Matching Over Compressed Text."Proc.Data Compression Conference (DCC'2001),. (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Masayuki Takeda: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42・3. (2001)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] Masayuki Takeda, et al.: "Discovering characteristic expressions from literary works : A new text analysis method beyond N-gram statistics and KWIC"Proc.3rd International Conference on Discovery Science (DS'2000). 112-126 (2000)

    • 関連する報告書
      2000 実績報告書
  • [文献書誌] T. Kida et al: "A Unifying Framework for Compressed Pattern Matching"Proc. 6th Int. Symp. String Processing and Information Retrieval. 89-96 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] K. Tamari et al: "Discovering Poetic Allusion in Anthologies of Classical Japanese Poems"Proc. 2nd Int. Conf. on Discovery Science. LNAI1721. 128-138 (1999)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] R. Fujino et al: "Discovering Unordered and Orderd Phrase Association Patterns for Text Mining"Proc. PAKDD2000. LNAI(印刷中). (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] H. Arimura et al: "Efficient Discovery of Optimal Word-Association Patterns in Large Text Databases"New Generation Computing. 18(1). 49-60 (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] M. Yamasaki et al: "Discovering Characteristic Patterns from Collections of Classical Japanese Poems"New Generation Computing. 18(1). 61-73 (2000)

    • 関連する報告書
      1999 実績報告書
  • [文献書誌] Y. Shibata et al: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf. on Algorithms and Complexity. LNCS1767. 306-316 (2000)

    • 関連する報告書
      1999 実績報告書

URL: 

公開日: 1999-04-01   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi