Development of Efficient Data Mining Systems for Large Semi-Structured Text Data

Research Project

Project/Area Number	11558040
Research Category	Grant-in-Aid for Scientific Research (B)
Allocation Type	Single-year Grants
Section	展開研究
Research Field	Intelligent informatics
Research Institution	Kyushu University
Principal Investigator	ARIMURA Hiroki Department of Informatics, Kyushu University, Assoc. Prof., 大学院・システム情報科学研究院, 助教授 (20222763)
Co-Investigator(Kenkyū-buntansha)	SHINOHARA Ayumi Department of Informatics, Kyushu University, Assoc. Prof., 大学院・システム情報科学研究院, 助教授 (00226151) TAKEDA Masayuki Department of Informatics, Kyushu University, Assoc. Prof., 大学院・システム情報科学研究院, 助教授 (50216909) SHOUDAI Takayoshi Department of Informatics, Kyushu University, Assoc. Prof., 大学院・システム情報科学研究院, 助教授 (50226304) HIRATA Kouichi Kyushu Institute of Technology, Department of Artificial Intelligence, Assoc. Prof., 情報工学部, 助教授 (20274558) ISHINO Akira Department of Informatics, Kyushu University, Res. Assoc., 大学院・システム情報科学研究院, 助手 (10315129)
Project Period (FY)	1999 – 2001
Project Status	Completed (Fiscal Year 2001)
Budget Amount *help	¥9,800,000 (Direct Cost: ¥9,800,000) Fiscal Year 2001: ¥2,000,000 (Direct Cost: ¥2,000,000) Fiscal Year 2000: ¥3,300,000 (Direct Cost: ¥3,300,000) Fiscal Year 1999: ¥4,500,000 (Direct Cost: ¥4,500,000)
Keywords	Web Mining / Semi-structured data / HTML / XML / Information extraction / Machine learning / Data compression / Pattern matching / テキストデータ / データマイニング / 語相関パターン / 和歌データ / 類似性指標 / 文字列照合 / 主施律の類似性
Research Abstract	The goal of this research project is to devise an efficient semi-automatic tool that supports human discovery from large unstructured and semi-structured text data. To achieve this goal, we studied in the following three directions. 1. The central process of text mining is pattern discovery. We employed the framework of optimized pattern discovery, and developed effcient and robust text mining algorithms that find simple combinatorial patterns from large unstructured texts. To implement these algorithms, we developed a text index structure based on the suffix arrays suitable for text mining. Based on these technologies, we implemented a prototype system and run computer experiments on Web data. 2. Another important technology for text is efficient pattern matching. As a theoretical framework, we proposed a unified framework, called Collage system, for realizing various dictionary-based compression methods. We developed both Knuth-Morris-Pratt type and Byer-Moore type pattern matching algorithms employing this framework. We also applied this framework to Byte-Pair-Encoding compression method and Sequitur, the former of which yields the fastest compressed pattern matching algorithm. 3. Final process of text mining is information extraction. From theoretical point of view, we first formalize the information extraction problem from semi-structured data, and then gave theoretical analysis of the power and the limitation of such tasks. Then, we developed efficient information extraction algorithms for various types of extraction rules including tree wrappers and hedge patterns and evaluate them through experiments on real-life semi-structured data on the internet.

Report

(4 results)

2001 Annual Research Report Final Research Report Summary
2000 Annual Research Report
1999 Annual Research Report

Research Products
(52 results)

All Other

All Publications (52 results)

[Publications] H.Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] M.Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] T.Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Science. 2138. 335-346 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] A.Yamamoto et al.: "Deductive and Inductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] K.Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] T.Kodota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8th International Symposium on String Processing and Information Retrieval (SPJRE2001). 111-122 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] S.Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8th International Symposium on String Processing and Information Retrieval (SPJRE2001). 96-110 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] H.Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms aid Applications for Analyzing Classic Literary Works"Proc. 12th Annual International Symposium on Algorithms and Computation (ISAAC' 01). 719-730 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] M.Takeda: "String resemblace system : A unifying framework for string similarity with applications to literature and music"Lecture Notes in Computer Science. 2089. 147-151 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] T.Kida et al.: "Multiple pattern matching algorithms on collage system"Lecture Notes in Computer Science. 2089. 193-206 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Tetsuya Nasukawa et al.: "Base Technology for Text Mining"Journal of Japanese Society for Artificial Intelligence. 16(2). 201-211 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Hiroshi Sakamoto et al.: "Web Mining"Journal of Japanese Society for Artificial Intelligence. 16(2). 233-238 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Hiroshi Sakamoto et al.: "Extracting Partial Structures from HTML Documents"Proc. the 14th Florida Artificial Intelligence Research Symposium (FLAIRS' 2001). 264-268 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Hiroki Arimura et al.: "Efficient Discovery of Proximity Patterns with Suffix Arrays"Lecture Notes in Computer Science. 2089. 152-156 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Toru Kasai et al.: "Linear-time Longest-Common-Prefix Computation in Suffix Arrays and Its Applications"Lecture Notes in Computer Science. 2089. 181-192 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Katsuaki Taniguchi et al.: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)
- Description
  「研究成果報告書概要(和文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] H. Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] M. Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] T. Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Science. 2138. 335-346 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] K. Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] A. Yamamoto et al.: "Deductive and Inductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] K. Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] T. Kadota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8th International Symposium on String Processing and Information Retrieval (SPIRE2001). 111-122 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] S. Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8th International Symposium on String Processing and Information Retrieval (SPIRE2001). 96-110 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] H. Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms and Applications for Analyzing Classic Literary Works"Proc. 12th Annual International Symposium on Algorithms and Computation (ISAAC'01). 719-730 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] M. Takeda: "String resemblance system : A unifying framework for string similarity with applications to literature and music"Lecture Notes in Computer Science. 2089. 147-151 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] T. Kida et al.: "Multiple pattern matching algorithms on college system"Lecture Notes in Computer Science. 2089. 193-206 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Tetsuya Nasukawa et al.: "Base Technology for Text Mining"Journal of Japanese Society for Artificial Intelligence. 16 (2). 201-211 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Hiroshi Sakamoto et al.: "Web Mining"Journal of Japanese Society for Artificial Intelligence. 16 (2). 233-238 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Hiroshi Sakamoto et al.: "Extracting Partial Structures from HTML Documents"Proc. the 14th Florida Artificial Intelligence Research Symposium (FLAIRS'2001). 264-268 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Hiroki Arimura et al.: "Efficient Discovery of Proximity Patterns with Suffix Arrays"Lecture Notes in Computer Science. 2089. 152-256 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Toru Kasai et al.: "Linear-time Longest-Common-Prefix Computation in Suffix Arrays and Its Applications"Lecture Notes in Computer Science. 2089. 181-192 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] Katsuaki Taniguchi et al.: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)
- Description
  「研究成果報告書概要(欧文)」より
- Related Report
  2001 Final Research Report Summary
[Publications] H.Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)
- Related Report
  2001 Annual Research Report
[Publications] M.Taked et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)
- Related Report
  2001 Annual Research Report
[Publications] T.Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Scienc. 2138. 335-346 (2001)
- Related Report
  2001 Annual Research Report
[Publications] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)
- Related Report
  2001 Annual Research Report
[Publications] A.Yamamoto et al.: "Deductive and lnductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)
- Related Report
  2001 Annual Research Report
[Publications] K.Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)
- Related Report
  2001 Annual Research Report
[Publications] 安部潤一郎,有村博紀,坂本比呂志,有川節夫,: "テキストマイニングを用いたWebデータからの複合概念の発見"日本ソフトウエア科学会第2回データマイニングワークショップ会議録. (2001)
- Related Report
  2000 Annual Research Report
[Publications] Hiroshi Sakamoto,Hiroki Arimura,and Setsuo Arikawa: "Extracting Partial Structures from HTML Documents"the 14th Florida Artificial Intelligence Research Symposium(FLAIRS'2001). (2001)
- Related Report
  2000 Annual Research Report
[Publications] Hiroki Arimura, et al.: "Text Data Mining : Discovery of Important Keywords in the Cyberspace"Proc.2000 Kyoto International Conference on Digital Libraries : Research and Practice, Kyoto University. (2001)
- Related Report
  2000 Annual Research Report
[Publications] G.Navarro,T.Kida,M.Takeda,A.Shinohara: "Faster Approximate String Matching Over Compressed Text."Proc.Data Compression Conference (DCC'2001),. (2001)
- Related Report
  2000 Annual Research Report
[Publications] Masayuki Takeda: "Speeding up string pattern matching by text compression : The dawn of a new era"情報処理学会論文誌. 42・3. (2001)
- Related Report
  2000 Annual Research Report
[Publications] Masayuki Takeda, et al.: "Discovering characteristic expressions from literary works : A new text analysis method beyond N-gram statistics and KWIC"Proc.3rd International Conference on Discovery Science (DS'2000). 112-126 (2000)
- Related Report
  2000 Annual Research Report
[Publications] T. Kida et al: "A Unifying Framework for Compressed Pattern Matching"Proc. 6th Int. Symp. String Processing and Information Retrieval. 89-96 (1999)
- Related Report
  1999 Annual Research Report
[Publications] K. Tamari et al: "Discovering Poetic Allusion in Anthologies of Classical Japanese Poems"Proc. 2nd Int. Conf. on Discovery Science. LNAI1721. 128-138 (1999)
- Related Report
  1999 Annual Research Report
[Publications] R. Fujino et al: "Discovering Unordered and Orderd Phrase Association Patterns for Text Mining"Proc. PAKDD2000. LNAI(印刷中). (2000)
- Related Report
  1999 Annual Research Report
[Publications] H. Arimura et al: "Efficient Discovery of Optimal Word-Association Patterns in Large Text Databases"New Generation Computing. 18(1). 49-60 (2000)
- Related Report
  1999 Annual Research Report
[Publications] M. Yamasaki et al: "Discovering Characteristic Patterns from Collections of Classical Japanese Poems"New Generation Computing. 18(1). 61-73 (2000)
- Related Report
  1999 Annual Research Report
[Publications] Y. Shibata et al: "Speeding Up Pattern Matching by Text Compression"Proc. 4th Italian Conf. on Algorithms and Complexity. LNCS1767. 306-316 (2000)
- Related Report
  1999 Annual Research Report

Development of Efficient Data Mining Systems for Large Semi-Structured Text Data

Principal Investigator

ARIMURA Hiroki Department of Informatics, Kyushu University, Assoc. Prof., 大学院・システム情報科学研究院, 助教授 (20222763)

¥9,800,000 (Direct Cost: ¥9,800,000)

Report

Research Products

[Publications] H.Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)

Description

Related Report

[Publications] M.Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)

Description

Related Report

[Publications] T.Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Science. 2138. 335-346 (2001)

Description

Related Report

[Publications] K.Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)

Description

Related Report

[Publications] A.Yamamoto et al.: "Deductive and Inductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)

Description

Related Report

[Publications] K.Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)

Description

Related Report

[Publications] T.Kodota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8th International Symposium on String Processing and Information Retrieval (SPJRE2001). 111-122 (2001)

Description

Related Report

[Publications] S.Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8th International Symposium on String Processing and Information Retrieval (SPJRE2001). 96-110 (2001)

Description

Related Report

[Publications] H.Hori et al.: "Fragmentary Pattern Matching : Complexity, Algorithms aid Applications for Analyzing Classic Literary Works"Proc. 12th Annual International Symposium on Algorithms and Computation (ISAAC' 01). 719-730 (2001)

Description

Related Report

[Publications] M.Takeda: "String resemblace system : A unifying framework for string similarity with applications to literature and music"Lecture Notes in Computer Science. 2089. 147-151 (2001)

Description

Related Report

[Publications] T.Kida et al.: "Multiple pattern matching algorithms on collage system"Lecture Notes in Computer Science. 2089. 193-206 (2001)

Description

Related Report

[Publications] Tetsuya Nasukawa et al.: "Base Technology for Text Mining"Journal of Japanese Society for Artificial Intelligence. 16(2). 201-211 (2001)

Description

Related Report

[Publications] Hiroshi Sakamoto et al.: "Web Mining"Journal of Japanese Society for Artificial Intelligence. 16(2). 233-238 (2001)

Description

Related Report

[Publications] Hiroshi Sakamoto et al.: "Extracting Partial Structures from HTML Documents"Proc. the 14th Florida Artificial Intelligence Research Symposium (FLAIRS' 2001). 264-268 (2001)

Description

Related Report

[Publications] Hiroki Arimura et al.: "Efficient Discovery of Proximity Patterns with Suffix Arrays"Lecture Notes in Computer Science. 2089. 152-156 (2001)

Description

Related Report

[Publications] Toru Kasai et al.: "Linear-time Longest-Common-Prefix Computation in Suffix Arrays and Its Applications"Lecture Notes in Computer Science. 2089. 181-192 (2001)

Description

Related Report

[Publications] Katsuaki Taniguchi et al.: "Mining Semi-Structured Data by Path Expressions"Lecture Notes in Artificial Intelligence. 2226. 378-388 (2001)

Description

Related Report

[Publications] H. Arimura et al.: "Efficient Learning of Semi-Structured Data from Queries"Lecture Notes in Artificial Intelligence. 2225. 315-331 (2001)

Description

Related Report

[Publications] M. Takeda et al.: "Mining from Literary Texts : Pattern Discovery and Similarity Computation"Lecture Notes in Computer Science. 2281. 520-533 (2002)

Description

Related Report

[Publications] T. Shoudai et al.: "Polynomial Time Algorithms for Finding Unordered Tree Patterns with Internal Variables"Lecture Notes in Computer Science. 2138. 335-346 (2001)

Description

Related Report

[Publications] K. Yamamoto et al.: "Discovering Repetitive Expressions and Affinities from Anthologies of Classical Japanese Poems"Lecture Notes in Artificial Intelligence. 2226. 413-425 (2001)

Description

Related Report

[Publications] A. Yamamoto et al.: "Deductive and Inductive Reasoning on Semi-Structured Documents Modeled with Hedges"Lecture Notes in Artificial Intelligence. 2157. 140-147 (2001)

Description

Related Report

[Publications] K. Hirata et al.: "Prediction-Preserving Reducibility with Membership Queries on Formal Languages"Lecture Notes in Computer Science. 2138. 172-183 (2001)

Description

Related Report

[Publications] T. Kadota et al.: "Musical Sequence Comparison for Melodic and Rhythmic Similarities"Proc. 8th International Symposium on String Processing and Information Retrieval (SPIRE2001). 111-122 (2001)

Description

Related Report

[Publications] S. Inenaga et al.: "On-Line Construction of Symmetric Compact Directed Acyclic Word Graphs"Proc. 8th International Symposium on String Processing and Information Retrieval (SPIRE2001). 96-110 (2001)

Description