• Search Research Projects
  • Search Researchers
  • How to Use
  1. Back to previous page

最適パターン発見に基づく大規模半構造データからの知的情報獲得システムの開発

Research Project

Project/Area Number 15017268
Research Category

Grant-in-Aid for Scientific Research on Priority Areas

Allocation TypeSingle-year Grants
Review Section Science and Engineering
Research InstitutionKyushu University

Principal Investigator

有村 博紀  九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)

Co-Investigator(Kenkyū-buntansha) 篠原 歩  九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
竹田 正幸  九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
坂本 比呂志  九州工業大学, 情報工学部, 助教授 (50315123)
下薗 真一  九州工業大学, 情報工学部, 助教授 (70243988)
Project Period (FY) 2003
Project Status Completed (Fiscal Year 2003)
Budget Amount *help
¥5,200,000 (Direct Cost: ¥5,200,000)
Fiscal Year 2003: ¥5,200,000 (Direct Cost: ¥5,200,000)
Keywordsウェブマイニング / 最適パターン発見 / XML / 情報抽出 / データストリームマイニング / 知識獲得 / データマイニング
Research Abstract

本研究では,大量のウェブページやXML等の大規模半構造データからのデータマイニング(ウェブマイニング)に基づき,大量のデータ解析を対話的に支援する効率的なツールとして,従来の情報検索システムを超えた新しい情報アクセスシステムの実現方式を明らかにすることを目標としている.鍵になる技術として,最適パターン発見を木やグラフ構造に拡張し,計算量理論と計算学習理論の最新の成果を援用しながら,半構造データに対する頑健かつ高速な最適化パターン発見アルゴリズムの開発に取り組んだ.平成15年度は,前年度の成果に基づき,(a)有用な情報源の発見,(b)特徴的なパターンの発見,(c)情報の抽出の3つの情報獲得問題について,次の研究を行った.
(1)前年度開発した最適分類パターンを用いた高精度テキスト自動分類手法を一種の正規表現を扱えるよう一般化した.さらに,近似文字列照合を可能なパターン発見エンジンを開発し,加速学習法を用いて決定木学習システムBONSAIに組み込んだ(竹田・篠原).
(2)XPathパターンに対する最適パターン発見アルゴリズムを設計し,半構造データマイニングエンジンを開発した.とくに今回は,より現実の半構造データに近い無順序木モデルに対して,高速なパターン発見エンジンを開発した.パターンの圧縮表現に対する,高速な列挙アルゴリズムを開発した.独自に開発したオンライン化技術を用いて,オンラインパターン発見手法を開発した(有村).
(3)情報抽出に関して,現状の技術動向の調査を行い,水平方向制約(Sequence制約)付き半構造データに対するラッパー帰納アルゴリズムの設計を行った(坂本).さらに,半構造データに適した高性能圧縮アルゴリズムを開発し,性能に関する理論的解析を行った.並行して,開発したアルゴリズムの計算量を解析し(下薗,篠原),個々のアルゴリズムの最適化をおこない,性能を向上させた(全員).最後に,ウェブデータとXMLデータに関する評価実験をおこない,この方式の有効性を評価した(有村・篠原).

Report

(1 results)
  • 2003 Annual Research Report
  • Research Products

    (12 results)

All Other

All Publications (12 results)

  • [Publications] Hiroshi Sakamoto et al.: "Learning Elementary Formal Systems with Queries"Theoretical Computer Science. 298(1). 21-50 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Tatsuya Asai et al.: "Discovering Frequent Substructures in Large Unordered Trees"Proc.the 6th International Conference on Discovery Science (DS'03). 2843. 47-61 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Takeaki Uno et al.: "LCM : An Efficient Algorithm for Enumerating Frequent Closed Item Sets"Proc.ICDM'03 Workshop on Frequent Itemset Mining Implementations (FIMI'03). (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] 有村 博紀: "計算学習理論における学習"人工知能学会誌. 18・5. 531-536 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Tatsuya Asai et al.: "半構造データマイニングにおけるパターン発見技法"電子情報通信学会論文誌. J87-D-1・2. 111-139 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Hiroki Arimura: "Efficient Text and Semi-structured Data Mining : Knowledge Discovery in the Cyberspace"The first Franco-Japanese Workshop on Information Search, Integration and Personalization (ISIP'03). (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Masayuki Takeda et al.: "Discovering Most Classificatory Patterns for Very Expressive Pattern Classes"Lecture Notes in Computer Science. 2843. 486-493 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Tomohiko Sugimachi et al.: "A Method of Extracting Related Words Using Standardized Mutual Information"Lecture Notes in Computer Science. 2843. 478-485 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Shunsuke Inenaga et al.: "Linear-time off-line text compression by longest-first substitution"Lecture Notes in Computer Science. 2857. 137-152 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Hideo Bannai et al.: "Inferring Strings from Graphs and Arrays"Lecture Notes in Computer Science. 2747. 208-217 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Kensuke Baba et al.: "On the length of the minimum solution of word equations in one variable"Lecture Notes in Computer Science. 2747. 189-197 (2003)

    • Related Report
      2003 Annual Research Report
  • [Publications] Satoru Miyamoto et al.: "Ternary Directed Acyclic Word Graphs"Lecture Notes in Computer Science. 2759. 120-130 (2003)

    • Related Report
      2003 Annual Research Report

URL: 

Published: 2003-04-01   Modified: 2018-03-28  

Information User Guide FAQ News Terms of Use Attribution of KAKENHI

Powered by NII kakenhi