• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 前のページに戻る

最適パターン発見に基づく大規模半構造データからの知的情報獲得システムの開発

研究課題

研究課題/領域番号 15017268
研究種目

特定領域研究

配分区分補助金
審査区分 理工系
研究機関九州大学

研究代表者

有村 博紀  九州大学, 大学院・システム情報科学研究院, 助教授 (20222763)

研究分担者 篠原 歩  九州大学, 大学院・システム情報科学研究院, 助教授 (00226151)
竹田 正幸  九州大学, 大学院・システム情報科学研究院, 助教授 (50216909)
坂本 比呂志  九州工業大学, 情報工学部, 助教授 (50315123)
下薗 真一  九州工業大学, 情報工学部, 助教授 (70243988)
研究期間 (年度) 2003
研究課題ステータス 完了 (2003年度)
配分額 *注記
5,200千円 (直接経費: 5,200千円)
2003年度: 5,200千円 (直接経費: 5,200千円)
キーワードウェブマイニング / 最適パターン発見 / XML / 情報抽出 / データストリームマイニング / 知識獲得 / データマイニング
研究概要

本研究では,大量のウェブページやXML等の大規模半構造データからのデータマイニング(ウェブマイニング)に基づき,大量のデータ解析を対話的に支援する効率的なツールとして,従来の情報検索システムを超えた新しい情報アクセスシステムの実現方式を明らかにすることを目標としている.鍵になる技術として,最適パターン発見を木やグラフ構造に拡張し,計算量理論と計算学習理論の最新の成果を援用しながら,半構造データに対する頑健かつ高速な最適化パターン発見アルゴリズムの開発に取り組んだ.平成15年度は,前年度の成果に基づき,(a)有用な情報源の発見,(b)特徴的なパターンの発見,(c)情報の抽出の3つの情報獲得問題について,次の研究を行った.
(1)前年度開発した最適分類パターンを用いた高精度テキスト自動分類手法を一種の正規表現を扱えるよう一般化した.さらに,近似文字列照合を可能なパターン発見エンジンを開発し,加速学習法を用いて決定木学習システムBONSAIに組み込んだ(竹田・篠原).
(2)XPathパターンに対する最適パターン発見アルゴリズムを設計し,半構造データマイニングエンジンを開発した.とくに今回は,より現実の半構造データに近い無順序木モデルに対して,高速なパターン発見エンジンを開発した.パターンの圧縮表現に対する,高速な列挙アルゴリズムを開発した.独自に開発したオンライン化技術を用いて,オンラインパターン発見手法を開発した(有村).
(3)情報抽出に関して,現状の技術動向の調査を行い,水平方向制約(Sequence制約)付き半構造データに対するラッパー帰納アルゴリズムの設計を行った(坂本).さらに,半構造データに適した高性能圧縮アルゴリズムを開発し,性能に関する理論的解析を行った.並行して,開発したアルゴリズムの計算量を解析し(下薗,篠原),個々のアルゴリズムの最適化をおこない,性能を向上させた(全員).最後に,ウェブデータとXMLデータに関する評価実験をおこない,この方式の有効性を評価した(有村・篠原).

報告書

(1件)
  • 2003 実績報告書
  • 研究成果

    (12件)

すべて その他

すべて 文献書誌 (12件)

  • [文献書誌] Hiroshi Sakamoto et al.: "Learning Elementary Formal Systems with Queries"Theoretical Computer Science. 298(1). 21-50 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Tatsuya Asai et al.: "Discovering Frequent Substructures in Large Unordered Trees"Proc.the 6th International Conference on Discovery Science (DS'03). 2843. 47-61 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Takeaki Uno et al.: "LCM : An Efficient Algorithm for Enumerating Frequent Closed Item Sets"Proc.ICDM'03 Workshop on Frequent Itemset Mining Implementations (FIMI'03). (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] 有村 博紀: "計算学習理論における学習"人工知能学会誌. 18・5. 531-536 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Tatsuya Asai et al.: "半構造データマイニングにおけるパターン発見技法"電子情報通信学会論文誌. J87-D-1・2. 111-139 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Hiroki Arimura: "Efficient Text and Semi-structured Data Mining : Knowledge Discovery in the Cyberspace"The first Franco-Japanese Workshop on Information Search, Integration and Personalization (ISIP'03). (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Masayuki Takeda et al.: "Discovering Most Classificatory Patterns for Very Expressive Pattern Classes"Lecture Notes in Computer Science. 2843. 486-493 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Tomohiko Sugimachi et al.: "A Method of Extracting Related Words Using Standardized Mutual Information"Lecture Notes in Computer Science. 2843. 478-485 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Shunsuke Inenaga et al.: "Linear-time off-line text compression by longest-first substitution"Lecture Notes in Computer Science. 2857. 137-152 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Hideo Bannai et al.: "Inferring Strings from Graphs and Arrays"Lecture Notes in Computer Science. 2747. 208-217 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Kensuke Baba et al.: "On the length of the minimum solution of word equations in one variable"Lecture Notes in Computer Science. 2747. 189-197 (2003)

    • 関連する報告書
      2003 実績報告書
  • [文献書誌] Satoru Miyamoto et al.: "Ternary Directed Acyclic Word Graphs"Lecture Notes in Computer Science. 2759. 120-130 (2003)

    • 関連する報告書
      2003 実績報告書

URL: 

公開日: 2003-04-01   更新日: 2018-03-28  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi