• 研究課題をさがす
  • 研究者をさがす
  • KAKENの使い方
  1. 課題ページに戻る

2005 年度 実績報告書

機械学習手法による半構造データマイニングと情報抽出

研究課題

研究課題/領域番号 16016275
研究機関広島市立大学

研究代表者

宮原 哲浩  広島市立大学, 情報科学部, 助教授 (90209932)

研究分担者 内田 智之  広島市立大学, 情報科学部, 助教授 (70264934)
平田 耕一  九州工業大学, 情報工学部, 助教授 (20274558)
久保山 哲二  東京大学, 国際産学共同研究センター, 助手 (80302660)
キーワード機械学習 / 半構造データマイニング / 情報抽出 / 木構造パターン / タグ木パターン
研究概要

本研究課題では,機械学習手法による半構造データマイニングと情報抽出について研究を行い,本年度は次の成果を得た.
Web空間の爆発的な発展に伴い,インターネット上の大規模分散コンテンツを流通・提供・活用するための手法やシステムの研究開発が求められている.機械学習技術を適用することは,人に優しい情報通信技術やフレンドリーな情報処理システムの開発に有効である.本研究課題では,HTML/XMLファイルなどのWeb文書が半構造性を持つことに注目し,機械学習技術を活用して,半構造データからのデータマイニング技術を発展させ,Webデータから有用なコンテンツを発見する手法,すなわち情報抽出技術を確立することを目的とする.
均質でない半構造文書からの情報抽出に応用するため,半構造文書に共通する構造的特徴を表現する木構造パターンである,高さ制約変数付きの極大頻出タグ木パターンを発見するアルゴリズムを与えた.電気図面などTTSPグラフでモデル化できる半構造データに共通する構造パターンを表現するTTSP項グラフを多項式時間で帰納推論する学習アルゴリズムを与えた.半構造データを効率よく比較・照合するための様々な手法を統一的に記述できる一般的なフレームワークを与え,従来知られていなかった編集距離に基づく木の近似照合クラス間の関係を明らかにした.複数の半構造データを統合するため,近似照合から2つの木を結合する効率的なアルゴリズムを提案した.半構造データのフィルタリングやクラスタリングを行うために,半構造データからの局所位相情報に基づく距離を考案し,これを高速に計算する手法を開発した.

  • 研究成果

    (10件)

すべて 2006 2005

すべて 雑誌論文 (10件)

  • [雑誌論文] On Generalization and Subsumption for Ordered Clauses2006

    • 著者名/発表者名
      Megumi Kuwabara et al.
    • 雑誌名

      Proc.19th Annual Conferences of the Japanese Society for Artificial Intelligence, Lecture Notes in Artificial Intelligence

  • [雑誌論文] Discovery o Maximally Frequent Tag Tree Patterns with Height-Constrained Variables from Semistructured Web Documents2005

    • 著者名/発表者名
      Yusuke Suzuki et al.
    • 雑誌名

      Proc.International Workshop on Challenges in Web Information Retrieval and Integration (WIRI 2005), IEEE Computer Society

      ページ: 104-112

  • [雑誌論文] Polynomial Time Inductive Inference of TTSP Graph Languages from Positive Data2005

    • 著者名/発表者名
      Ryoji Takami et al.
    • 雑誌名

      Proc.ILP 2005, Lecture Notes in Artificial Intelligence (Springer-Verlag) 3625

      ページ: 366-383

  • [雑誌論文] The q-Gram Distance for Ordered Unlabeled Tree2005

    • 著者名/発表者名
      Nobuhito Ohkura et al.
    • 雑誌名

      Proc.DS 2005, Lecture Notes in Artificial Intelligence (Springer-Verlag) 3735

      ページ: 189-202

  • [雑誌論文] On Finding Acyclis Subhypergrahs2005

    • 著者名/発表者名
      Kouichi Hirata et al.
    • 雑誌名

      Proc.FCT 2005, Lecture Notes in Computer Science (Springer-Verlag) 3623

      ページ: 491-503

  • [雑誌論文] Extraction of Frequent Few-Overlapped Monotone DNF Formulas with Depth-First Pruning2005

    • 著者名/発表者名
      Yoshikazu Shima et al.
    • 雑誌名

      Proc.PAKDD 2005, Lecture Notes in Artificial Intelligence (Springer-Verlag) 3518

      ページ: 50-60

  • [雑誌論文] Disjunctive Rules Extracted from MRSA Data with Verification2005

    • 著者名/発表者名
      Kouichi Hirata et al.
    • 雑誌名

      Proc.1st International Conference on Complex Medical Engineering (CME 2005)

      ページ: 326-330

  • [雑誌論文] Extracting Disjunctive Closed Rules from MRSA Data2005

    • 著者名/発表者名
      Yoshikazu Shima et al.
    • 雑誌名

      Proc.1st International Conference on Complex Medical Engineering (CME 2005)

      ページ: 321-325

  • [雑誌論文] A Theoretical Analysis of Tree Edit Distance Measures2005

    • 著者名/発表者名
      Tetsuji Kuboyama et al.
    • 雑誌名

      情報処理学会論文誌 数理モデル化と応用(TOM) Vol.46,No.SIG17

      ページ: 31-45

  • [雑誌論文] A Theoretical Analysis of Alignment and Edit Problems for Trees2005

    • 著者名/発表者名
      Tetsuji Kuboyama et al.
    • 雑誌名

      Proc.ICTCS 2005, Lecture Notes in Computer Science (Springer-Verlag) 3701

      ページ: 323-337

URL: 

公開日: 2007-04-02   更新日: 2016-04-21  

サービス概要 検索マニュアル よくある質問 お知らせ 利用規程 科研費による研究の帰属

Powered by NII kakenhi