半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築

研究課題

研究課題/領域番号	15700136
研究種目	若手研究(B)
配分区分	補助金
研究分野	知能情報学
研究機関	九州工業大学
研究代表者	坂本比呂志九州工業大学, 情報工学部, 助教授 (50315123)
研究期間 (年度)	2003 – 2004
研究課題ステータス	完了 (2004年度)
配分額 *注記	3,400千円 (直接経費: 3,400千円) 2004年度: 1,600千円 (直接経費: 1,600千円) 2003年度: 1,800千円 (直接経費: 1,800千円)
キーワード	半構造データ / 情報抽出 / ラッパー帰納 / 木構造データ / 機械学習
研究概要	XMLを中心とする半構造データの登場により,情報抽出は次の新しい局面を迎えている.本研究の目的は,半構造データからの情報抽出問題を木構造へ一般化し,複雑な抽出を効率的に行うための枠組みを提案することである.これまでの枠組みでは半構造データからデータの場所を推論してテキストのみを取り出していた.これに対して本研究では『構造化テキスト』すなわち半構造データの部分木に相当する部分を学習によって抽出する.学習アルゴリズムの目標は与えられたデータから一般構造を取り出してラッパー(抽出規則)を構築することであり,抽出アルゴリズムはラッパーと未知のデータをマッチングさせて適切なデータを取り出す.これらのアルゴリズムを実現するために研究計画として以下の3つの課題を設けているが,最終年度はそのうち3.について成果をあげた. 1.多様な論理構造を持つデータを表現できる木構造ラッパーを定式化する.一般の文字列は変数や関数記号を導入することでより一般的な表現になる.この考えを応用して正規表現の概念を木構造へ導入する. 2.半構造データを一般化する手続きを確立し,木構造ラッパーを学習するアルゴリズムを構築する.この枠組みでは複数の木構造を同時に一般化するため,ダイナミックプログラミングを応用してメモリーを圧迫しない学習アルゴリズムの実現を目指す. 3.高速な抽出アルゴリズムを実装し,実験によって有効性を示す.素朴な手法によって抽出アルゴリズムを実装する場合,未知のデータを一度構文解析する必要があり,このままでは高速化は難しい.そこで従来の文字列照合問題を木構造データのマッチングへ拡張し,構文解析を必要としない手法を確立する. 本研究における一般化によって,データの構造を学習し複雑な抽出を行うことができる.

報告書

(2件)

2004 実績報告書
2003 実績報告書

研究成果
(7件)

すべて 2005 2004 その他

すべて雑誌論文 (4件) 文献書誌 (3件)

[雑誌論文] A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression2005
- 著者名/発表者名
  H.Sakamoto
- 雑誌名
  
  Journal of Discrete Algorithms (in press)
- 関連する報告書
  2004 実績報告書
[雑誌論文] A Simple Extension of Queriable Compression for XML Data2005
- 著者名/発表者名
  T.Maita, H.Sakamoto
- 雑誌名
  
  Proc.the 2005 International Conference on Active Media Technology (to appear)
- 関連する報告書
  2004 実績報告書
[雑誌論文] Efficient Substructure Discovery from Large Semi-structured Data2004
- 著者名/発表者名
  T.Asai, K.Abe, S.Kawasoe, H.Sakamoto, H.Arimura, S.Arikawa
- 雑誌名
  
  IEICE Transactions on Information and Systems E87-D
  
  ページ: 2757-2763
- NAID
  110003213885
- 関連する報告書
  2004 実績報告書
[雑誌論文] A Space-Saving Linear-Time Algorithm for Grammar-Based Compression2004
- 著者名/発表者名
  H.Sakarnoto, T.Kida, S.Shimozono
- 雑誌名
  
  Proc.11th International Symposium on String Processing and Information Retrieval LNCS3246
  
  ページ: 218-229
- 関連する報告書
  2004 実績報告書
[文献書誌] Hiroshi Sakamoto, Kouichi Hirata, Hiroki Arimura: "Learning Elementary Formal Systems with Queries"Theoretical Computer Science. 298. 21-50 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Hiroshi Sakamoto: "最適データ圧縮のための省スペースな近似アルゴリズム"情報技術レターズ(情報科学技術フォーラム講演論文集). 29-30 (2003)
- 関連する報告書
  2003 実績報告書
[文献書誌] Hiroshi Sakamoto: "A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression"Lecture Notes in Computer Science. 2676. 348-360 (2003)
- 関連する報告書
  2003 実績報告書

半構造テキストデータの一般構造を推論する高度情報抽出アルゴリズムの構築

研究代表者

坂本 比呂志 九州工業大学, 情報工学部, 助教授 (50315123)

3,400千円 (直接経費: 3,400千円)

報告書

研究成果

[雑誌論文] A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] A Simple Extension of Queriable Compression for XML Data2005

著者名/発表者名

雑誌名

関連する報告書

[雑誌論文] Efficient Substructure Discovery from Large Semi-structured Data2004

著者名/発表者名

雑誌名

NAID

関連する報告書

[雑誌論文] A Space-Saving Linear-Time Algorithm for Grammar-Based Compression2004

著者名/発表者名

雑誌名

関連する報告書

[文献書誌] Hiroshi Sakamoto, Kouichi Hirata, Hiroki Arimura: "Learning Elementary Formal Systems with Queries"Theoretical Computer Science. 298. 21-50 (2003)

関連する報告書

[文献書誌] Hiroshi Sakamoto: "最適データ圧縮のための省スペースな近似アルゴリズム"情報技術レターズ(情報科学技術フォーラム講演論文集). 29-30 (2003)

関連する報告書

[文献書誌] Hiroshi Sakamoto: "A Fully Linear-Time Approximation Algorithm for Grammar-Based Compression"Lecture Notes in Computer Science. 2676. 348-360 (2003)

関連する報告書

坂本比呂志九州工業大学, 情報工学部, 助教授 (50315123)