研究概要 |
XMLを中心とする半構造データの登場により,情報抽出は次の新しい局面を迎えている.本研究の目的は,半構造データからの情報抽出問題を木構造へ一般化し,複雑な抽出を効率的に行うための枠組みを提案することである.これまでの枠組みでは半構造データからデータの場所を推論してテキストのみを取り出していた.これに対して本研究では『構造化テキスト』すなわち半構造データの部分木に相当する部分を学習によって抽出する.学習アルゴリズムの目標は与えられたデータから一般構造を取り出してラッパー(抽出規則)を構築することであり,抽出アルゴリズムはラッパーと未知のデータをマッチングさせて適切なデータを取り出す.これらのアルゴリズムを実現するために研究計画として以下の3つの課題を設けているが,初年度はそのうち(1)と(2)について成果をあげた. (1)多様な論理構造を持っデータを表現できる木構造ラッパーを定式化する.一般の文字列は変数や関数記号を導入することでより一般的な表現になる.この考えを応用して正規表現の概念を木構造へ導入する. (2)半構造データを一般化する手続きを確立し,木構造ラッパーを学習するアルゴリズムを構築する.この枠組みでは複数の木構造を同時に一般化するため,ダイナミックプログラミングを応用してメモリーを圧迫しない学習アルゴリズムの実現を目指す. (3)高速な抽出アルゴリズムを実装し,実験によって有効性を示す.素朴な手法によって抽出アルゴリズムを実装する場合,未知のデータを一度構文解析する必要があり,このままでは高速化は難しい.そこで従来の文字列照合問題を木構造テータのマッチングへ拡張し,構文解析を必要としない手法を確立する. 従来の枠組みでは簡単な抽出しか行うことができなかったが,本研究では一般化によってデータの構造を学習し,複雑な抽出を行うことができる.またデータから部分木を一部加工して抽出することもできるようになる.最終年度は、これらの結果をふまえて,総合的なシステムの実現を目指す.
|