研究概要 |
本研究課題では,数値属性とグラフ構造を有するハイブリッドデータからのデータマイニングについて研究を行い,本年度は次の成果を得た. 本研究の目的は,コンピュータ上,インターネット上に存在するデジタルデータのうちで,数値属性とグラフ構造を有するハイブリッドデータとみなせるデータを対象として,有益な知識やパターンを発見し,有用な情報を抽出するための理論的基礎を確立し,データマイニングシステムを実現することである. 極小一般化タグ木パターン発見システムを利用して,Webデータ,HTML/XMLファイルからの情報抽出を行い,タグ情報,テキスト情報数値データなどに分けて,データを切り出す.極小一般化タグ木パターンのタグの解析木と数値データを組み合わせて,タグを属性とみなし,対応する数値データを,その属性値とみなす.このアプローチを,帰納的実数を用いる枠組みへ拡張する. 実験や観測によって得られた数値データから,そのデータを説明する実数値関数を推論することは,数値データからのデータマイニングを実現するための基本的な学習手法である.このような数値データは,一般に,実験や観測による誤差を含んでおり,、実際の値そのものではない.そこで,観測による誤差限界を考え合わせ,その値の範囲を特定し,実数値を実際の値を含む閉区間として表す.この実数値の表現方法は区間解析の分野における区関数として知られており,帰納的実数とはコンピュータで扱うことのできる実数のことである.そこで,論駁推論と信頼推論に注目して,帰納的実数値関数の帰納推論可能性を調べた.また,Webデータからの情報抽出に利用できる,高さ制約変数を持つ順序項木の学習可能性を調べた.
|