研究概要 |
本研究課題では,数値属性とグラフ構造を有するハイブリッドデータからのデータマイニングについて研究を行い,本年度は次の成果を得た. 本研究の目的は,コンピュータ上,インターネット上に存在するデジタルデータのうちで,数値属性とグラフ構造を有するハイブリッドデータとみなせるデータを対象として,有益な知識やパターンを発見し有用な情報を抽出するための理論的基礎を確立し,データマイニングシステムを実現することである. HTML/XMLファイルは木構造データとみなせるので,木構造データから特徴的パターンを発見する手法は有用である.そこで,与えられた正事例と負事例である木構造データから,正事例をすべて説明し,負事例をひとつも説明しない木構造パターンを発見する方法を,遺伝的プログラミングを応用して実現した木構造パターンとしてタグ木パターンを用いた.タグ木パターンの変数は,任意の木を代入できる構造的な変数であるが,この変数は表現としては特別な辺とみなせるため,木構造を対象とする遺伝的手法である,遺伝的プログラミングを自然に応用できることがわかった. 実験や観測によって得られた数値データから,そのデータを説明する実数値関数を推論することは,数値データからのデータマイニングを実現するための基本的な学習手法である.前年度の研究を発展させて,有限個の例から帰納的実数値関数を予測する有限予測という推論基準について,無矛盾推論,有限推論などの帰納的実数値関数の帰納推論における推論基準と推論能力を比較した.
|